Kas jums jāzina par Bayesian mēstuļu filtrēšanu

by Heinz Tschabitscher

Uzziniet, kā statistika palīdz notīrīt iesūtni

Bayesa surogātpasta filtrus aprēķina varbūtību, ka ziņojums ir mēstule, pamatojoties uz tā saturu. Atšķirībā no vienkāršajiem satura filtriem, Bayesa surogātpasta filtrēšana mācās no surogātpasta un no laba pasta, tādējādi izveidojot ļoti stabilu, pielāgojamu un efektīvu anti-spam pieeju, kas vislabāk atgriež gandrīz nekādus kļūdainus rezultātus.

Kā jūs atpazīt nevēlamo e-pastu?

Padomājiet par to, kā jūs atklājat surogātpastu . Ātrs skatiens bieži vien ir pietiekami. Jūs zināt, kāds mēstules izskatās, un jūs zināt, kāds ir labs pasts.

Surogātpasts, kas izskatās kā labs pasts, ir aptuveni ... nulle.

Novērtējot satura filtrus, nepielāgo

Vai nebūtu lieliski, ja automātiski arī spam filtri strādātu tāpat?

Mēģiniet tikai to, lai novērtētu satura spam filtri. Viņi meklē vārdus un citas surogātpastu raksturojošas īpašības. Katram raksturīgajam elementam tiek piešķirts vērtējums, un visam ziņojumam mēnesis tiek izskaitļots no atsevišķiem rādītājiem. Daži vērtēšanas filtri arī meklē raksturīgo leģitīmo pastu, pazeminot ziņojuma gala rezultātu.

Rezultātu filtrēšanas pieeja darbojas, taču tai ir arī vairāki trūkumi:

Raksturojumu saraksts ir veidots no surogātpasta (un laba pasta), kas pieejams filtra inženieriem. Lai gūtu labu izpratni par tipisko surogātpasta, ko varētu saņemt kāds cits, pasts jāsavāc simtiem e-pasta adreses. Tas vājina filtru efektivitāti, jo īpaši tādēļ, ka labā pasta raksturlielumi katrai personai atšķiras , bet to neņem vērā.
Raksturīgās pazīmes ir vairāk vai mazāk iemontētas akmenī . Ja surogātpasta izplatītāji pieliek pūles, lai pielāgotos (un padarītu to, ka surogātpasts izskatās kā labs pasts uz filtriem), filtra raksturlielumi ir jākoriģē manuāli - vēl lielākas pūles.
Katram vārdam piešķirtais vērtējums, iespējams, balstās uz labu aplēsi, taču tas joprojām ir patvaļīgs. Un tāpat kā raksturlielumu saraksts, tas nepielāgo ne mainīgajai surogātpastu kopumā, ne individuālas lietotāju vajadzībām.

Bayesian mēstuļu filtri Kniebiens sevi, labāku un labāku

Bayesa surogātpasta filtri ir sava veida vērtēšanas satura filtri. Tomēr viņu pieeja novērš vienkāršu skenēšanas spamu filtru problēmas, un tas tā ir radikāli. Tā kā vērtēšanas filtru vājums ir manuāli izveidotais raksturlielumu saraksts un to rezultāti, šis saraksts tiek izslēgts.

Tā vietā Bayesian surogātpasta filtri izveido sarakstu pats. Ideālā gadījumā jūs sākat ar (lielu) e-pastu, ko esat klasificējuši kā surogātpastu, un vēl vienu labu pastu. Filtri izskatās abos un analizē leģitīmo pastu un surogātpastu, lai aprēķinātu dažādu raksturlielumu iespējamību, kas parādās surogātpasta ziņā, un labā pasta ziņā.

Kā Bayesian surogātpasta filtrs pārbauda e-pastu

Bāzei raksturīgo spam filtru var apskatīt šādi:

protams, vārdu tekstā, un
tā galvenes (sūtītājus un ziņu ceļus , piemēram!), bet arī
citi aspekti, piemēram, HTML / CSS kods (piemēram, krāsas un cita veida formatēšana) vai pat
vārdu pāri, frāzes un
meta informācija (piemēram, ja parādās konkrēta frāze).

Piemēram, ja kāds vārds "Dekarta", piemēram, nekad neparādās surogātpasta ziņā, bet bieži vien leģitī tajā e-pasta ziņā, ko jūs saņemat, varbūtība, ka "Dekarta" apzīmē surogātpastu, ir gandrīz nulle. No otras puses, "toneris" parādās tikai un bieži vien surogātpasā. "Toneram" ir ļoti liela varbūtība, ka to var atrast surogātpasta vietā, nevis daudz mazāk par 1 (100%).

Kad ierodas jauns ziņojums, to analizē ar Bayesian surogātpasta filtru, un pilnīgas ziņas kā surogātpasta iespējamību aprēķina, izmantojot individuālās īpašības.

Pieņemsim, ka ziņojumā ir gan "Dekarta", gan "toneris". Vienīgi no šiem vārdiem vēl nav skaidrs, vai mums ir surogātpasts vai legitāls pasts. Citas īpašības (cerams un visticamāk) norāda varbūtību, kas filtram ļauj klasificēt ziņojumu kā surogātpastu vai labu pastu.

Bayesian mēstuļu filtri var iemācīties automātiski

Tagad, kad mums ir klasifikācija, ziņojumu var izmantot, lai tālāk attīrītu filtru. Šajā gadījumā tiek samazināta "Dekarta", kas norāda uz labo pastu, varbūtību (ja ziņojums, kurā ir gan "Dekarta", gan "toneris", tiek uzskatīts par mēstuli), vai arī ir jāpārskata "tonera" iespējamība, norādot surogātpastu.

Izmantojot šo automātiski pielāgojamo paņēmienu, Bayesa filtri var mācīties gan no pašu, gan no lietotāja lēmumiem (ja viņa manuāli koriģē nepareizu vērtējumu pēc filtriem). Bajesas filtra pielāgošanās spēja arī nodrošina to, ka katram e-pasta lietotājam tas ir visefektīvākais. Lai gan lielākā daļa cilvēku surogātpasta var būt līdzīgas īpašības, likumīgais pasts ir raksturīgi atšķirīgs visiem.

Kā surogātpasta izplatītāji var nokļūt agrāk par bijušo filtru?

Leģitārā pasta raksturlielumi ir tikpat svarīgi Bayeses mēstuļu filtrēšanas procesam, kāds ir surogātpasts. Ja filtri tiek apmācīti tieši katram lietotājam, surogātpasta izplatītājiem būs vēl grūtāk strādāt pie visiem (vai pat lielākajā daļā cilvēku) surogātpasta filtriem, un filtri var pielāgoties gandrīz visam, ko surogātpasta izplatītāji mēģina izmēģināt.

Surogātpasta izplatītāji to aizpildīs tikai labi apmācītiem Bayesa filtriem, ja viņi dara to, ka viņu surogātpasta ziņojumi izskatās perfekti, tāpat kā parasts e-pasts, ko ikviens var saņemt.

Surogātpasta izplatītāji parasti nenosūta šādus parastos e-pasta ziņojumus. Pieņemsim, ka tas notiek tādēļ, ka šie e-pasta ziņojumi nedarbojas kā nevēlamā e-pasta adrese. Tātad, visticamāk, viņi to nedara, kad vienkāršie, garlaicīgi e-pasta ziņojumi ir vienīgais veids, kā padarīt to par iepriekšējiem surogātpasta filtriem.

Ja surogātpasta izplatītāji pārslēgsies galvenokārt parastajiem e-pasta ziņojumiem, atkal mēs redzēsim daudz surogātpasta mūsu iesūtnēs, un e-pasts var kļūt tik satraucošs, kā tas bija pirmsbayes dienu laikā (vai pat vēl sliktāk). Tomēr tas arī ir izpostījis tirgu lielākajai daļai surogātpasta, lai gan, un tādējādi nebūs ilgstošs.

Spēcīgi rādītāji var būt Baijona mēstuļu filtrs Achilles & # 39; Papēdis

Viens izņēmums var tikt uztverts, ka surogātpasta izplatītāji, izmantojot savu Bayeses filtru, var izmantot savu parasto saturu. Bajesas statistikas raksturs liecina, ka viens vārds vai raksturlielums, kas ļoti bieži parādās labā pasta veidā, var būt tik nozīmīgs, ka jebkurš ziņojums var šķist, ka surogātpasts tiek klasificēts kā šķiņķis ar filtru.

Ja surogātpasta izplatītāji atrod veidu, kā noteikt drošus uguns e-pasta vārdus, piemēram, izmantojot HTML atmaksas kvītis, lai noskaidrotu, kuri ziņojumi tika atvērti, piemēram, viņi var iekļaut vienu no tiem nevēlamā veidā un sasniegt jūs, apmācīts Bajeses filtrs.

John Graham-Cumming to izmēģinājis, ļaujot diviem Bayeses filtrii strādāt viens pret otru, "slikti", kas pielāgojas ziņojumiem, kas tiek rādīti caur labo filtru. Viņš saka, ka tas darbojas, lai gan process ir laikietilpīgs un sarežģīts. Mēs nedomājam, ka mēs daudz redzēsim šo notikumu, vismaz ne lielā mērā, un nebūsim piemēroti personu e-pasta raksturlielumiem. Surogātpasta izplatītāji var (mēģināt) noskaidrot dažus atslēgvārdus organizācijām (kaut kas līdzīgs "Almaden" dažiem cilvēkiem, iespējams, IBM?).

Parasti surogātpasts vienmēr (būtiski) atšķiras no parastā pasta vai arī tas nebūs surogātpasts.

Bottom Line: Bayesian filtrēšanas spēks var būt tā vājums

Bayesa surogātpasta filtri ir satura filtri, kas:

ir īpaši apmācīti atpazīt atsevišķu e-pasta lietotāju surogātpastu un labu pastu , padarot tos ļoti efektīvus un sarežģītāk piemēroties surogātpasta izplatītājiem.
var pastāvīgi un bez lielām pūlēm vai manuāla analīze pielāgoties spameru jaunākajiem trikiem.
ņem vērā individuālā lietotāja labo pastu un ļoti mazo kļūdu skaitu .
Diemžēl, ja tas rada nepareizu uzticību Bayesa pretpasūtīšanas filtriem, gadījuma kļūda kļūst arvien nopietnāka . Pretējā viltus negatīvā ietekme (surogātpasts, kas izskatās tieši tāpat kā regulārais pasts) var potenciāli traucēt un sagraut lietotāju.