Kas jums jāzina par Bayesian mēstuļu filtrēšanu

Uzziniet, kā statistika palīdz notīrīt iesūtni

Bayesa surogātpasta filtrus aprēķina varbūtību, ka ziņojums ir mēstule, pamatojoties uz tā saturu. Atšķirībā no vienkāršajiem satura filtriem, Bayesa surogātpasta filtrēšana mācās no surogātpasta un no laba pasta, tādējādi izveidojot ļoti stabilu, pielāgojamu un efektīvu anti-spam pieeju, kas vislabāk atgriež gandrīz nekādus kļūdainus rezultātus.

Kā jūs atpazīt nevēlamo e-pastu?

Padomājiet par to, kā jūs atklājat surogātpastu . Ātrs skatiens bieži vien ir pietiekami. Jūs zināt, kāds mēstules izskatās, un jūs zināt, kāds ir labs pasts.

Surogātpasts, kas izskatās kā labs pasts, ir aptuveni ... nulle.

Novērtējot satura filtrus, nepielāgo

Vai nebūtu lieliski, ja automātiski arī spam filtri strādātu tāpat?

Mēģiniet tikai to, lai novērtētu satura spam filtri. Viņi meklē vārdus un citas surogātpastu raksturojošas īpašības. Katram raksturīgajam elementam tiek piešķirts vērtējums, un visam ziņojumam mēnesis tiek izskaitļots no atsevišķiem rādītājiem. Daži vērtēšanas filtri arī meklē raksturīgo leģitīmo pastu, pazeminot ziņojuma gala rezultātu.

Rezultātu filtrēšanas pieeja darbojas, taču tai ir arī vairāki trūkumi:

Bayesian mēstuļu filtri Kniebiens sevi, labāku un labāku

Bayesa surogātpasta filtri ir sava veida vērtēšanas satura filtri. Tomēr viņu pieeja novērš vienkāršu skenēšanas spamu filtru problēmas, un tas tā ir radikāli. Tā kā vērtēšanas filtru vājums ir manuāli izveidotais raksturlielumu saraksts un to rezultāti, šis saraksts tiek izslēgts.

Tā vietā Bayesian surogātpasta filtri izveido sarakstu pats. Ideālā gadījumā jūs sākat ar (lielu) e-pastu, ko esat klasificējuši kā surogātpastu, un vēl vienu labu pastu. Filtri izskatās abos un analizē leģitīmo pastu un surogātpastu, lai aprēķinātu dažādu raksturlielumu iespējamību, kas parādās surogātpasta ziņā, un labā pasta ziņā.

Kā Bayesian surogātpasta filtrs pārbauda e-pastu

Bāzei raksturīgo spam filtru var apskatīt šādi:

Piemēram, ja kāds vārds "Dekarta", piemēram, nekad neparādās surogātpasta ziņā, bet bieži vien leģitī tajā e-pasta ziņā, ko jūs saņemat, varbūtība, ka "Dekarta" apzīmē surogātpastu, ir gandrīz nulle. No otras puses, "toneris" parādās tikai un bieži vien surogātpasā. "Toneram" ir ļoti liela varbūtība, ka to var atrast surogātpasta vietā, nevis daudz mazāk par 1 (100%).

Kad ierodas jauns ziņojums, to analizē ar Bayesian surogātpasta filtru, un pilnīgas ziņas kā surogātpasta iespējamību aprēķina, izmantojot individuālās īpašības.

Pieņemsim, ka ziņojumā ir gan "Dekarta", gan "toneris". Vienīgi no šiem vārdiem vēl nav skaidrs, vai mums ir surogātpasts vai legitāls pasts. Citas īpašības (cerams un visticamāk) norāda varbūtību, kas filtram ļauj klasificēt ziņojumu kā surogātpastu vai labu pastu.

Bayesian mēstuļu filtri var iemācīties automātiski

Tagad, kad mums ir klasifikācija, ziņojumu var izmantot, lai tālāk attīrītu filtru. Šajā gadījumā tiek samazināta "Dekarta", kas norāda uz labo pastu, varbūtību (ja ziņojums, kurā ir gan "Dekarta", gan "toneris", tiek uzskatīts par mēstuli), vai arī ir jāpārskata "tonera" iespējamība, norādot surogātpastu.

Izmantojot šo automātiski pielāgojamo paņēmienu, Bayesa filtri var mācīties gan no pašu, gan no lietotāja lēmumiem (ja viņa manuāli koriģē nepareizu vērtējumu pēc filtriem). Bajesas filtra pielāgošanās spēja arī nodrošina to, ka katram e-pasta lietotājam tas ir visefektīvākais. Lai gan lielākā daļa cilvēku surogātpasta var būt līdzīgas īpašības, likumīgais pasts ir raksturīgi atšķirīgs visiem.

Kā surogātpasta izplatītāji var nokļūt agrāk par bijušo filtru?

Leģitārā pasta raksturlielumi ir tikpat svarīgi Bayeses mēstuļu filtrēšanas procesam, kāds ir surogātpasts. Ja filtri tiek apmācīti tieši katram lietotājam, surogātpasta izplatītājiem būs vēl grūtāk strādāt pie visiem (vai pat lielākajā daļā cilvēku) surogātpasta filtriem, un filtri var pielāgoties gandrīz visam, ko surogātpasta izplatītāji mēģina izmēģināt.

Surogātpasta izplatītāji to aizpildīs tikai labi apmācītiem Bayesa filtriem, ja viņi dara to, ka viņu surogātpasta ziņojumi izskatās perfekti, tāpat kā parasts e-pasts, ko ikviens var saņemt.

Surogātpasta izplatītāji parasti nenosūta šādus parastos e-pasta ziņojumus. Pieņemsim, ka tas notiek tādēļ, ka šie e-pasta ziņojumi nedarbojas kā nevēlamā e-pasta adrese. Tātad, visticamāk, viņi to nedara, kad vienkāršie, garlaicīgi e-pasta ziņojumi ir vienīgais veids, kā padarīt to par iepriekšējiem surogātpasta filtriem.

Ja surogātpasta izplatītāji pārslēgsies galvenokārt parastajiem e-pasta ziņojumiem, atkal mēs redzēsim daudz surogātpasta mūsu iesūtnēs, un e-pasts var kļūt tik satraucošs, kā tas bija pirmsbayes dienu laikā (vai pat vēl sliktāk). Tomēr tas arī ir izpostījis tirgu lielākajai daļai surogātpasta, lai gan, un tādējādi nebūs ilgstošs.

Spēcīgi rādītāji var būt Baijona mēstuļu filtrs Achilles & # 39; Papēdis

Viens izņēmums var tikt uztverts, ka surogātpasta izplatītāji, izmantojot savu Bayeses filtru, var izmantot savu parasto saturu. Bajesas statistikas raksturs liecina, ka viens vārds vai raksturlielums, kas ļoti bieži parādās labā pasta veidā, var būt tik nozīmīgs, ka jebkurš ziņojums var šķist, ka surogātpasts tiek klasificēts kā šķiņķis ar filtru.

Ja surogātpasta izplatītāji atrod veidu, kā noteikt drošus uguns e-pasta vārdus, piemēram, izmantojot HTML atmaksas kvītis, lai noskaidrotu, kuri ziņojumi tika atvērti, piemēram, viņi var iekļaut vienu no tiem nevēlamā veidā un sasniegt jūs, apmācīts Bajeses filtrs.

John Graham-Cumming to izmēģinājis, ļaujot diviem Bayeses filtrii strādāt viens pret otru, "slikti", kas pielāgojas ziņojumiem, kas tiek rādīti caur labo filtru. Viņš saka, ka tas darbojas, lai gan process ir laikietilpīgs un sarežģīts. Mēs nedomājam, ka mēs daudz redzēsim šo notikumu, vismaz ne lielā mērā, un nebūsim piemēroti personu e-pasta raksturlielumiem. Surogātpasta izplatītāji var (mēģināt) noskaidrot dažus atslēgvārdus organizācijām (kaut kas līdzīgs "Almaden" dažiem cilvēkiem, iespējams, IBM?).

Parasti surogātpasts vienmēr (būtiski) atšķiras no parastā pasta vai arī tas nebūs surogātpasts.

Bottom Line: Bayesian filtrēšanas spēks var būt tā vājums

Bayesa surogātpasta filtri ir satura filtri, kas: