Šta trebate znati o Bayesian filtriranju neželjenog sadržaja

by Heinz Tschabitscher

Saznajte kako statistika pomaže pri čišćenju prijemnog sandučeta

Bayesovi filtri za neželjene račune izračunavaju vjerovatnoću da je poruka spam zasnovana na njegovom sadržaju. Za razliku od jednostavnih filtera zasnovanih na sadržaju, Bayesian filtriranje spama nauči od neželjene pošte i dobre pošte, što rezultira veoma robusnim, prilagođavajućim i efikasnim pristupom protiv neželjene pošte što, pre svega, vraća gotovo sve lažne pozitive.

Kako prepoznate neželjenu e-poštu?

Razmislite o tome kako otkrivate neželjenu poštu . Brzi pogled je često dovoljan. Znate kako spam izgleda, a vi znate kako izgleda dobra pošta.

Verovatnoća neželjene pošte koja izgleda kao dobra pošta je oko ... nula.

Procena filtera zasnovanih na sadržaju se ne prilagođava

Zar ne bi bilo sjajno ako su i automatski spam filteri radili tako?

Čitanje filtera za neželjenu poštu zasnovano na sadržaju pokušava upravo to. Oni traže reči i druge karakteristike tipične za neželjenu poštu. Svakom karakterističnom elementu dodeljuje se ocena, a neželjeni rezultat za čitavu poruku izračunava se iz pojedinačnih rezultata. Neki filteri za točkovanje takođe traže karakteristike legitimne pošte, snižavajući konačni rezultat poruke.

Pristup filtriranju bodova funkcioniše, ali ima i nekoliko nedostataka:

Spisak karakteristika je izgrađen od neželjene pošte (i dobre pošte) dostupan inženjerima filtera. Da biste dobili dobro razumevanje tipične neželjene pošte, svako može dobiti, poštu mora biti prikupljena na stotine e-adresa. Ovo smanjuje efikasnost filtera, posebno zato što će karakteristike dobre pošte biti različite za svaku osobu , ali to se ne uzima u obzir.
Karakteristike koje treba tražiti su više ili manje postavljene u kamenu . Ako se spameri trude da se prilagode (i učiniti da njihova neželjena pošta izgleda kao dobra pošta u filterima), karakteristike filtriranja moraju se ručno podesiti - još veći napor.
Rezultat koji se dodeljuje svakoj reči verovatno se zasniva na dobrom proceni, ali je i dalje proizvoljan. Kao i spisak karakteristika, ne prilagođava se promenljivom svetu spama uopšte niti individualnim potrebama korisnika.

Bayesian Spam Filters Tweak Same, Bolje i bolje

Bayesovi spam filteri su neka vrsta filtera zasnovanih na sadržaju. Njihov pristup rešava problem jednostavnih bodovanja spam filtera, i to radi tako radikalno. Budući da je slabost filtera za bodovanje u ručno izgrađenoj listi karakteristika i njihovih rezultata, ova lista je eliminisana.

Umjesto toga, Bayesian spam filtriraju samu listu. Idealno je da počnete sa (velikom) grupom e-pošte koju ste klasifikovali kao neželjenu poštu i još jednu gomilu dobre pošte. Filtri posmatraju i analiziraju legitimnu poštu kao i neželjenu poštu kako bi izračunali vjerovatnoću različitih karakteristika koje se pojavljuju u neželjenoj pošti, i u dobrom pošti.

Kako Bayesian Spam Filter ispituje e-poštu

Karakteristike koje Bayesian filter neželjene pošte može pogledati može biti:

reči u telu poruke, naravno, i
njegove zaglavlja (pošiljaoci i poruke puteva , na primjer!), ali također
drugi aspekti kao što je HTML / CSS kod (kao što su boje i drugo oblikovanje), ili čak
par riječi, fraze i
meta informacija (gde se na primer pojavljuje određena fraza).

Ako se riječ "Kartezijanac", na primjer, nikada ne pojavljuje u neželjenoj pošti, ali često u legitimnom e-mailu koju primite, verovatnoća da "Kartezijanac" označava spam je blizu nule. "Toner", s druge strane, pojavljuje se isključivo, a često iu spamu. "Toner" ima vrlo veliku vjerovatnoću da se pronađe u neželjenoj pošti, a ne puno ispod 1 (100%).

Kada stigne nova poruka, ona se analizira pomoću Bayesovog spam filtera, a verovatnoća da je potpuna poruka spam izračunava se pomoću individualnih karakteristika.

Pretpostavimo da poruka sadrži i "Kartezijski" i "toner". Samo od ovih reči još nije jasno da li imamo neželjenu poštu ili poštu. Ostale karakteristike će (nadamo se i najverovatnije) ukazati na verovatnoću koja dozvoljava filteru da klasifikuje poruku kao neželjenu poštu ili dobru poštu.

Bayesian Spam filteri se mogu automatski naučiti

Sada kada imamo klasifikaciju, poruka se može koristiti i za dalje obučavanje filtera. U ovom slučaju, verovatnoća "Kartezijeva" koja pokazuje dobru poštu je snižena (ako se otkrije da poruka koja sadrži i "kartezijski" i "toner" spam), ili verovatnoća da se "toner" označava neželjena pošta mora ponovo preispitati.

Koristeći ovu auto-adaptivnu tehniku, Bayesovi filteri mogu da uče kako od sopstvenih, tako i od odluka korisnika (ako ona ručno ispravlja pogrešne procjene od strane filtera). Prilagodljivost Bayesovog filtriranja takođe osigurava da su najefikasniji za pojedinačne korisnike e-pošte. Dok većina neželjenih poruka ima slične karakteristike, legitimna pošta je karakteristično različita za sve.

Kako mogu spameri dobiti prošlog Bayesian filtera?

Karakteristike legitimne pošte su isto toliko važne za Bayesian proces filtriranja neželjenog pošte kao spam. Ako su filtri obučeni posebno za svakog korisnika, spameri će imati još teže vreme da rade oko filtera za spam svih (ili čak većina ljudi), a filtri mogu da se prilagode skoro svim pokušajima spamera.

Spameri će to učiniti samo kroz dobro obučene Bayesian filtere ako one upute svoje neželjene poruke sjajno kao obični email koji svi mogu dobiti.

Spamere obično ne šalju takve obične e-poruke. Pretpostavimo da je ovo zato što ovi e-mailovi ne funkcionišu kao neželjena e-pošta. Dakle, šanse su da neće to raditi kada su obični, dosadni e-mailovi jedini način da se prevaziđu filteri za neželjene pošte.

Međutim, ako spameri pređu na uglavnom obične emailove, međutim, ponovo ćemo vidjeti neželjenu poštu u našim Inboxovima, a email može postati toliko frustrirajući kao što je to bilo u danima pre Bayezije (ili još gore). Ipak, on će uništiti tržište za većinu vrsta neželjene pošte i na taj način neće dugo trajati.

Jaki indikatori mogu biti Bayesian filter spam filtera Achilles & # 39; Heel

Jedan izuzetak se može primijetiti za spamere koji se bore putem Bayesovih filtera čak i uz uobičajeni sadržaj. U prirodi Bayesovih statistika, jedna reč ili karakteristika koja se vrlo često pojavljuje u dobrom pošti može biti toliko značajna da pretvori bilo koju poruku iz neželjenog neželjenog sadržaja kako bi ga filter filtrirao kao šunku.

Ako spameri nađu način da odrede vaše sigurne reči dobre pošte - koristeći HTML povratne račune da biste videli koje poruke ste otvorili, na primjer, oni mogu uključiti jedan od njih u neželjenu poštu i doći do vas čak i kroz dobro izvrsne riječi, obučen Bayesov filter.

John Graham-Cumming je pokušao tako što je dopustio da dva Bayesovih filtera funkcionišu jedni protiv drugih, "loš" koji se prilagođava na koje se poruke nalaze kako bi prolazili kroz "dobar" filter. Kaže da radi, iako je proces dugotrajan i složen. Ne mislimo da ćemo se u velikoj mjeri uočiti, barem ne u velikoj mjeri, a ne prilagođene karakteristikama e-pošte pojedinaca. Spameri mogu (pokušati) odrediti neke ključne reči za organizacije (možda nešto poput "Almadena" za neke ljude u IBM-u možda?) Umjesto toga.

Obično, neželjena pošta će se uvek (značajno) razlikovati od regularne pošte ili neće biti spama.

Bottom Line: jačina bajesovog filtriranja može biti njegova slabost

Bayesovi filtri za neželjene pošte su filtri zasnovani na sadržaju koji:

posebno su obučeni da prepoznaju neželjenu poštu korisnika i dobru poštu od strane korisnika , što ih čini veoma efikasnim i teško prilagođava za spamere.
može stalno i bez mnogo napora ili ručne analize prilagoditi najnovije trikove spamera.
uzeti u obzir dobru poštu pojedinačnog korisnika i imati vrlo nisku stopu lažnih pozitivnih poruka .
Nažalost, ako ovo izaziva slijepo povjerenje u Bayesian anti-spam filtre, čini povremenu grešku još ozbiljnijom . Suprotan efekat lažnih negativa (spam koji izgleda baš kao redovna pošta) ima potencijal da uznemirava i frustrira korisnike.