Tiltak mot SPAM

Innledning

Spam er en betegnelse på uønsket epost som man ikke har bedt om. Disse kan ofte inneholde reklame eller virus, eller være et forsøk på svindel (phishing)[3]. Man kan også motta “spam” som man har bedt om selv, typisk nyhetsbrev og lignende, men da kalles dette bacn. Legitim mail kan betegnes som ham. [4]

Det er flere årsaker til at SPAM er et problem. Blant annet er dette en vanlig måte å spre virus på eller å forsøke å svindle folk ved å lure de til å oppgi sensitiv informasjon. En type virus som er vanlig å sende med SPAM, er et som vil prøve å sende epost fra deg. De kan typisk se på dine kontakter og sende ut epost i deres navn. Det å sende epost, som ser ut som det er sendt fra en annen adresse kalles spoofing. [10]

Selve mengden av SPAM som sendes er også et problem og i følge tall fra sikkerhetsselskapet Kaspersky utgjorde SPAM hele 66,34 % av all epost sendt første kvartal av 2014 [1]. Håndtering av slik uønsket e-post kan være svært tidkrevende og et estimat gjort av American Economic Association regner at dette koster amerikanske bedrifter og privatpersoner rundt 20 milliarder dollar i året. [2]

Epost er en tjeneste i applikasjonslaget som benytter SMTP-protokollen til sending av epost og POP eller IMAP for å hente eposter fra en epost-server.

Ønsket funksjonalitet

Det vi ønsker å oppnå med et spamfilter er å filtrere ut spam og kun slippe gjennom ham, slik at brukeren kun får den informasjonen som han ønsker. Utfordringen er da å finne en eller flere metoder som gjør dette med stor nøyaktighet slik at man slipper at for eksempel legitim e-post blir sett på som spam, eller at spam ikke blir filtrert ut. Ved filtrering kan det være ønskelig at epost som spam-filteret er usikker på blir sendt til en egen spam-mappe.

Virkemåte

Det finnes flere måter å filtrere SPAM på og det er tre kategorier med filtreringsmetoder som er vanlige:

Reversoppslag i DNS
Lister med godkjente/ikke godkjente avsendere
Analyse av innhold

Reversoppslag i DNS

For at en datamaskin skal vite hvilken server den skal sende en forespørsel til, trenger den å vite hva IP-adressen til serveren er. Det kan være vanskelig å huske mange forskjellige IP-adresser da de består av mange tall. Det er mye enklere å huske en adresse bestående av ord. Derfor benyttes DNS-servere, eller Domain Name System. Dette er en tjener som oversetter en adresse bestående av ord til en IP-adresse, som består av tall. Eksempelvis vil “vg.no” bli oversatt til “2001:67c:21e0::16”(IPv6). “Vg.no” er annsett som enklere å huske enn “2001:67c:21e0::16”.

I et spam-filtreringssystem kan dette gjøres i revers for å avdekke om en IP-adresse har et tilhørende domenenavn. Dersom en epost kommer fra en IP-adresse som ikke har et domenenavn vil den kunne markeres som spam. Dette er ikke nødvendigvis en veldig sikker metode å filtrere ut spam på, da spammere kan opprette egne poster i DNS-tjeneren sin for revers-DNS som peker til et vilkårlig domene. Det er ingen krav om at man faktisk har tillatelse til å peke til et domenenavn i DNS-tjeneren.

Svartelister/hvitelister

En annen metode for å avgjøre om en epost er spam eller ikke er ved å ha en liste med godkjente avsendere, såkalt hvitelister (DNSWL), eller en liste med blokkerte avsendere, såkalt svartelister (DNSBL)[7]. Det finnes mange slike lister tilgjengelig ute på nettet som man kan benytte seg av. En av de eldste slike lister er SURBL.

Svartelister kan ha flere forskjellige hensikter og virkemåter. For eksempel kan en svarteliste inneholde en liste med IP-adresser som tilhører epost-servere som er kjent for å sende SPAM, IP-adresser som tilhører en hel internett-tilbyder som er kjent for å godta spammere, eller enkelte epost-adresser som mange brukere har markert som spam. Hvordan flere epost-avsendere blir lagt til i listen varierer også. Noen benytter en manuell framgangsmåte hvor brukerene er de som avgjør om noe er spam eller ikke, og så melder at avsenderen av eposten er en spammer. Det finnes også automatiske metoder for å bygge opp en slik liste, for eksempel med såkalte honeypot-systemer. Siden mange spammere benytter åpne sårbare epost-tjenester så kan en DNSBL-leverandør opprette egne epost-tjenere som framstår som sårbare, for så å overvåke disse og fange opp IP-adressene til spammere som prøver å benytte seg av systemet. [6]

Noen svartelister angir en Time To Live (TTL) for hver oppføring, som bestemmer hvor lenge svartelistingen skal gjelde for, mens andre systemer krever at en svartelisting blir manuelt fjernet av en administrator.

Analyse av innhold

Å sjekke en epost for spesifikke ord er også en populær måte å filtrere spam på. For eksempel så er det stor sjanse for at en epost er spam hvis den inneholder ordet “viagra”. Her brukes det ofte statistikk for å avgjøre hvilke ord som gir stor sannsynlighet for at eposten er spam. Spamfilteret gir dermed hvert ord en egen score, og så filtreres eposten basert på om totalsummen av ordenes score er over eller under en satt grense.

Naive Bayes er en en populær formel for å beregne sannsynligheten for at en epost som inneholder et bestemt ord er spam. Denne formelen angir sannsynligheten for at en epost er spam gitt at ordet er med slik:

Tilfeldig utvalg av ord som er vanlige i emnefeltet på SPAM-mail

Viagra	F R E E	Cash	$$$
Winner	Weight loss	Million	Credit

Andre metoder for å forhindre spam

Man kan benytte sjekking av at innkommende eposter følger standardene satt i RFC5321 for SMTP for å avgjøre om eposten er spam eller ikke. For eksempel så kan epost-serveren avvise eposten første gang den ser den og en legitim avsender vil da automatisk forsøke å levere eposten igjen, mens en spammer gir opp med en gang for å spare båndbredde. I RFC5321 er det også spesifisert at en SMTP-forespørsel skal avsluttes med en quit-kommando for å lukke tilkoblingen, noe mange spammere ikke alltid gjør. Dermed kan vi også luke ut eposter som kommer fra tilkoblinger som ikke blir skikkelig lukket.[9]

Referanser

[1] SPAM statistikk https://usa.kaspersky.com/internet-security-center/threats/spam-statistics-report-q1-2014#.WKctE7G-Isk 17.02.16

[2] Justin M. Rao and David H. Reiley (2012). “The Economics of Spam”. American Economic Association. URL: http://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.26.3.87

[3] Spam (2012). Store Norske Leksikon. URL: https://snl.no/spam

[4] Bacn http://www.nytimes.com/2007/12/23/weekinreview/23buzzwords.html?ref=weekinreview

[5] rDNS

https://www.debouncer.com/reverse-dns-check

[6]

https://en.wikipedia.org/wiki/Honeypot_(computing)#frbanner3

[7]

https://tools.ietf.org/html/rfc6471#page-3

[8]

https://blog.hubspot.com/blog/tabid/6307/bid/30684/The-Ultimate-List-of-Email-SPAM-Trigger-Words.aspx#sm.000y7k33yxwhegz10701kfiw9ofsi

[9]

https://tools.ietf.org/html/rfc5321