Tiltak mot spam

TDAT2004 - Datakommunikasjon med nettverksprogrammering.
Oppgave 15: Tiltak mot Spam
Erik Kjosavik, Vegard Stenvik

Innledning

Spam er en betegnelse på e-post man ikke har bedt om, også kalt uønsket e-post. Disse inneholder som oftest reklame eller virus, men kan også være svindelforsøk (phishing).^[3] Man kan også motta "uønsket e-post" som man har bedt om selv, typisk nyhetsbrev og lignende, men da kalles dette bacn. Legitim e-post kan betegnes som ham. ^[4]

Det er flere årsaker til at spam er et problem. Dette er som nevnt en vanlig måte å spre virus på, men også forsøk på å svindle mennesker til å utgi sensitiv informasjon som senere kan misbrukes av krimimelle. Da brukes ofte teknikken phishing, som går ut på at man utgir seg for å være en troverdig avsender, for eksempel et firma du er kunde hos, og ber deg bekrefte betalingsinformasjon eller lignende. Et annet kjent eksempel på e-postsvindel er såkalt spoofing. Spoofing kjennetegnes ved at et virus innhenter kontaktinformasjon fra din maskin og senere bruker dette til å sende e-post i andres navn tilbake til deg, slik at det ser ut som om noen i kontaktlisten har sendt dette, og det er da større sjanse for at mottakeren tror det er legitimt. ^[10]

Selve mengden av spam som sendes er også et problem. I følge tall fra sikkerhetsselskapet Kaspersky utgjorde spam hele 66,34 % av all e-post sendt første kvartal av 2014 ^[1]. Håndtering av slik uønsket e-post kan være svært tidkrevende og kostbart, og et estimat gjort av American Economic Association regner at dette koster amerikanske bedrifter og privatpersoner rundt 20 milliarder dollar i året. ^[2]

E-post er en tjeneste i applikasjonslaget som benytter SMTP-protokollen til sending av e-post og POP eller IMAP for å hente e-poster fra en e-postserver.

Ønsket funksjonalitet

Det vi ønsker å oppnå med et spamfilter er å filtrere ut spam og kun slippe gjennom legitim e-post, såkalt ham. Slik får brukeren kun den informasjonen som han ønsker. Utfordringen er da å finne en eller flere metoder som gjør dette med såpass stor nøyaktighet slik at man slipper at legitim e-post blir sett på som spam, eller at spam ikke blir filtrert ut. Ved filtrering kan det være ønskelig at e-post som spamfilteret er usikker på blir sendt til en egen mappe hvor man selv kan definere e-posten som spam eller ham.

Virkemåte

Det finnes flere måter å filtrere spam på, og det er tre kategorier med filtreringsmetoder som er vanlige:

Reversoppslag i DNS
Lister med godkjente/ikke-godkjente avsendere
Analyse av innhold

Reversoppslag i DNS

Illustrasjon: reversoppslag i DNS. E-posttjeneren spør DNS om en IP-adresse har et tilhørende domene. E-posten kan forkastes hvis IP-adressen ikke tilhører et domene.

For at en datamaskin skal vite hvilken server den skal sende en forespørsel til, trenger den å vite hva IP-adressen til serveren er. Det kan være vanskelig å huske mange forskjellige IP-adresser da de består av mange tall. Det er mye enklere å huske en adresse bestående av ord. Derfor benyttes DNS-servere, eller Domain Name System. Dette er en tjener som oversetter en adresse bestående av ord til en IP-adresse, som består av tall. Eksempelvis vil “vg.no” bli oversatt til “2001:67c:21e0::16”(IPv6). Adressen “vg.no” vil anses som enklere å huske enn “2001:67c:21e0::16”.

I et spam-filtreringssystem kan dette gjøres i revers for å avdekke om en IP-adresse har et tilhørende domenenavn. Dersom en e-post kommer fra en IP-adresse som ikke har et domenenavn vil den kunne markeres som spam. Dette er ikke nødvendigvis en veldig sikker metode å filtrere ut spam på, da spammere kan opprette egne poster i DNS-tjeneren som peker til et vilkårlig domene, for å omgå filtreringen. Det er forøvrig ingen krav om tillatelse til å peke til et domenenavn i DNS-tjeneren, noe som gjør dette mulig.

Svartelister/hvitelister

En annen metode som kan avgjøre om en e-post er spam eller ikke er å lage en liste med godkjente avsendere, såkalt hvitelister (DNSWL), eller en liste med blokkerte avsendere, såkalt svartelister (DNSBL)^[7]. Det finnes mange etablerte hvite- og svartelister tilgjengelig på nettet som man kan benytte seg av, og en av de eldste er SURBL.

Svartelister kan ha flere ulike hensikter og virkemåter. For eksempel kan en svarteliste inneholde en liste med IP-adresser som tilhører e-postservere som er kjent for å sende spam, IP-adresser som tilhører en hel internett-tilbyder som er kjent for å godta spammere, eller enkelte e-postadresser som mange brukere har markert som spam. Hvordan flere e-postavsendere blir lagt til i listen varierer også. Noen benytter en manuell framgangsmåte hvor brukerene er de som avgjør om noe er spam eller ikke, som så melder at avsenderen av e-posten er en spammer. Det finnes også automatiske metoder for å bygge opp en slik liste, for eksempel med såkalte honeypot-systemer. Honeypot-systemer utnytter det at mange spammere benytter åpne e-postreléer, og går ut på at man oppretter en tilsynelatende åpen og sårbar e-postrelé som skal fange opp hvilke spammere som utnytter den.^[6]

Noen svartelister angir en Time To Live (TTL) for hver oppføring, som bestemmer hvor lenge svartelistingen skal gjelde for, mens andre systemer krever at en svartelisting blir manuelt fjernet av en administrator.

Analyse av innhold

Å sjekke en e-post for spesifikke ord er også en populær måte å filtrere spam på. For eksempel så er det stor sjanse for at en e-post er spam hvis den inneholder ordet “viagra”. Her brukes det ofte statistikk for å avgjøre hvilke ord som gir stor sannsynlighet for at e-posten er spam. Spamfilteret gir hvert ord en egen score, så filtreres e-posten basert på om total score er over eller under en satt grense.

Naive Bayes er en en populær formel for å beregne sannsynligheten for at en e-post som inneholder et bestemt ord er spam. Denne formelen angir sannsynligheten for at en e-post er spam gitt at et ord er med.

Tilfeldig utvalg av ord som er vanlige i emnefeltet på spam-mail

Viagra	F R E E	Cash	$$$
Winner	Weight loss	Million	Credit

Spammere er kjent med at dette er en vanlig måte å filtrere spam på og kontrer vanligvis med å bytte ut bokstaver med tegn som ligner, for eksempel den latinske 'A' er byttet ut med kyrilliske 'A'.

Andre metoder for å forhindre spam

Ved å bruke standardene satt i RFC5321 for SMTP kan man avgjøre om en innkommende e-post er spam eller ikke. For eksempel kan e-postserveren avvise e-posten første gang den ser den, og en legitim avsender vil da automatisk forsøke å levere e-posten igjen, mens en spammer gir opp med en gang for å spare båndbredde. I RFC5321 er det også spesifisert at en SMTP-forespørsel skal avsluttes med en quit-kommando for å lukke tilkoblingen, noe mange spammere ikke alltid gjør. Dermed kan man også forkaste e-poster som kommer fra tilkoblinger som ikke blir skikkelig lukket.^[9]

Referanser

[1] "SPAM statistics report q1 2014". Kaspersky. URL: https://usa.kaspersky.com/internet-security-center/threats/spam-statistics-report-q1-2014#.WKctE7G-Isk 17.02.16

[2] Justin M. Rao and David H. Reiley (2012). “The Economics of Spam”. American Economic Association. URL: http://pubs.aeaweb.org/doi/pdfplus/10.1257/jep.26.3.87

[3] "Spam" (2012). Store Norske Leksikon. URL: https://snl.no/spam

[4] "Bacn" (2007) New York Times URL: http://www.nytimes.com/2007/12/23/weekinreview/23buzzwords.html?ref=weekinreview

[5] "Reverse DNS check". (Hentet 26.02.2017) URL: https://www.debouncer.com/reverse-dns-check

[6] "Honeypot" (2017) Wikipedia. URL: https://en.wikipedia.org/wiki/Honeypot_(computing)#frbanner3

[7] "Overview of Best Email DNS-Based List (DNSBL) Operational Practices" (2012) C.Lewis, M.Sergeant. URL: https://tools.ietf.org/html/rfc6471#page-3

[8] "List of email SPAM Trigger words" (2012) Karen Rubin. URL: https://blog.hubspot.com/blog/tabid/6307/bid/30684/The-Ultimate-List-of-Email-SPAM-Trigger-Words.aspx#sm.000y7k33yxwhegz10701kfiw9ofsi

[9] "Simple Mail Transfer Protocol" (2008) J. Klensin. URL: https://tools.ietf.org/html/rfc5321

[10] "Spoofing" wwLegal. URL: http://www.wwlegal.com/posts/e-mail-impersonators-identifying-spoofed-e-mail/