Hvordan kan Norw(AI) beskytte personlige data?

Å beskytte personlig informasjon er utfordrende med komplekse AI-modeller som er sultne på data. NorwAIs løfte om å gi en individualisert AI-opplevelse som beviselig respekterer personvernhensyn er derfor viktigere enn noen gang.

For tradisjonelle data, som tabelldata, er personvernutfordringene ganske godt forstått. Med ustrukturerte data som tekst, er imidlertid personvernet mindre godt definert. Ta denne setningen som et eksempel:

"Søkeren, Dr Royce Darnell, som ble født i 1929, har vært arbeidsledig siden Trent Regional Health Authority ("RHA") sa opp hans ansettelse som konsulentmikrobiolog og direktør for Public Health Laboratory i Derby."

Navnet er en direkte identifikator, som er ganske enkel å finne og muligens maskere, mens tilgang til noen av frasene i kursiv kan sees på som indirekte identifiserende informasjon, avhengig av hvilke eksterne informasjonskilder – som internettet – leseren kan ha tilgang til.

Uten målinger eller sammenligninger for å måle hvor godt personopplysninger i tekster er beskyttet, er det ikke mulig å måle hvordan en stor språkmodell håndterer personvern. Heller ikke kunne trene/justere en stor språkmodell slik at den ikke husker for mye personlig informasjon. Og siden personvernbrudd kan skje på mange og noen ganger mystiske måter, er ikke én enkelt beregning tilstrekkelig.
I Norsk Regnesentral, også via NorwAI, har vi derfor over flere år utviklet NLP (Natural Language Processing) metoder for å:

oppdage enheter (som navn, adresser osv.)
koblingsenheter (Dr. Royce Darnell kan kalles bare Royce i deler av teksten, eller til og med Roycy?)
oppdage konfidensielle attributter (som seksuell legning)
måle hvor godt en metode er i stand til å oppdage eller maskere personlig informasjon (det vil si evalueringsmålinger for å beskytte personopplysninger)

Slike metoder kan for eksempel brukes ved opplæring eller finjustering av NorLLM-modeller for å redusere sjansene for at modeller inneholder eller lekker persondata.

Åpen vitenskap må ha åpne data

Siden personopplysninger vanligvis ikke er tilgjengelige for åpen vitenskap, har vi konstruert TAB (Text Anonymization Benchmark). Det er en åpen kildekode-annotert korpus utviklet for å møte denne mangelen. Korpuset omfatter 1 268 engelskspråklige rettssaker fra Den europeiske menneskerettighetsdomstolen (EMK) beriket med omfattende merknader om den personlige informasjonen som vises i hvert dokument, inkludert deres semantiske kategori, identifikatortype, konfidensielle attributter og medreferanserelasjoner. TAB-korpuset går utover tradisjonell avidentifikasjon, og markerer eksplisitt hvilke tekstspenn som bør maskeres for å skjule identiteten til personen som skal beskyttes.

Da GPT-4 ble utgitt i 2023, ble TAB brukt til å teste anonymiseringsytelsen (se artikkelen "Sparks of Artificial General Intelligence: Early experiments with GPT-4.").

Er anonymisering mulig fra et teknisk eller juridisk synspunkt?

Som nevnt har mye av den juridiske og tekniske litteraturen om dataanonymisering satt søkelys på strukturerte data som tabeller. Imidlertid er ustrukturerte data som tekstdokumenter eller bilder langt mer vanlig, og de juridiske kravene som må oppfylles for å anonymisere slike dataformater, er fortsatt uklare.

I mangel av en definisjon av begrepet «anonyme data» i GDPR (General Data Protection Regulation), har vi – sammen med juridiske eksperter fra Universitetet i Oslo og Høgskolen i Oslo – undersøkt hvilke vilkår som må være til stede for at anonymisering av ustrukturerte data.

Vi konkluderte med at anonymisering av ustrukturerte data er praktisk talt umulig så lenge de opprinnelige dataene fortsetter å eksistere. Derfor er for alle praktiske formål kun en risikobasert tilnærming realistisk, noe som betyr at vi kan estimere en viss personvernrisiko for et tekstkorpus eller en språkmodell, men en streng garanti er ikke mulig.

Portrettbilde av Anders Løland
Anders Løland, Forskningsjef, Norsk Regnesentral (NR)

Denne artikkelen er en norsk oversettelse av en engelsk tekst av Anders Løland, Forskningsjef, Norsk Regnesentral (NR).