Skadelig oppførsel i språkmodeller

Skadelig oppførsel i språkmodeller

Svarene fra en språkmodell reflekterer hvilke data som går inn i treningssettet. Hvis treningsdataene er mangelfulle, vil modellen kombinere ord etter statistiske sannsynligheter og konstruere setninger som kan være både plausible og grammatisk gode, men som har lite med virkeligheten å gjøre.

Et typisk utslag på norsk er at modellen ikke har noe svar i treningsdataene og setter sammen et feilaktig – men grammatisk riktig – svar i stedet:

Spørsmål: Hvem var Hans Hyldbakk?

Svar (ChatGPT): «Hans Hyldbakk var en norsk forfatter og lyriker, født 4. mars 1939 og død 18. juli 2001. Han var opprinnelig fra Vefsn i Nordland, Norge. Hyldbakk var mest kjent for sitt arbeid med lyrikk på nynorsk, og han skrev også på dialekten i Vefsn. Hans Hyldbakk debuterte som forfatter i 1966 med diktsamlingen "Å i ætt med vinden". Han ble senere anerkjent for sitt bidrag til norsk poesi og mottok flere priser for sitt arbeid. Han skrev om naturen, menneskene og kulturen i Nord-Norge, og hans dikt er kjent for å være nære, jordnære og preget av nordnorsk dialect.»

Det riktige svaret er at Hans Hyldbakk kommer fra Surnadal på Nordmøre. Han er mest kjent for bygdebøkene på Nordmøre og en del dikt som Henning Sommerro har satt musikk til. Svaret fra ChatGPT over er det vi kaller en hallusinasjon.

Deep Minds liste

En systematisk gjennomgang av etiske og sosiale skaderisikoer fra språkmodeller ble publisert av DeepMind i 2021. Noen språkmodeller er bedre til å håndtere slike problemer enn andre, og siden språkmodellene finner opp nye tekster ved hver generering, er det vanskelig å reprodusere eksemplene fra DeepMind. Klassifiseringen til DeepMind gir likevel konkrete eksempler på hvordan normer og verdier i treningsdataene og treningsmetodene påvirker oppførselen til språkmodellen. Følgende problemområder ble identifisert:

  • Diskriminering, eksludering og giftig språk
  • Informasjonslekkasjer
  • Desinformasjon
  • Misbruk
  • Skade på menneske-maskin-grensesnitt
  • Automatisering, aksess og miljøskader