Lærdommer om språkmodeller
Lærdommer om språkmodeller:
Noen observasjoner fra arbeidet med språkmodeller
Arbeidet med språkmodeller har avdekket en del interessante aspekter:
- Transparens. Internasjonale modeller er lite transparente. Vi kjenner ikke detaljene i datasettene og får heller ikke informasjon om hvilke metoder de har brukt til å vaske dataene, finjustere og tilpasse modeller, og håndtere giftig eller diskriminerende språk.
- Opphavsrettigheter. De fleste internasjonale modellene bruker noe opphavsrettslig beskyttet innhold uten tillatelse. Det inkluderer f.eks. norske bøker som ligger i boksamlinger på nettet.
- Bærekraft. Trening av store språkmodeller krever store beregningsressurser, mye energi og mange mennesker. OpenAI har vært kritisert for å bruke underbetalte kenyanere til å filtrere ut giftig eller ubalansert språk fra modellene, og treningen av store språkmodeller kan lett koste noe i retning av 1.000 megawattimer i strømforbruk.
- Verdier og normer. Det har vist seg at internasjonale modeller speiler normene og verdiene til de dominerende språkene i treningsdataene. Dette kan vise seg ved hvilke spørsmål modellene ikke ønsker å svare på, men oftere ved selve meningsinnholdet eller balansen i den genererte teksten. Noen eksempler på dette fins i vedlegget.
- Målformer. Språkmodeller er overraskende gode til å skille mellom ulike språk. Mye tyder på at abstraksjoner fra ett språk i modellen kan hjelpe modellen også med å håndtere beslektede språk. Treningstekster på bokmål ser ut til å være nyttige for generering på nynorsk
I NorwAI jobber vi med et konsept rundt ansvarlige språkmodeller, der full metodisk åpenhet, avtaler med rettighetshavere og der bruk av balanserte og kvalitetssikrede treningsdata står sentralt.