Lærdommer om språkmodeller

Lærdommer om språkmodeller:
Noen observasjoner fra arbeidet med språkmodeller 

Arbeidet med språkmodeller har avdekket en del interessante aspekter:

  • Transparens. Internasjonale modeller er lite transparente. Vi kjenner ikke detaljene i datasettene og får heller ikke informasjon om hvilke metoder de har brukt til å vaske dataene, finjustere og tilpasse modeller, og håndtere giftig eller diskriminerende språk.
  • Opphavsrettigheter. De fleste internasjonale modellene bruker noe opphavsrettslig beskyttet innhold uten tillatelse. Det inkluderer f.eks. norske bøker som ligger i boksamlinger på nettet.
  • Bærekraft. Trening av store språkmodeller krever store beregningsressurser, mye energi og mange mennesker. OpenAI har vært kritisert for å bruke underbetalte kenyanere til å filtrere ut giftig eller ubalansert språk fra modellene, og treningen av store språkmodeller kan lett koste noe i retning av 1.000 megawattimer i strømforbruk.
  • Verdier og normer. Det har vist seg at internasjonale modeller speiler normene og verdiene til de dominerende språkene i treningsdataene. Dette kan vise seg ved hvilke spørsmål modellene ikke ønsker å svare på, men oftere ved selve meningsinnholdet eller balansen i den genererte teksten. Noen eksempler på dette fins i vedlegget.
  • Målformer. Språkmodeller er overraskende gode til å skille mellom ulike språk. Mye tyder på at abstraksjoner fra ett språk i modellen kan hjelpe modellen også med å håndtere beslektede språk. Treningstekster på bokmål ser ut til å være nyttige for generering på nynorsk

I NorwAI jobber vi med et konsept rundt ansvarlige språkmodeller, der full metodisk åpenhet, avtaler med rettighetshavere og der bruk av balanserte og kvalitetssikrede treningsdata står sentralt.

Diskusjon ved whiteboard i et kontormiljø.
Terje Brasethvik (t.v) and Jon Espen Ingvaldsen, begge førsteamanuensis knyttet til NorwAI, sluttet seg til NorLLM-teamet for å håndtere økt tempo i arbeidet og ivareta samarbeidet med industripartnere. 
Photo: Kai T. Dragland, NTNU