Hva kreves for å trene og drifte språkmodeller
Kva kreves for å trene og drifte språkmodeller?
Dersom en skal bygge opp et miljø for trening og drift av norske, kommersielt tilgjengelige språkmodeller, må en ha tilgang til følgende ressurser:
- Kompetanse og erfaring.
NTNU har den største produksjonen av KI-eksperter på bachelor-, master- og PhD-nivå i Norge, og det utdannes også mange ved for eksempel Universitetet i Oslo, men det er liten tvil om at utdanningskapasiteten på kunstig intelligens i Norge er for liten. Selv om rundt 200 NTNU-studenter årlig skriver masteroppgaver på kunstig intelligens, er det relativt få av disse som jobber direkte med språkmodeller. I Norge er det foreløpig bare UiO, Nasjonalbiblioteket og NTNU som jobber med de virkelig store språkmodellene.
- Treningsdata
Mye tyder på at opphavsrettslig beskyttede data blir nødvendige for å trene norske modeller som egner seg til allmenn bruk. Nasjonalbiblioteket forvalter i dag flere tekstlige datasett som understøtter språkmodelltrening, og de sitter på mye
kompetansepåinnsamling, oppbygging og vasking av datasett. Universitetene bruker i stor grad Nasjonalbiblioteket for til gang til norske data.
- Beregningsressurser (Compute)
Bortsett fra NTNUs Idun er det ved universitetene begrenset med egne ressurser til språkmodelltrening.
Sigma2 har betydelige superdatamaskiner, men heller ikke disse er kraftige nok til store språkmodeller. LUMI i Finland er en mulighet for forskningsarbeid medspråkmodeller, men kan ikke brukes til drift og vedlikehold av modeller for vanlig bruk.
- Mennesker
Språkmodeller må ofte gå gjennom en tilpasning (alignment) for å fungere på en mer menneskelig og ansvarlig måte. Dette gjøres ved å la en stor gruppe mennesker kvalitetsvurdere og rangere svar fra modellen og deretter generalisere disse vurderingene til å prege all generert tekst fra modellen (reinforcement learning). Dette er kostnadskrevende og krever tilgang til et representativt utvalg av mennesker.