Fire modeller bygget – fire nye på beddingen
Fire modeller bygget – fire nye på beddingen
NorwAI har bygd fire ulike norske generative språkmodeller. I vinter og i vår 2024 bygges ytterligere fire modeller som gjøres tilgjengelige etter påske i år. Samlet sett utgjør alle de åtte modellene trinn på veien mot NorwAIs ambisjon om å bygge en fullverdig generativ grunnmodell for allmenn bruk i størrelsesorden 40 milliarder parametre i løpet av 2024.
Mens tre av første modellene ble bygd med GPT-arkitektur og ytterligere en etter Metas Llama-3-modell, vil tre av neste generasjon NorLLM-modeller fokusere på den franske Mistral-arkitekturen og dessuten inkludere ytterligere en Llama-modell.
Modell | Datasett | Modellarkitektur | Fintrente ferdigheter |
---|---|---|---|
NorGPT-03 | 13GB med norske wikipediasider og nyhetsartikler |
GPT-2 (OpenAI), 350 millioner parametre |
Generering avt ekst |
NorGPT-3 |
200GB, med nyheter, bøker, offentlige dokumenter, websider, mm. 70 % av dataene er på norsk. |
GPT-2 (Open AI), 3 milliarder parametre |
Generering av tekst Dialog (Chat) Spørsmål / svar Tekstsummering |
NorLlama-3 |
200GB, med nyheter, bøker, offentlige dokumenter, websider, mm. 70 % av dataene er på norsk. |
Llama (Meta), 3 milliarder parametre |
Generering av tekst Dialog (Chat) |
NorGPT-23 |
200GB, med nyheter, bøker, offentlige dokumenter, websider, mm. 70 % av dataene er på norsk. |
GPT-2 (Open AI), 23 milliarder parametre |
Generering av tekst Optimalisert med menneskelig feedback for å få samsvar med Menneskelig språk og tenkning. |
To spor i 2024
Inn i 2024 splittes språkmodellarbeidet i NorwAI i to ulike spor. Det er et behov for å trene en norsk generativ modell som er tilstrekkelig stor til å understøtte norsk språk på samme nivå som engelsk og andre større språk understøttes av de internasjonale modellene. Samtidig etterspørres det mindre modeller som lett kan optimaliseres til bestemte bruksområder og kontrolleres lokalt med egne data og egne tilpasninger.
De nye modellene i NorwAIs portofølje vil derfor være litt mindre i størrelse (ca 7 milliarder parametre), men ikke desto mindre inneha andre egenskaper som kan komme aktørene i privat og offentlig sektor til nytte.
Bokmål og nynorsk
Ved riktig trening uttrykker antall parametre hvor fine nyanser som fanges opp i språkets ortografi, syntaks, semantikk og pragmatikk. Parametrene læres under trening, og mer treningsdata gir normalt både mer presise parameterverdier og mer faktisk informasjon å trekke svarene fra (og derved færre hallusinasjoner). De fire første hadde økende datatilfang og utvidet funksjonalitet, jfr tabell under. Modellene behersker begge målformer, selv om de har en tendens til å hoppe over til bokmål når de mangler relevante svar på nynorsk.
De fire neste modellene vil trenes på norske data uten opphavsrettslig beskyttet innhold og egner seg dermed også til kommersiell anvendelse. De ulike arkitekturer bidrar til å avdekke teknologiske egenskaper og tillater evaluering av hvilken modelltilnærming som egner seg best til ulike anvendelser.
Organisering
Treningen av språkmodeller ligger organisatorisk i NorwAI i Trondheim og utføres av NTNUs vitenskapelig ansatte i samarbeid med utvalgte partnere som Schibsted. I tillegg stiller NTNU med tilgang til superdatamaskinklyngen Idun (https://www.hpc.ntnu.no/idun/) og tung teknisk ekspertise.
Idun, som er et samarbeid mellom NTNUs fakulteter og IT-divisjonen, og utgjør en profesjonell infrastruktur for tungregning som egner seg godt til beregningskrevende KI-modeller (https://www.sigma2.no/) er i dag kraftige nok til langsiktig trening av språkmodeller. Eksempelvis tok det NorwAI 76 dager å trene NorGPT-23 på Idun i 2023.
Noen – som for eksempel Universitetet i Oslo – bruker den finske LUMI-maskinen (https://www.lumi-supercomputer.eu/), men Norge har begrenset tilgang til denne infrastrukturen, som også er mindre fleksibel for vårt språkmodellarbeid.
Uansett er dette klynger som bare er rigget for forskning og kan ikke være en løsning for drift og vedlikehold av modeller i ettertid.
2024-04-26
Av: Jon Atle Gulla og Rolf D. Svendsen