Språkrådet om fagkompetent generativ språkteknologi

Av Åse Wetås, Direktør, Norsk Språkråd

Nå som generative språkmodeller har vist seg å kunne skrive relativt flytende hverdagsnorsk, må vi tørre å sette forventningene til maskinene enda høyere. For at modellene trygt kan brukes til profesjonelle formål på alle samfunnsområder, må de også kunne håndtere og produsere fagspesifikt språk og spesialisert terminologi for disse samfunnsområdene på en korrekt, forutsigbar og pålitelig måte. I maskinlæringens tidsalder betyr det at det trengs relevant treningsdata fra alle fagfelt.

Med en gang man dykker dypere ned i leksikografien, ser man at grensen for hva som er “ordene i det norske språket” er relativt flytende. Nye ordsammensetninger lages hele tiden, og endringer i samfunn og teknologi bærer også med seg nye ord.

Mange av disse ordene er det vi kaller fagord eller terminologi, og disse er byggesteinene i fagspråket for alle fagfelt. Disse ordene er sjeldne, men samtidig svært viktige. Uten tilgang til oppdatert fagspråk vil vi få språkmodeller som bruker upresise ord og tar feil avgjørelser.

Konsekvensene kan være at brukerne mister tillit og heller går over til engelskspråklige modeller, noe som igjen kan føre til at norskens posisjon svekkes i fagfeltene. Med det øker faren for at norsk blir redusert til et hverdagsspråk, og ikke lenger er et samfunnsbærende nasjonalspråk som kan brukes i alle deler av samfunnslivet.

Fagspråkets vei mot bruk i språkmodeller

Et fagords reise fra fødsel til bruk i språkteknologien kan være lang og strabasiøs. Først må det være enighet i et gitt fagfelt om hvilke norske ord som skal brukes om hvilke fenomener. Dette skjer gjennom en kombinasjon av naturlig spredning i språkfelleskapene og systematisk terminologiarbeid i virksomhetene.

Fordi dagens språkteknologi opererer med ordrepresentasjon basert på sammenheng med andre ord, må de som produserer tekst i et gitt fagfeltet ta i bruk terminologien i riktig kontekst, altså i setninger. Deretter må disse tekstene struktureres i store nok datasett, slik at de kan tilgjengeliggjøres som treningsdata for språkmodeller.

Til slutt skjer selve treningen av språkmodellene.

Norsk og engelsk

Norsk språk er et av verdens hundre største språk - men likevel et minispråk sammenliknet med engelsk. Den totale mengden tekst som produseres på norsk er forsvinnende liten i forhold til storebror, av dette er det tilsvarende lite som er åpent tilgjengelig, av dette igjen er bare en brøkdel fagtekster fordelt på et stort antall ulike fagfelt, og bruken av konsistent fagterminologi er usikker.
Det gjør at vi må jobbe systematisk og smart for å utvikle språket vårt og for å tilgjengeliggjøre tekster som kan gjøre språkteknologi på norsk god og brukelig på ulike fagområder.

Fagkompetente modeller

Det er altså stort behov for mer fagtekst for trening av fagkompetent språkteknologi på norsk. Nøkkelen til tilgang på fagspesifikke tekster ligger delvis hos virksomhetene som opererer i et gitt fagfelt: Fagspråket må struktureres, innarbeides, brukes i tekst, og tilgjengeliggjøres.
Men den ligger også i den enorme digitaliserte samlingen til Nasjonalbiblioteket.

Gjennom forskningsprosjektet “MIMIR” (se egen artikkel) skal Nasjonalbiblioteket i løpet av 2024 måle effekten det har å inkludere også opphavsrettsbeskyttet materiale i treningen av generativ KI på norsk. Resultatene av dette prosjektet blir interessante for vurderingen av hvor sterke tiltak som bør igangsettes for å oppnå fagkompetente språkmodeller, og i oppdraget NB har fått ligger å utvikle forslag til en kompensasjonsordning til rettighetshaverne ved bruk av tekstene deres i trening av KI-modeller.

Hovedmålet i den norske språkpolitikken er at norsk skal være et samfunnsbærende språk - brukelig og i faktisk bruk på alle samfunnsområder. Da trenger vi å sette alle kluter til for å anskaffe fagtekstene som gjør de generative modellene språklig kompetente og faglig pålitelige på vårt eget språk!

Norsk språk er et av verdens hundre største språk - men likevel et minispråk sammenliknet med engelsk.

A person presenting in front of a blurred screen. — Åse Wetås, direktør for Språkrådet

The Language Council of Norway about domain-competent generative language technology

English summary of "Språkrådet om fagkompetent generativ språkteknologi "

The Language Council of Norway about domain-competent generative language technology

In her article in Norwegian, Åse Wetås, Director of the Language Council of Norway, discusses the importance of developing language models that can handle specialized terminology and language for professional use across various societal sectors.

She emphasizes the need for relevant training data from all fields to ensure the models’ accuracy and reliability. The article also highlights the challenges of creating Norwegian language models due to the limited amount of Norwegian text, especially in specialized fields, compared to English.

She suggests that systematic efforts are needed to develop and make available texts that can improve language technology in Norwegian for different professional areas. The MIMIR research project by the National Library of Norway is mentioned, which aims to measure the impact of including copyrighted material in training generative AI models in Norwegian and to develop a compensation scheme for rights holders.

Språkvelger

Språkrådet om fagkompetent generativ språkteknologi

Språkrådet om fagkompetent generativ språkteknologi

Språkrådet om fagkompetent generativ språkteknologi

Fagspråkets vei mot bruk i språkmodeller

Norsk og engelsk

Fagkompetente modeller

The Language Council of Norway about domain-competent generative language technology

The Language Council of Norway about domain-competent generative language technology