Prosjekt «MIMIR» evaluerer verdien av opphavsrett
Prosjekt «MIMIR» evaluerer verdien av opphavsrett
På tampen av 2023 kom initiativet som fikk de tre mest aktive miljøene i Norge med kompetanse på språkmodeller til å samarbeide tettere. Prosjektet “Mimir” forente Nasjonalbiblioteket, Universitetet i Oslo og NorwAI i en felles anstrengelse.
Nasjonalbiblioteket fikk den 8. desember 2023 et oppdrag fra Kultur- og likestillingsdepartementet:
«Vi viser til dialog med Nasjonalbiblioteket om utvikling av generativ kunstig intelligens, og problemstillinger løftet av virksomheten knyttet til bruk av opphavsrettslig beskyttet materiale i trening av norske språkmodeller.
Departementet ber med dette Nasjonalbiblioteket sette i gang et koordinert forsknings-/utviklingsprosjekt for om mulig å undersøke verdien av opphavsrettslig beskyttet materiale i trening av norske generative språkmodeller. Relevante norske forskningsmiljøer skal inviteres til å delta i prosjektet. Forfatternes og forleggernes organisasjoner inviteres til å følge prosjektet.
Vi ber om at Nasjonalbiblioteket, på bakgrunn av resultatene fra forskningsprosjektet, vurderer grunnlaget for en eventuell kompensasjonsordning for norske rettighetshavere, og eventuelt utarbeide forslag til en slik ordning.»
Frist til i sommer
Den 20. desember hadde NorwAI et møte med Nasjonalbiblioteket, som orienterte om mandatet fra departmentet og luftet ideen om et samarbeid med NorwAI og Språkteknologigruppen (LTG) ved Universitetet i Oslo.
I et møte den 5. januar ble Nasjonalbiblioteket, NorwAI og LTG enige om å kjøre et felles prosjekt fram til sommeren 2024 for å vurdere verdien av opphavsrettslig beskyttet innhold i store generative språkmodeller.
Selve kompensasjonsordningen holdes utenfor dette prosjektet. Nasjonalbiblioteket tar på seg ansvaret for å lage ett treningsdatasett uten opphavsrettslig beskyttet innhold og ett treningsdatasett med. Det er opp til NorwAI og LTG å definere hvilke modeller som må trenes og hvilke evalueringer som må gjennomføres for å vurdere om opphavsrettslig beskyttet innhold i treningsdataene gir bedre språkmodeller.
Prosjektet gjennomføres vinteren og våren 2024, og både NTNUs infrastruktur Idun og den felles europeiske infrastrukturen LUMI i Finland brukes til treningen. På dette skrivetidspunktet som er slutten av april, er selve evalueringen av modeller ventet ferdig til sommeren.