Fôr til databruk

(26.4.19) All språkteknologi basert på kunstig intelligens lærer av språkdata. Jo mer data den blir fôret med, jo mer lærer den.

Innlegg i Computerworld
Av Åse Wetås, direktør i Språkrådet

Vi omgir oss med mange typer språkteknologi, kanskje uten å tenke over det. Vi bruker stavekontroller, søker på nettet og ber om automatiske oversettelser, og vi har begynt å ta i bruk prateroboter og smarthøyttalere som er laget for å forstå det vi sier, og gi fornuftige svar.

I forrige kronikk skrev jeg om hvor viktig norsk språkteknologi er for at digitaliseringen skal virke for norske språkbrukere, og hvor nødvendig det er med store, åpne data for at språkteknologien skal fungere godt på norsk. Foreløpig virker den sånn passe: Smarthøyttaleren skjønner ofte ikke hva vi sier, og automatiske oversettelser er heller ikke til å stole på.

Den gode nyheten er at norsk språkteknologi kan bli veldig mye bedre, hvis vi bare fôrer den med nok norske språkdata.

Automatisk oversettelse

I den store europeiske satsingen på digitalisering, CEF Digital, er en av de sentrale byggeklossene et program for automatisk oversettelse mellom språk som brukes i EU-landene. Norge og Island er også med. Automatisk oversettelse skal kunne innlemmes i andre elektroniske tjenester, som forbrukerklager, offentlige anbud, juridiske prosedyrer, foretaksregistre og utveksling av helseinformasjon over landegrenser.

En stor fordel med EUs automatiske oversettelsesmodul, til forskjell fra andre nettbaserte oversettelsesprogrammer, er at tekst man sender inn til behandling, ikke blir lagret. Den kan altså ikke havne i gale hender, og EUs oversettelsesprogram er slik sett tryggere enn en vanlig, åpen nettbasert tjeneste.

Foreløpig holder svenske oversettelser fra engelsk langt høyere kvalitet enn de norske. Forskjellen mellom norsk og svensk er så liten at det ikke er noen språklig grunn til at svensk språkteknologi fungerer bedre enn norsk. Men det svenske oversettelsesprogrammet er blitt fôret med ti ganger så mange oversatte tekster som det norske. Det svenske datamaterialet inkluderer dessuten fagspesifikke begrepslister. Til nå har derfor svenske oversettelser, både generelle og fagspesifikke, vært bedre enn de tilsvarende norske.

Her er et eksempel på automatisk oversettelse fra engelsk til henholdsvis norsk og svensk:

The international dry cargo and tanker markets are immense and served by numerous ships of several types.

De internationella marknaderna för torrlast och tankfartyg är enorma och betjänas av många fartyg av olika slag.

De internasjonale fraktratene for tørrlast og gasstankskip er enorme og kunne betjenes av flere skip av flere typer.

Forskjellen er påfallende og viser klart hvor viktig det er at oversettelsesprogrammene har gode begrepslister med koplinger mellom fagbegrep på de språkene tekstene skal oversettes mellom.

Talegjenkjenning

Når vi snakker til Siri i telefonen, bestiller pizza via smarthøyttaleren eller spør den automatiske telefonsvareren i banken om saldoen, har det kunstige og «intelligente» vesenet i den andre enden en lei tendens til ikke å forstå hva vi sier.

Programvaren i høyttaleren eller telefonsvareren kan være så smart den bare vil, men det hjelper lite hvis ikke mengden og kvaliteten på dataene den har blitt fôret med, er tilfredsstillende. Talegjenkjennere forstår ikke ord de ikke har hørt før, eller dialekter de ikke er fortrolige med. Jo nyere, større og bedre taledata de har å arbeide med, jo mer vil de forstå.

Språkrådet og Nasjonalbiblioteket har nå fått bevilget ekstra midler til å samle inn og bearbeide norske språkdata til fri distribusjon gjennom Språkbanken, til glede så vel for produsentene av norsk språkteknologi som for framtidas brukere.

Del denne siden