Maskiner skal lære at forstå dansk
Hvis vi i fremtiden skal kunne kommunikere med vores telefoner og computere, skal de lære at forstå, hvad vi siger. Nyt dansk forskningsprojekt vil lære maskinerne at skelne mellem flertydige ord – endda på dansk.

Herhjemme har vi endnu ikke et dansk datasæt. Det betyder, at danskerne starter fra nul. Vores naboland, Sverige, har eksempelvis allerede et datasæt, de kan bruge for sproget, så de vil ikke skulle starte helt forfra hver gang. (Foto: <a href="http://www.shutterstock.com/pic-125589335/stock-photo-artificial-intelli... target="_BLANK">Shutterstuck</a>)

Det kan være svært nok at få andre mennesker til at forstå, hvad man mener.

Men når samtalen foregår med en maskine som en telefon eller en computer, så er risikoen for misforståelser for alvor stor.

Vores sprog er nemlig fuld af flertydige ord, og selvom maskinerne bliver stadig bedre til at analysere sprog, så har de stadig svært ved at forstå, hvad ordene præcis betyder.

Men nu vil et nyt dansk forskningsprojekt komme maskinerne til undsætning.

Forskerne bag projektet 'Semantic processing across domains', der er finansieret med en bevilling fra Det Frie Forskningsråd, vil nemlig forsøge at lægge grunden til fremtidens sprogteknologi.

En ny teknologi skal lære maskinerne at gennemskue, hvornår du mener det ene, og hvornår du mener det andet.

»Meget teknologi virker meget bedre, hvis det ikke bare kan genkende ord, men også til en vis grad kan forstå, hvad de betyder,« forklarer lederen af projektet, professor Bolette Sandford Pedersen fra Center for Sprogteknologi, Københavns Universitet, til Videnskab.dk.

»Mange kender for eksempel programmet SIRI, der gør det muligt at tale til sin iPhone og stille spørgsmål. Den type programmer er afhængige af at kunne forstå, hvad ordene betyder i en specifik sammenhæng og af at kunne identificere, hvilke dele af sætningen der 'gør' hvad – altså det man kalder den semantiske funktion.«

Forestil dig for eksempel, at du får en skade på din bil og gerne vil vide, hvordan du kan få din bil til at køre igen. Hvis du spørger et program som SIRI, hvor du kan få repareret skaden på din bil, så vil det fungere bedst, hvis programmet ved at 'skaden' betyder en 'defekt' og ikke en 'fugl', og hvis det for eksempel også forstår, at det er 'skaden på bilen', og ikke 'dig', der skal 'repareres'.

Danmark skal på omgangshøjde

Sprogteknologi kan allerede til en vis grad fortolke betydningen af ord og sætninger, men teknologierne fungerer primært på engelsk, og derfor er et af projektets hovedformål at udvikle et datasæt af danske tekster.

Datasætte skal danne grundlag for, at dansk kan komme på omgangshøjde med det engelske sprog.

Fakta

Bolette Sandford Pedersen har modtaget 5.917.837 kroner fra Det Frie Forskningsråd til projektet ’Semantic processing across domains’.

»Når man skal udvikle de her sprogteknologier, gør man gerne det, at man fodrer en computer med en masse tekst, hvor alle ordene manuelt er blevet opmærket med oplysninger om, hvilken funktion og betydning det enkelte ord har i teksten,« forklarer lektor Anders Søgaard fra Center for Sprogteknologi, Københavns Universitet, som også er inde over projektet.

»På baggrund af det kan man så udlede nogle modeller, som automatisk kan analysere nye sætninger, som maskinerne ikke har set før.«

Danske virksomheder starter fra nul

Når vi herhjemme endnu ikke har et sæt af opmærkede danske tekster, stiller det ifølge folkene bag projektet de danske forskere og virksomheder dårligere end for eksempel deres nordiske kolleger.

»Hvis en svensk virksomhed vil udvikle et sprogværktøj, så starter de ikke fra nul, fordi forskere allerede har lavet et datasæt, de kan bruge for svensk. Men uden sådan et datasæt er det sværere at få de danske virksomheder til at udvikle dansk sprogteknologi,« siger Anders Søgaard, der peger på de sociale konsekvenser.

»Nogle vil måske mene, at vi jo bare kan tale engelsk, og at dem, der ikke behersker engelsk, er en uddøende race. Men man kan også se det som et samfundsproblem, fordi det udelukker en del af befolkningen fra at bruge de her muligheder.«

Teknologi-skellet: en nært forestående virkelighed

Meget tyder på, at et sådant teknologiskel, hvor dele af befolkningen udelukkes, ikke er en fjern dystopi - men snarere en nært forestående virkelighed.

Når den danske befolkning de kommende år skal til at kommunikere med det offentlige over nettet, kan sprogteknologier være en løsning på nogle af de problemer, der er forbundet med overgangen til digital kommunikation.

»Kommunerne er begyndt at indføre teknologi, der kan genkende tale, så man i stedet kan tale til computeren, og her er det jo helt centralt, at computeren kan skelne mellem forskellige betydninger af ordene,« siger Bolette Sandford Pedersen.

Teknologi kan hjælpe svage borgere

Det er blandt andet håbet, at forskningsprojektet skal kunne hjælpe borgere, som ikke helt kan gennemskue den kommunale jargon.

Forskerne fra Københavns Universitet samarbejder nemlig med Det Danske Sprog- og Litteraturselskab om forskningsprojektet, og den forbedrede sprogteknologi skal gerne gøre selskabets ordbøger endnu bedre til at hjælpe borgene.

»Vi har en drøm om, at borgerne skal kunne klikke på de ord på en hjemmeside som Borger.dk, som de ikke forstår, og så skal vores ordbøger ved hjælp af den her teknologi kunne forklare dem, hvad det givne ord betyder i lige præcis den sammenhæng, hvor de står,« fortæller seniorredaktør Nicolai Hartvig Sørensen, der sammen med seniorredaktør Sanni Nimb repræsenterer Det Danske Sprog- og Litteraturselskab i forskningsprojektet.

Vil gerne undgå håndarbejde

Sprogteknologi kan allerede til en vis grad fortolke betydningen af ord og sætninger, men teknologierne fungerer primært på engelsk, og derfor er et af projektets hovedformål at udvikle et datasæt af danske tekster. (Foto: <a>Shutterstock&lt;/a&gt;)

Helt konkret skal forskerne opmærke de betydningsbærende ord i flere tusinde sætninger med oplysninger om, hvilken kategori de enkelte ord tilhører, og hvilken semantisk funktion de har.

Således skal ordene kategoriseres som for eksempel en person, en hændelse, et køretøj eller et dyr.

Det opmærkede materiale skal så sidenhen danne grundlag for udviklingen af modeller, der mere generelt kan forudsige, hvornår et ord må forventes at have en given betydning og funktion.

Problemet er nemlig, at den manuelle opmærkning af tekster er uhyre omfattende og kostbar, og derfor sigter forskerne også mod at udvikle teknologi, der kan mindske håndarbejdet.

»Vi vil forsøge at lade computerne gøre en større del af arbejdet ved for eksempel at lade dem forsøge at aflure de mønstre, der er i det opmærkede materiale. Det kan for eksempel være ved at kigge på, hvor sandsynligt det er, at et givent ord har en særlig betydning eller funktion i en given kontekst,« forklarer Anders Søgaard.

Modeller skal lære af egne fejl

Forskerne vil også benytte sig af en mere kompleks metode med såkaldte 'neurale netværk'.

»Her er princippet, at man starter med en tilfældig model, og så ser man, hvor god den er til at analysere et givent stykke tekst. Når man så finder fejl, kan man justere modellen parameter for parameter, for at se om modellen bliver bedre eller dårligere,« siger Anders Søgaard.

Den slags metoder skal blandt andet tjene til at tilpasse den allerede eksisterende sprogteknologi, så den kan bruges på flere forskellige typer tekst.

»I dag fungerer sprogteknologierne bedst på de typer tekst, der mest ligner avisartikler, fordi man hovedsageligt har brugt den slags tekst til at træne maskinerne. Det betyder omvendt, at de fungerer temmelig dårligt på udsagn, som minder meget lidt om avisartikler som for eksempel talesprog eller sproget på Twitter,« uddyber lektoren.

Teknologi kan hjælpe fattige lande med små sprog

Forskerne håber også, at de generelle modeller, der udvikles på baggrund af det danske materiale, kan komme til at gavne borgere i andre små sprogområder, hvor man har færre ressourcer end i Danmark.

»Der findes jo mange andre lande med små sprog, hvor befolkningen er meget dårligere til engelsk end i Danmark, og hvor overskuddet til sprogforskning er meget lille. Mange af de teknologier, vi er ved at udvikle her, kan formodentligt også genbruges til andre små sprog,« siger Anders Søgaard.

Han peger på, at området har været domineret af forskere fra lande med meget store sprog som USA eller Kina, der ikke på samme måde har de små sprog på dagsordenen.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.