I 2018 påkørte en selvkørende bil fra Uber en 49-årig kvinde i Arizona med døden til følge. Denne ulykke skyldtes, at den kunstige intelligens opfattede kvinden som en fodgænger for sent, og nødbremsen var deaktiveret.
Ulykken står som et lysende eksempel på de udfordringer, som kunstig intelligens kommer med – nemlig, at det kræver enorme mængder data for at fungere godt. Og det er (stort set) umuligt at lave et datasæt, der indeholder alle de trafiksituationer, man kan havne i.
Kunstig intelligens er i rivende udvikling og kan få enorm betydning for os mennesker. Men teknologien er ikke uden problemer, hvad enten det så drejer sig om selvkørende biler, algoritmer, der sorterer jobansøgninger eller maskiner, der tilsyneladende lærer at læse.
Maskinlæring har stort potentiale
Kunstig intelligens bygger på en teknologi, som kaldes maskinlæring.
Det bruges til at udtrække mønstre fra data, og de fundne mønstre samles så i en matematisk model, som efterfølgende bruges til at lave forudsigelser eller automatiserede beslutninger. Disse modeller kommer til udtryk i form af computerprogrammer, som indeholder en lært algoritme, som beregner forudsigelserne.
Maskinlæring er ikke et nyt fænomen, men øget computerkraft og nye teknikker til at identificere mønstre har ført til store forventninger til nye anvendelsesmuligheder af det.
Et omdiskuteret eksempel på dette er selvkørende biler, som diverse bilproducenter spår til at være klar inden for få år. Den gængse danskers forventning i 2017 var en anelse mere konservativ, og størstedelen af danskerne forventede først fuldt selvkørende biler efter 2030.
Hvilke prognoser, som ender med at holde stik, er det selvsagt svært at spå om.
LÆS OGSÅ: Etisk dilemma: Skal førerløse biler ofre passageren eller fodgængeren?
Denne artikel er en del af Forskerzonen, som er stedet, hvor forskerne selv kommer direkte til orde.
Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
Forskerzonen er støttet af Lundbeckfonden.
Problemer med at skaffe data nok
Der er nogle grundlæggende problemer, som spænder ben for at anvende maskinlæring til opgaver, hvor fejl koster menneskeliv.
Et af de væsentlige problemer er, at maskinen kun kan lære mønstre, som den kan se i data.
I 2018 sagde direktør for kunstig intelligens hos Tesla, Andrej Karpathy, at en af deres største udfordringer er at skaffe data nok fra trafiksituationer på tværs af hele verden. Hans pointe er vigtig, fordi en selvkørende bil vil have svært ved at forstå en situation i trafikken, hvis det ikke i en eller anden udstrækning minder om en situation, den har set før i det data, den har trænet sig selv med.
Det er et problem, fordi mennesker og maskinlæringsmodeller opfatter situationer meget forskelligt. Når det kommer til selvkørende biler kan det have livsfarlige konsekvenser.
I værste tilfælde kan en model opfatte virkeligheden forkert eller træffe en uhensigtsmæssig beslutning, som fører til tab af menneskeliv, som det skete i Uber-ulykken.
For at sikre en sikker maskindlæringsmodel til brug i selvkørende biler vil det principielt kræve at have mange forskellige trafiksituationer i et datasæt, som man så skulle efterprøve, om modellen kunne gennemskue.
Dette er dog nærmest umuligt, da der er for mange situationer til at kunne opsamle dem i et enkelt datasæt.
Desuden opstår der nogle abstrakte spørgsmål som: Hvordan kan vi sikre, at vi havde opsamlet alle trafiksituationer? Eller hvad nu hvis vi var for konservative i forståelsen af, hvad alle er?
LÆS OGSÅ: Hvem skal selvkørende biler slå ihjel? Nu har hele verden svaret
Sårbare overfor menneskelige fejl
På nuværende tidspunkt bruger man en række statistiske metoder til at forbedre modellerne, så de kan håndtere situationer, som de aldrig har set før.
Metoderne er dog meget sårbare overfor menneskelige fejl.
To typiske fejl, som – til trods for, at de er velkendte – ofte fører til, at resultater bliver dømt ukorrekte, er:
- sample bias (over- eller underrepræsentation af en gruppe i et sample) og
- overfit af test set (overforbrug af målinger).
Først lidt om sample bias.
Når menneskers fordomme overføres til maskiner
Problemet med sample bias blev for alvor anerkendt, da George Gallup i 1936 kunne estimere udfaldet af det amerikanske præsidentvalg mere præcist med blot 50.000 målinger frem for de 2,4 millioner målinger, som man tidligere havde troet, var nødvendige.
Helt konkret opstår sample bias, når analytikeren har en forventning om, at et givent datasæt er et helhedsudtryk for en given problematik, men hvor datasættet i virkeligheden kun viser et begrænset billede af problematikken.
Firmaet Amazon offentliggjorde for nyligt, at det havde skabt en masklæringsmodel til at vurdere ansøgere. Løsningen var skabt på baggrund af et datagrundlag, som indeholdt ansøgninger, som HR-medarbejdere tidligere havde vurderet.
Problemet? Det førte til, at løsningen ikke var god til at vurdere kvalifikationerne hos ansøgerne korrekt, da tidligere HR-medarbejdere havde en uhensigtsmæssig præference til af foretrække mænd frem for kvinder til tekniske stillinger.
Datasættet havde altså indeholdt et sample bias, hvor maskinlæringsmodellen ville vurdere mænd over kvinder, fordi den var 'fodret' med den bias.
LÆS OGSÅ: Test dig selv: Hvem vil du redde fra bilulykken?
Data, der fejlagtigt bliver genanvendt
Skal man måle en models evne til at håndtere uforudsete hændelser, skal skaberen bag modellen skjule en mængde data for modellen, når den bliver udviklet. Den mængde data kaldes for et test set.
Datamængden kan så senere bruges til at give et mål for, hvor god modellen er i situationer, som er ukendt for den. Det væsentlige i denne metode er, at det usete data forbliver uset, indtil modellen skal vurderes.
Hvis ikke det er tilfældet, og det usete data bliver anvendt til målinger gentagende gange, ender målingerne med at være misvisende. Det skyldes, at man tester modellerne på data, der bliver mere og mere kendt ved hvert forsøg. Det usete data bliver altså set.
I sidste ende betyder det, at målinger kan være meget misvisende, når man skal se på, hvor god modellen er i uforudsete situationer, fordi situationerne rent faktisk er blevet målt på gentagende gange.
Menneskelige fejl kan føre til misvisende resultater
Disse menneskelige fejl har haft store konsekvenser for visse forskningsområder, blandt andet et nyere forskningsfelt, som prøver at lære maskinindlæringsmodeller at læse og forstå.
Det forskningsfelt kaldes machine reading comprehension (maskinlæsning), og her forsøger man at lave modeller, som kan læse en paragraf og svare på spørgsmål baseret på den læste tekst. Det er for eksempel relevant i forhold til søgemaskiner, som ofte anvendes til at finde svar på spørgsmål.
Der er fremlagt imponerende resultater på området, men et nyere studie har sået tvivl om de flotte tidligere resultater, da de kan være misvisende på grund af menneskelige fejl.
Fejlene handler om, at de datasæt, som bruges til at træne modellerne med, har en meget forudsigelig sammenhæng mellem paragrafferne og spørgsmålene.
Konkret betyder det, at modellen ikke har brug for at forstå indholdet af teksten, men kan give korrekte svar ved at kigge på den overordnede struktur af teksten.
LÆS OGSÅ: Bump på vejen mod den førerløse fremtid
Studiet trak tæppet væk under tidligere resultater
I studiet trænede forskerne modeller, som enten kun blev præsenteret for paragraffen eller spørgsmålet og efterfølgende skulle afgive et svar.
Deres modeller fik en uventet høj nøjagtighed, og i visse situationer var de ligeså gode eller bedre som tidligere modeller, der havde set både paragraf og spørgsmål.
Konklusionen var derfor, at de datasæt, man generelt har brugt til at træne modellerne, har været for ensartet i deres struktur, når der ikke var synderlig forskel på, om man har set paragraftekst, spørgsmål eller begge dele i forhold til evnen til at svare korrekt.
Dette studie har trukket tæppet væk under tidligere forskningsresultater, da der nu er begrundet tvivl om, hvorvidt modellerne har lært at læse eller 'bare' kan genkende simple strukturer.
Uvished om fremtiden – det kan vi gøre
Nuværende metoder brugt til maskinindlæring kan ikke stille garantier for, hvordan modellerne vil opføre sig i ukendte situationer, og det en sjældenhed at finde modeller som er ufejlbarlige.
Det betyder, at vi som samfund kan gøre tre ting:
- Vi kan vente til, metoderne findes
- Acceptere risikoen ved at sætte os ind i en bil, som er drevet af maskinindlæring med kendte sårbarheder eller
- Se på alternative metoder til at løse de samme problemer
Et bud på en alternativ metode kunne være at anvende model verifikation (eng.: model checking), som blandt andet anvendes til at sikre computerprogrammer mod en række fejl. Metoden er en central del af, hvordan software i fly sikres mod kritiske fejl.
Vi skal sige velkommen til den teknologiske udvikling, men vi må også indse, at den har sine begrænsninger.
Samtidig er der et endnu uløst etisk dilemma:
Hvordan håndterer vi brugen af kunstig intelligens i de situationer – som for eksempel i trafikken – hvor fejl kan koste menneskeliv?
Vi må sikre os, at teknologien ikke vokser på bekostning af menneskeliv.
LÆS OGSÅ: Black box-problemet: Når vi ikke forstår den kunstige intelligens
LÆS OGSÅ: Forsker: Vi bliver nødt til at lære maskinerne menneskelig moral