Kunstig intelligens lærer sig selv at slå mennesker i videospil
En computer med kunstig intelligens, bygget af Google, har lært sig selv at spille en lang række videospil fra Atari. Den er nu 25 gange bedre til at spille pinball end en professionel spiltester.

Kunstig intelligens har nu slået den menneskelige intelligens i computerspil. Og det er ikke noget, forskerne har lært den, det er noget, den har lært sig selv. (Foto: Google DeepMind)

Før spil på bærbare computere og på stationære computere, før PlayStation og Xbox og Nintendo Wii, var det Atari 2600, der var den store spilkonsol.

Hvis du nostalgisk kan huske tilbage til videospillenes urtid og Atari-konsollen fra 1977 og kan mindes, hvor god du var til spil som Breakout og Space Invaders – så er det formentlig på tide at finpudse evnerne, ellers må du formentlig nu se dig slået af kunstig intelligens, som Google har udviklet.

Forskere fra forskningsenheden Google DeepMind beskriver deres gennembrud i forskningen i kunstig intelligens i en ny artikel i det ansete tidsskrift Nature.

En computer med kunstig intelligens, af forskerne kaldet en agent, blev sat til at spille 49 klassiske spil på Atari 2600-kontrollen.

Den gjorde det i en lang række tilfælde bedre end Googles menneskelige, professionelle spiltester, hvis resultater blev brugt som sammenligning.

Agenten fik 25 gange flere point i spillet Video Pinball, 17 gange flere i Boxing og var 13 gange bedre til at spille Breakout, som du kan se videoen ovenfor. 

Men det særlige ved agenten er ikke, at den er blevet bedre til at spille videospil end mennesker – kunstig intelligens har slået mennesker i spil før. Det særlige er, at den ikke er god, fordi forskerne har lært den, hvordan den skal spille de meget forskellige spil for at få mange point. Det er noget, den kunstige intelligens har lært sig selv.

»Dette er første gang, nogen har bygget et enkelt læringssystem, der kan lære direkte fra sine erfaringer og lære at mestre en lang række udfordrende opgaver – i dette tilfælde Atari-spil – og kan præstere på eller bedre end menneskeligt niveau i de fleste spil,« siger Demis Hassabis, der grundlagde DeepMind i 2011.

Sidste år blev virksomheden med speciale i kunstig intelligens opkøbt af Google. Han fortæller om forskningsresultatet på en telefonkonference for videnskabsjournalister sammen med en række af sine kollegaer og medforfattere til Nature-artiklen.

Kunstig intelligens overrasker programmører

Forskerne fra Google DeepMind mener, deres kunstige intelligens rykker videre fra, hvad man har kunnet før. Skakcomputeren Deep Blue slog verdensmesteren Garry Kasparov allerede i 1996, mens computeren Watson vandt i quizprogrammet Jeopardy i 2011.

Forskellen er ifølge Demis Hassabis, at den kunstige intelligens, Google-teamet har udviklet, lærer selv:

Fakta

Kunstig intelligens har allerede overgået mennesket i at løse bestemte opgaver. For eksempel slog skakcomputeren Deep Blue skakmesteren Garry Kasparov allerede i 1996. Men generelle opgaver er stadig en udfordring for kunstig intelligens.

»Begge de systemer var meget imponerende, og de slog de menneskelige verdensmestre i begge spil. Men de var i høj grad forprogrammeret med deres evner,« siger Demis Hassabis.

Deep Blue var for eksempel blevet udstyret med viden om skak af programmører og skakeksperter.

»Vi har givet sanseindtryk, så den selv kan lære at tilpasse sig uventede ting. Programmøren behøver ikke nødvendigvis kende løsningen selv for, at programmet kan mestre opgaven,« fortæller Demis Hassabis.

Når Atari-spillene er et interessant sted for forskerne at afprøve deres kunstige intelligens, skyldes det, at kunstig intelligens stadig har svært ved at genkende situationer i den virkelige verden.

Her rummer Atari-spillenes pixelerede skærm muligheden for at skulle løse svære opgaver, der samtidig er nemme at sanse for den kunstige intelligens.

»Det ultimative mål er at bygge intelligente maskiner, men vi er årtier fra at kunne det. Det her er det første skridt, der beviser, at et læringssystem kan virke hele vejen fra pixels til handling, som vi kalder det; og at det kan virke på en udfordrende opgave, som også er svær for mennesker. Det er det første babyskridt, men det er et opmuntrende et,« mener Demis Hassabis.

Må selv regne ud hvordan man får point

Forskernes agent, der egentlig bare er en computer med software, som udgør den kunstige intelligens, virker på mange måder som et menneske: Den får sanseindtryk ind, i dette tilfælde pixels fra en skærm, der viser spillet, ligesom vi får billeder ind via synssansen. Og den kan foretage en handling: Agenten styrer et Atari-joystick, mens vi mennesker bruger vores muskler til at handle.

Men modsat tidligere kunstig intelligens, havde Google DeepMind-forskernes agent ingen viden om de 49 meget forskellige spil, den skulle løse opgaver i for at få point.

Agenten var kun udstyret med evnen til at lære ved at prøve sig frem; en metode, der er inspireret af hvordan både dyr og små børn lærer visse ting.

»Vi forprogrammerer den ikke mellem hvert spil. Den havde et minimum af antagelser og alt den fik adgang til var de rå pixels og point i spillet. Derfra måtte den regne ud, hvordan man styrer, hvordan man scorer point, og hvordan man mestrer spillet,« siger Demis Hassabis.

Kan ikke planlægge langsigtet

Agenten blev sat til at spille hvert spil i to uger og trykkede i starten helt tilfældigt på joysticket.

Fakta

Kunstig intelligens har brug for at modtage input fra virkeligheden på samme måde som mennesker sanser. Det er stadig en udfordring for at få kunstig intelligens til at opfatte situationer i den fysiske verden korrekt. Forskerne fra Google DeepMind brugte Atari-spillene, fordi pixelene på skærmen er en relativt kompleks situation at opfatte, samtidig med at det er simpelt nok til, at den kunstige intelligens kan gøre det korrekt. Til at tolke de rå pixels brugte forskerne maskinlæringsteknikken 'convolutional neural network'.

Ud over pixels var scoren i spillene den eneste information, agenten modtog udefra. Langsomt lærte den, hvilke handlinger med joysticket, der udløste point i de forskellige spil.

Efter noget tids læring fik agenten lov at begynde at trække på sine erfaringer og styre mange af sine handlinger efter, hvad der gav point i stedet for at styre tilfældigt.

Den udviklede altså en strategi, der gav nogle point, men var langt fra optimal, samtidig med at den stadig udførte tilfældige handlinger for at kunne lære nyt.

Efterhånden som strategierne blev mere effektive, blev antallet af tilfældige handlinger bragt ned til omkring 10 procent, fortæller forskerne.

»Systemet opdagede nogle regler i spillene, vi ikke engang kendte til. For eksempel i spillet Seaquest (hvor man spiller med en ubåd, red.) fandt den ud af, at en måde at holde sig i live er ved at holde ubåden under vandets overflade. Det var noget, vi ikke kendte til, som systemet fandt ud af selv,« siger Volodymyr Mnih, der er Demis Hassabis' kollega ved Google DeepMind og medforfatter til artiklen i Nature.

Demis Hassabis supplerer om spillet Breakout, som du kan se i videoen:

»Den opdagede selv, at den optimale løsning er at lave en tunnel i siden af muren af klodser, og sende den hoppende bold om bag muren. Det var noget, systemdesignerne ikke var klar over var den optimale løsning,« siger Demis Hassabis.

Det var dog ikke i alle spil, agenten klarede sig godt. I mere komplicerede spil var læringsstrategien ikke nok.

For eksempel klarede agenten sig i spillet Montezanto's Revenge  på niveau med en sammenligningstest, hvor joysticket blev brugt helt tilfældigt gennem spillet.

»I de spil kræver det mere sofistikeret udforskning. Andre spil, hvor agenten ikke klarer sig godt, er, når langsigtet planlægning er påkrævet,« siger Volodymyr Mnih.

Ved ikke hvad en ubåd er

Hvor den menneskelige hjerne stadig rummer mysterier om, hvad der sker fra sanseindtryk til handling, så kan Google-forskerne fortælle meget præcis, hvad agenten gør.

Videoen er lavet af NPG press

Det bygger på to teknikker kaldet 'convolutional neural network' og 'reinforcement learning', som forskerne har sat sammen i agenten.

Og selvom det er regnekraft, der for agenten ligger mellem sanseindtryk og handling, så er indmaden inspireret af menneskers neurobiologi.

»Vi har kombineret to vigtige maskinlæringsteknikker,« forklarer Demis Hassabis.

Når agenten modtager de rå pixels fra spillet, er første opgave, at den skal forstå, hvad pixelene betyder.

Her benyttes 'convolutional neural network', der er den digitale version af hjernens visuelle cortex.

På samme måde som neuronerne i hjernen sender signaler videre fra små detaljer til større helheder, forstår algoritmerne også de enkelte pixels som større helheder: En ubåd, en bold, et monster man skal undgå for ikke at være 'game over' når information sendes videre i systemet.

Det er den samme teknik, der også bruges i billedgenkendelsessoftware.

Ifølge forskerne er agenten i stand til at opfatte en række farvede pixels som et samlet objekt uden at den nødvendigvis ved, hvad objektet er.

Demis Hassabis sammenligner agenten med et 2-3-årigt barn uden sprog, der blot er blevet bedre til Atari-spil end en professionel spiltester.

»Vi kan ikke sige endnu, at den bygger konceptuel eller abstrakt viden. Det er stadig noget, der skal løses. Men for mange af spillene er det ikke nødvendigt. Jeg tror ikke, at den formulerer, at der er en ubåd eller at den har brug for at få ilt eller den slags. Det er abstrakt viden, vi kan se i spillene, fordi vi bringer viden ind fra den virkelige verden,« siger Demis Hassabis.

Inspireret af mennesker

Når agenten kunne tolke, hvad der skete på skærmen, kunne den benytte 'reinforcement learning', hvor agenten lærer af sine erfaringer.

Fakta

Tidligere agenter med kunstig intelligens har været forprogrammerede med deres viden om, hvordan de skal gribe problemer an. Google DeepMinds agent benyttede 'reinforcement learning', hvor agenten i stedet prøver sig frem og lærer af sine succeser og fejl. Et alternativ er 'supervised learning', hvor agenten bliver trænet i starten og fejl begået af den kunstige intelligens bliver rettet.

Samtidig havde Google DeepMind-forskerne sørget for, at den kunne generalisere tidligere oplevelser til situationer, den ikke havde oplevet eller trænet tidligere.

Også denne del var inspireret af hjernen, fortæller forskerne bag, men den menneskelige neurobiologi er ikke noget, de vil lade sig begrænse af, når de fremover skal videreudvikle den kunstige intelligens.

»Vi bruger hjernen som inspiration. Vi undersøger en række algoritmer, der kan give intelligens,« siger Demis Hassabis og understreger, at der også kan være algoritmer, som ikke er inspireret af mennesker eller dyr, der skaber intelligens. Men fordi 'reinforcement learning' virker ved mennesker, antog forskerne, at det var en af retningerne, der ville virke.

»Vi kan være sikre på, at 'reinforcement learning' er noget, det er værd at arbejde med og lægge al den energi i, for vi ved, at det er en måde, som dyr inklusive mennesker lærer på,« siger Demis Hassabis.

Forskningsområdet rykker hurtigt

Ole Winther, der er lektor på DTU Compute og forsker i maskinlæring, mener, at forskningsresultatet fra Google DeepMind er spændende nyt.

»Reinforcement learning' er det ultimative, hvis man vil imitere menneskelige evner, fordi vi har evnen til at planlægge. Men det er også det, der er sværest at få til at virke. Det er måske DeepMinds bedrift, at de har fået det til at virke til at løse en rimelig svær opgave,« siger Ole Winther.

Ole Winther påpeger dog, at forskerne fra DeepMind ikke er de eneste, der har arbejdet med at kombinere 'convolutional neural network' med 'reinforcement learning'.

Forskere fra Albert-Ludwigs-Universitat Freiburg i Tyskland har tidligere publiceret resultater, hvor kunstig intelligens opnår overmenneskelige evner på en legetøj racerbane, der bliver filmet.

Ole Winther peger på, at forskningsresultatet kan være særligt interessant for Google, der opkøbte DeepMind i 2014.

»Gamle Atari-spil er en sandkasse for vildere ting. For Google kunne det være interessant i deres forretning, hvis de kan modellere vores adfærd. Når Google viser en adword-reklame, så gør de det ud fra en model, der er mere eller mindre personaliseret. Jo mere de ved om os, jo mere avancerede modeller kan de lave, og de modeller kan være baseret på de samme ting, som er gode til at spille spil med,« siger Ole Winther.

Snart bedre til at køre bil

Han påpeger dog, at der også er mange andre anvendelser af kunstig intelligens.

Ole Winther fortæller, at forskningen i kunstig intelligens har rykket sig meget de seneste fem år, fordi computerkraften er blevet større, og dermed har gjort det nemmere at træne kunstig intelligens på større datamængder.

Mens kunstig intelligens for længst er blevet bedre til at spille skak og backgammon, så forudser Ole Winther også, at kunstig intelligens inden for få år vil være bedre til at forstå sprog end mennesker i meget støjfyldte omgivelser, og at der vil komme kunstig intelligens, der er bedre til at køre bil end mennesker.

»Der vil være en lang række områder. Men det man forbinder med at tænke, altså en menneskelig kunstig intelligens, er svært at spå om - det er ikke udelukket, at det kan komme en dag. Men inden for specifikke domæner er det gået overraskende hurtigt de seneste fem år. Så det er spændende tider,« siger Ole Winther.

Ugens Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.