Kunstig intelligens lærer at se uden hjælp fra mennesker
Det er lykkedes forskere at give kunstig intelligens en simpel rumforståelse.

Den kunstige intelligens kan forudsige, hvordan en bestemt scene ser ud fra andre vinkler, forklarer en af forskerne bag bedriften i denne video. (Video: Google Deepmind)

Forskere ved Google Deepmind er kommet et skridt nærmere kunstig intelligens, som er i stand til at se og forstå rum på et simpelt plan.

Deepmind kan nu danne sig billeder af hele rum eller genstande, selvom den kun har set dem i enkelte billeder.

Det imponerende er, at netværket ikke har haft brug for at få alt forklaret, hvilket ellers tidligere har været en omstændig proces ved kunstigt intelligente billedteknikker.

»Det er ret smart, at de har lavet en form for flaskehals, som kontrollerer, hvilken information som kommer gennem netværket. Det gør, at netværket selv bliver tvunget til at finde ud af, hvad der er det essentielle i scenen,« siger Ole Winther, der er professor på Institut for Matematik og Computer Science på DTU.

»Typisk vil man ellers være nødt til selv at fortælle den, hvad det essentielle er.«

Bedriften er netop blevet offentliggjort i det videnskabelige tidsskrift Science.

Nedenstående GIF viser, hvordan den kunstige intelligens ud fra enkelte todimensionelle billeder forstår, hvordan hele rum er indrettet:

 (GIF: Eslami et al. 2018)

Trænet i at forstå virtuelle rum

Forskerne har trænet det intelligente netværk ved at præsentere det for en række virtuelle rum, som hver især indeholdt tre forskellige objekter.

Efter at have set tilstrækkeligt mange rum er netværket blevet i stand til at danne sig et billede af, hvordan resten af rummet ser ud, selvom den kun har set et enkelt 2-D billede fra ét tilfældigt sted i rummet.

Det vil sige, at hvis den for eksempel ser et rum med en firkant placeret foran en cirkel og trekant, så forstår den, at cirklen og trekanten står forrest, hvis man står i den modsatte ende af rummet og kigger den anden vej.

Det lyder måske simpelt, men det er et stort skridt, at netværket selv har fundet ud af denne effekt, forklarer Akshay Pai, der er post doc på Science AI Centre ved Københavns Universitet.

»Netværket har selv lært, hvad der er i billedet og genskabt det fra en anden vinkel, uden at forskerne har skullet kategorisere objekterne og deres egenskaber. Den gætter det simpelthen ud fra tidligere erfaringer,« siger han til Videnskab.dk.

Kan bruges til selvkørende biler og hjerneskanninger

Netværket har altså opnået en vis rumforståelse. Men det er foregået i meget simple og virtuelle rum.

Ifølge forskerne kan teknikken dog sagtens bruges til mange ting ude i virkeligheden. For eksempel hos selvkørende biler.

»Selvkørende biler bruger sanseindtryk fra video til at styre, bremse og accellerere. Man kan godt forestille sig, at den her type modeller vil være gode til at forudsige, hvad der sker inden for en umiddelbar fremtid. For eksempel hvis en person er på vej ud på kørebanen,« siger Ole Winther.

Ole Winther forestiller sig, at Google Deepminds teknik kan bruges til at hjælpe selvkørende biler med at forudsige, hvad andre trafikanter vil foretage sig. (Illustration: Shutterstock.)

Akshay Pai, der selv arbejder med billedgenererende teknikker indefor lægevidenskab, ser store muligheder for at bruge teknikken hos hjernepatienter.

Som det er nu, er hjerneskanninger af patienter med svulster nemlig afhængige af brugen af kontrastvæske, som ikke er godt for patienten, forklarer Akshay Pai.

»For at finde ud af hvor det farlige sidder, er man nødt til at sprøjte kontrastvæske ind i patienten, som skanneren kan se, men den her teknik vil kunne bruges til at forudsige, hvordan billedet med kontrastvæsken ser ud,« siger han.

Han forestiller sig også, at den vil kunne bruges til at genskabe arkæologiske udgravninger eller gerningssteder. Ole Winther er enig i, at der er fremtidsperspektiver, men at der et stykke vej endnu.

»Vi har nok hidtil været lidt naive i den måde, vi har sat den her slags modeller op indtil nu. Vi er ligesom nået til en vejs ende. Men det her kan vise sig at være et skridt i den rigtige retning og en smart måde at gøre det på.«

Sådan virker kunstig intelligent billedteknologi

Kunstig intelligens bliver ofte brugt til at analysere billeder. For eksempel kan kunstig intelligens bruges til at vurdere, om et modermærke er i risiko for at udvikle kræft.

Men indtil nu har kunstig intelligens fungeret på en måde, hvor mennesker har været nødt til at kategorisere alt, hvad den ser.

Hvis den for eksempel ser et rum med en stol og et bord, skal programmørerne indkode, hvordan en stol ser ud i alle mulige situationer, før den vil kunne genkende den.

Det skaber mange vanskeligheder, fordi en stol kan se meget forskellig ud afhængigt af, om man ser den forfra, bagfra eller fra siden.

Det nye i studiet er, at det er lykkedes forskerne at give deres netværk en vis forståelse af et rum med tre objekter uden at forklare den noget som helst om former, farver og betydning.

Systemet virker ganske enkelt ved, at den har set en række rum fra forskellige synspunkter, og til sidst har den lært at forudsige, hvordan andre rum ser ud fra forskellige synspunkter, selvom den kun har set rummet fra en enkelt vinkel.

Mennesker er stadig mere komplicerede

Forskerne bag den videnskabelige artikel fortæller i en pressemeddelelse, at de har taget udgangspunkt i, hvordan mennesker forholder sig til verden.

Og de forskere vi har talt med, er da også enige i, at metoden er en smule mere menneskelig end tidligere metoder, men at vi mennesker trods alt stadig fungerer smartere.

»En af svaghederne er, at netværket forsøger at forstå enhver pixel i billedet. Det gør vi mennesker jo ikke. Vi har en eller anden form for filter. Nu sidder jeg på Valby Station lige nu, og jeg ville jo blive sindssyg, hvis jeg skulle forholde mig til alt, hvad mine sanser opfanger,« siger Ole Winther.

Thomas Alrik Sørensen, der er lektor i psykologi og blandt andet forsker i visuel perception, kan godt genkende noget menneskeligt i netværket, men han gør også opmærksom på, at vi mennesker kan meget mere.

»Først og fremmest har vi jo information fra to øjne, så allerede her kan vi vurdere, hvor langt væk forskellige objekter er fra hinanden. Og der er nok noget vej endnu fra de her modeller til de repræsentationer, vi mennesker laver,« siger han.

»Men der er faktisk noget, der tyder på, at vores korttidshukommelse faktisk kun kan fastholde tre-fire objekter ad gangen, og at vi netop opbygger en form for repræsentation, der så kan opdateres,« siger han.

Akshay Pai fortæller også, at der er et stort problem, når der kommer til at genskabe, hvordan vi mennesker opfatter verden.

»Der er ikke nogle mål for den menneskelige opfattelse. Vi ved ikke endnu, hvad vi mennesker rent faktisk opfatter af verden. Hvad, der optræder som en kasse for en computer, ser ikke nødvendigvis ligesådan ud for et menneske,« siger han.

Vi kan snyde vores egen rumforståelse

Du har sikkert før stødt på synsbedrag. Måske her på siden eller andre stedet på nettet.

Mange af dem virker, fordi vores hjerner har vænnet sig til at følge bestemte tommelfingerregler, fortæller Thomas Alrik Sørensen.

Et godt eksempel er ‘Ames Rum,’ der ved hjælp af skrå vægge narrer hjernen til at tro, at personen i den ene ende af rummet er mindre end i den anden.

»Fordi vi har nogle forventninger om, hvordan et rum ser ud, så er det nemmere for vores hjerner at se personen som lille, end at genfortolke rummets dimensioner,« siger Thomas Alrik Sørensen.

'Ames room' på Vilette Science Museum i Paris, Frankrig. (Foto: Wikimedia Commons.)

Ugens Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.