Forskere ved Google Deepmind er kommet et skridt nærmere kunstig intelligens, som er i stand til at se og forstå rum på et simpelt plan.
Deepmind kan nu danne sig billeder af hele rum eller genstande, selvom den kun har set dem i enkelte billeder.
Det imponerende er, at netværket ikke har haft brug for at få alt forklaret, hvilket ellers tidligere har været en omstændig proces ved kunstigt intelligente billedteknikker.
»Det er ret smart, at de har lavet en form for flaskehals, som kontrollerer, hvilken information som kommer gennem netværket. Det gør, at netværket selv bliver tvunget til at finde ud af, hvad der er det essentielle i scenen,« siger Ole Winther, der er professor på Institut for Matematik og Computer Science på DTU.
»Typisk vil man ellers være nødt til selv at fortælle den, hvad det essentielle er.«
Bedriften er netop blevet offentliggjort i det videnskabelige tidsskrift Science.
Nedenstående GIF viser, hvordan den kunstige intelligens ud fra enkelte todimensionelle billeder forstår, hvordan hele rum er indrettet:
(GIF: Eslami et al. 2018)
Trænet i at forstå virtuelle rum
Forskerne har trænet det intelligente netværk ved at præsentere det for en række virtuelle rum, som hver især indeholdt tre forskellige objekter.
Efter at have set tilstrækkeligt mange rum er netværket blevet i stand til at danne sig et billede af, hvordan resten af rummet ser ud, selvom den kun har set et enkelt 2-D billede fra ét tilfældigt sted i rummet.
Det vil sige, at hvis den for eksempel ser et rum med en firkant placeret foran en cirkel og trekant, så forstår den, at cirklen og trekanten står forrest, hvis man står i den modsatte ende af rummet og kigger den anden vej.
Det lyder måske simpelt, men det er et stort skridt, at netværket selv har fundet ud af denne effekt, forklarer Akshay Pai, der er post doc på Science AI Centre ved Københavns Universitet.
»Netværket har selv lært, hvad der er i billedet og genskabt det fra en anden vinkel, uden at forskerne har skullet kategorisere objekterne og deres egenskaber. Den gætter det simpelthen ud fra tidligere erfaringer,« siger han til Videnskab.dk.
Kan bruges til selvkørende biler og hjerneskanninger
Netværket har altså opnået en vis rumforståelse. Men det er foregået i meget simple og virtuelle rum.
Ifølge forskerne kan teknikken dog sagtens bruges til mange ting ude i virkeligheden. For eksempel hos selvkørende biler.
»Selvkørende biler bruger sanseindtryk fra video til at styre, bremse og accellerere. Man kan godt forestille sig, at den her type modeller vil være gode til at forudsige, hvad der sker inden for en umiddelbar fremtid. For eksempel hvis en person er på vej ud på kørebanen,« siger Ole Winther.
Akshay Pai, der selv arbejder med billedgenererende teknikker indefor lægevidenskab, ser store muligheder for at bruge teknikken hos hjernepatienter.
Som det er nu, er hjerneskanninger af patienter med svulster nemlig afhængige af brugen af kontrastvæske, som ikke er godt for patienten, forklarer Akshay Pai.
»For at finde ud af hvor det farlige sidder, er man nødt til at sprøjte kontrastvæske ind i patienten, som skanneren kan se, men den her teknik vil kunne bruges til at forudsige, hvordan billedet med kontrastvæsken ser ud,« siger han.
Han forestiller sig også, at den vil kunne bruges til at genskabe arkæologiske udgravninger eller gerningssteder. Ole Winther er enig i, at der er fremtidsperspektiver, men at der et stykke vej endnu.
»Vi har nok hidtil været lidt naive i den måde, vi har sat den her slags modeller op indtil nu. Vi er ligesom nået til en vejs ende. Men det her kan vise sig at være et skridt i den rigtige retning og en smart måde at gøre det på.«