Hvordan finder vi mennesker ud af, hvad vi skal sige og hvornår? Vi skal prøve at sige de ting, som er relevante for andre at vide, men hvordan afgør vi, hvad der er relevant for hvem?
Er det relevant for mig at fortælle dig som læser af ForskerZonen at tre gange tre er ni? Næppe. Er det relevant at fortælle min 8-årige datter? Ja, det kunne det godt være.
Vi siger forskellige ting til forskellige mennesker, men den eneste grund til, at vi kan holde styr på, hvad der giver mening at sige til hvem, er, at vi kan sætte os i andres sted og dermed forestille os, om et stykke information er relevant for den pågældende.
Hvis jeg beder min kollega på nabokontoret om at hente en kop kaffe, ville det være mærkeligt at fortælle, hvor kaffemaskinen er – og lige så mærkeligt ville det være, hvis jeg bad en førstegangsbesøgende om det samme uden at fortælle, hvor kaffemaskinen er.
Evnen til at sætte sig i andres sted og beslutte, hvad man skal sige til hvem, kaldes social perspektivtagning. Uden den evne ville vi bare sige det samme til alle og blive ved med at gentage os selv.
Menneskets evne til social perspektivtagning er utroligt avanceret i forhold til, hvad noget som helst dyr har, og det er en afgørende grundsten i vores evne til at kommunikere, samarbejde og være hjælpsomme.
Social intelligens i robotter – hvorfor dog?
Bør robotter have evnen til social perspektivtagning?
Ja, for ellers vil de heller ikke vide, hvad der giver mening at sige til hvem hvornår, og de vil ende med at fortælle os en masse, vi ikke har brug for at vide – men omvendt tie stille om en masse, som vi har brug for at vide.
Forestil dig, at du i en ikke så fjern fremtid har en husholdningsrobot, som kan hjælpe dig med at støvsuge, vaske op, rydde op og måske endda lave mad. Den kunne for eksempel se ud som Pepper-robotten på billedet herunder (det er robotten til venstre!).
Lad os sige, at du en aften kommer hjem fra arbejde og som sædvanlig lægger bilnøglerne i det lille skab i entreen. Når du næste morgen siger ‘nu kører jeg på arbejde’, vil du så gerne have, at robotten siger ‘bilnøglerne ligger i det lille skab i entreen’? Næppe.
Men lad os sige, at du i stedet først skal bruge bilen om aftenen, og i mellemtiden har din mand brugt den og lagt bilnøglerne under en bunke aviser i køkkenet (typisk!). Vil du så gerne have, at robotten fortæller dig, hvor nøglerne er, når du skal bruge dem?
Ja, naturligvis, for så skal du ikke bruge et kvarter på at finde dem, mens robotten bare står passivt og observerer dig, selvom den faktisk godt ved, at du har brug for nøglerne og også ved, hvor de er.

Robotter skal lære ‘hvem der ser hvad’
Forskellen mellem situationen, hvor robotten skal tie, og hvor den skal tale, er, om den ved, at du ved, hvor nøglerne er.
Hvis den ved, at du selv ved, hvor de er, er der ingen grund til at sige noget. Ellers bør den hjælpe dig.
Evnen til at holde styr på, hvad andre ved og ikke ved, er også et eksempel på social perspektivtagning. For at kunne holde styr på dette, er det nødvendigt at holde styr på ‘hvem, der ser hvad’, når verden ændrer sig (for eksempel når ting bliver flyttet) – og hvordan dette ændrer på det verdensbillede, vi hver især har.
Det er disse evner, jeg i min forskning på DTU har givet en Pepper-robot – med uvurderlig assistance af min studenterprogrammør Lasse Dissing Hansen og min forskningsassistent Mathias Kaas-Olsen.
Ingredienserne i den sociale robot
Hvordan får man så en robot til at holde øje med, hvem der har lagt nøglerne hvor, og hvem der har set dem blive lagt der?
Først og fremmest har man brug for at kunne kende forskel på forskellige aktører – hvem der udfører en given handling.
\ Komponenter i Pepper
For at Pepper kan få evnen til social perspektivtagning, har vi givet den følgende komponenter:
1. Ansigtsgenkendelse ved hjælp af kamerasensor.
2. Registrering af bevægelser ved hjælp af kamera- og dybde-sensor.
3. Tekst-til-tale og tale-til-tekst moduler, så
robotten selv kan tale og høre, hvad andre siger. Det sker via højtalere og mikrofoner.
4. Perspektivtagnings-modul. Bygger på 1–3 og vores eget software-modul til logisk ræsonnering.
I Pepper-robotten bruger vi eksisterende ansigtsgenkendelses-software til den del. Ansigtsgenkendelse er en del af kunstig intelligens, som efterhånden er blevet ret robust, og vi behøver kun vise Pepper et enkelt bedaget profilbillede af en person, for at den efterfølgende vil kunne genkende denne person i levende live.
Der kan dog selvfølgelig være situationer, hvor der er flere personer til stede i et rum, og her er ansigtsgenkendelse ikke nok til at finde ud af, hvem der har flyttet på nøglerne eller snuppet det sidste stykke kage.
Derfor har vi også implementeret registrering af bevægelser. Robotten genkender hver aktørs armbevægelser, så den kan se, hvem der løfter hvad, og hvor det bliver lagt hen.
For at få dette til at virke gør vi både brug af robottens kamerasensor og dens dybdesensor, som gør, at den kan ‘se i tre dimensioner’.
For at det kan blive rigtig interessant, er det naturligvis vigtigt at kunne kommunikere med robotten, så vi for eksempel kan spørge den, hvor nøglerne er, eller så den selv kan fortælle, hvor de er, hvis den mener, vi har brug for at vide det.
Robotten har et indbygget tekst-til-tale modul, som gør, at den kan tale, hvis den blot kan finde ud af, hvad den skal sige. Tilsvarende har vi brugt et eksisterende tale-til-tekst modul, som gør, at det, man siger til den, kan blive lavet om til tekst og derefter blive processeret.
Selve det at finde ud af hvordan man skal reagere på, hvad der bliver sagt, for eksempel hvordan man skal besvare et spørgsmål, ligger i det sidste modul. Det er også der, perspektivtagningen finder sted.
Det nyeste modul kommer fra DTU
Det sidste og mest afgørende modul er det, som giver robotten dens sociale intelligens, evne til perspektivtagning og evne til logisk ræsonnering. Det er det modul, som er baseret direkte på min forskning på DTU.
Modulet er baseret på modallogik og epistemisk logik, områder af logik som går tilbage til den amerikanske filosof og logiker Saul Kripke (født 1940), men som senere har fundet rige anvendelser i mange dele af datalogi og kunstig intelligens.
Saul Kripke giver matematiske modeller for, hvordan man kan ræsonnere omkring flere forskellige mulige verdener, altså flere forskellige måder verden kunne se ud på. I én mulig verden er månen lavet af sten og jord, i en anden mulig verden er den lavet af grøn ost.
Muligheden for at ræsonnere omkring forskellige mulige verdener er essentiel for den sociale perspektivtagning, for man bliver netop nødt til at forstå, at andre måske ser verden anderledes end én selv (for eksempel fejlagtigt tror, at vi er i den mulige verden, hvor nøglen stadig er i skabet i entreen).
I modulet til perspektivtagning holdes styr på tre forskellige typer af handlinger:
- Ændring af verden: Aktør a gør udsagnet u sandt. Eksempel: Anne lægger nøglerne i skabet, hvor a = Anne og u = nøglerne er i skabet.
- Videregivelse af information: Aktør a informerer om at u. Eksempel: Anne fortæller, at nøglerne er i skabet, hvor a = Anne og u = nøglerne er i skabet.
- Ændring af observerbarhed: Aktør a starter/stopper med at observere aktør b. Eksempel: Anne siger farvel til Bo og tager på arbejde, hvor a = Anne og b = Bo.
Disse handlinger kan enten være handlinger, som robotten udfører, eller handlinger, som robotten observerer andre udføre.
Det virker måske umiddelbart lidt begrænset kun at have disse tre typer af handlinger. Men hvis du prøver at tænke over alle de handlinger, du har udført og observeret i løbet af din dag indtil videre, vil du se, at langt de fleste passer ind i en af disse tre typer.
\ Thomas Bolander taler ved Forskerzonen Live
Onsdag 26. september fortæller Thomas Bolander meget mere om R2DTU og kunstig intelligens ved eventet Forskerzonen Live. Arrangementet er dog fuldt booket.
Når vi står op og smører madpakke, er det handlinger af typen 1. Når vi fortæller, hvornår vi forventer at være hjemme fra arbejde, er det en handling af typen 2. Og når vi så tager afsted på arbejde, er det af typen 3.
Det betyder, at vi har et modul, som ikke er begrænset til at kunne håndtere ganske få typer af scenarier og eksempler på perspektivtagning, men har en generel evne til at holde øje med, hvad der sker i omgivelserne, og hvem der observerer hvad.
Det unikke i vores løsning
Når man udvikler en social robot, skal man naturligvis have en fornuftig måde at teste den på.
Vi har fået robotten til at bestå såkaldte false-belief tasks, som oprindeligt er udviklet til at teste børns evne til social perspektivtagning. Se et eksempel på et barn, som fejler i en false-belief task her.
Testen er en ‘Sally-Anne test’, som er en såkaldt første-ordens false-belief task, hvor man kun behøver at tage andres perspektiv, men ikke tænke over, hvordan de ser en selv eller andre personer. Normalt udviklede børn kan bestå denne test allerede omkring 4-års-alderen.
Se vores robot bestå en tilsvarende false-belief task i videoen nedenfor:
Vi er ikke de første, som har lavet robotter med social perspektivtagning, og vi er heller ikke de første, som har fået dem til at bestå false-belief tasks. Det, som er unikt i vores løsning, er, at den er mere generel, end det som andre tidligere har lavet.
Robotten kan ikke kun tage andres perspektiv, men også deres perspektiv på atter andres perspektiv og så videre. Det betyder, at den også kan bestå såkaldte højere-ordens false-belief tasks, for eksempel tredje-ordens false-belief tasks, som mennesker ikke kan løse robust før omkring 20-års-alderen.
Hvor er bolden?
Et eksempel på en tredje-ordens false-belief task kunne være, at man skal holde styr på tre personers perspektiv på verden og hinanden, og så stiller testpersonen et spørgsmål som ‘hvor tror Thomas, at Mathias tror, at Lasse tror, bolden er?’.
Perspektivtagnings-modulet er også integreret med et modul for at lægge planer, så den ikke kun kan observere handlinger af de tre typer nævnt ovenfor, men også selv kan lægge planer, som involverer sådanne handlinger.
Det betyder, at den kan klare alle de eksempler, vi har nævnt ovenfor. Hvis robotten af uvisse årsager får lyst til en kop kaffe og gerne vil bede en person om at hente den, vil den igennem kombinationen af perspektivtagning og planlægning automatisk sørge for at fortælle personen, hvor kaffemaskinen er, hvis personen ikke kan forventes at vide det.
Og den vil sørge for kun at fortælle om, hvor nøglerne er til personer, som den ved har brug for denne viden, og som har fejlagtige overbevisninger om deres position. En teknisk beskrivelse af, hvordan disse ting virker, kan findes her.
Et skridt på vejen mod mere ‘selvtænkende’ robotter
Alt dette betyder ikke, at vi nu allerede har en generel husholdningsrobot som automatisk forstår alt og altid gør det rigtige. Det betyder heller ikke, at robotter nu er blevet klogere end mennesker.
\ Forskerzonen
Denne artikel er en del af Forskerzonen, som er stedet, hvor forskerne selv kommer direkte til orde.
Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
Forskerzonen er støttet af Lundbeckfonden.
Men det er et helt afgørende skridt på vej mod, at robotter i fremtiden bliver mere fleksible og ‘selvtænkende’ og bliver bedre til at indgå naturligt i samarbejde og kommunikation med os mennesker.
Samarbejde og kommunikation indbyrdes mellem mennesker fungerer kun gnidningsfrit, hvis vi har en veludviklet evne til social perspektivtagning. Så hvis vi gerne vil have gnidningsfri kommunikation og samarbejde mellem robotter og mennesker i fremtiden, skal robotterne også have denne evne.