En spøjs trend breder sig på internettet.
Absurde, men sært realistiske billeder af ting, der aldrig har fandtes og ikke hører sammen, breder sig på sociale medier som Twitter.
Billeder som disse:

Darth Vader har selvfølgelig aldrig stået på en mark omgivet af køer. Men takket være en kunstig intelligens (AI), der kan skabe billeder ud fra tekstbeskrivelser, kan vi nu alle se, hvordan mørkets fyrste ville gøre sig som landmand.
Og internettet er gået amok med konceptet.
Den mest populære af disse billedskabende AI’s er den gratis ‘Craiyon’, der bliver udviklet af en gruppe forskere, og som du selv kan prøve her.
Men Craiyon har åbenlyse begrænsninger: Selvom tingene i billedet ved første øjekast ligner bekendte former, bliver det hurtigt abstrakt, når man kigger nærmere.

Forklaringen findes til dels i, at Craiyon er en ‘light-udgave’, som er inspireret af noget større og mere sofistikeret.
Craiyon er et forsøg på at efterligne en anden billedskabende AI, der går under navnet DALL·E (en sammentrækning af kunstneren Dali og Pixars bedårende robot WALL-E).
DALL·E, nu på version 2, er et milliardprojekt, som varetages af forskningsinitiativet OpenAI, der blandt andet har Elon Musk og Microsoft i ryggen.
På projektets hjemmeside kan man læse, at »DALL·E 2 kan skabe originale, realistiske billeder og kunst ud fra en tekstbeskrivelse. Den kan kombinere koncepter, egenskaber og stilarter.«

Men DALL·E 2 og Craiyon er langt fra alene. Google har lanceret deres egen varianter, Imagen, Deep Mind og Parti.
Derudover har det uafhængige forskningslaboratorie Midjourney også en AI under udvikling, som blev brugt til at lave det øverste billede i denne artikel (og til at illustrere en anden artikel). Du kan se en mere komplet oversigt i faktaboksen.
Det er et ræs med mange spillere og meget på spil.
\ Læs mere
Et felt i rivende udvikling
Og der er fart over feltet, fortæller professor Ole Winther, da Videnskab.dk ringer for at få et forskningsmæssigt perspektiv på teknologien.
\ Begynder med støj
Ligesom en maler af kød og blod begynder de billedskabende AI’s med et tomt lærred.
Men frem for en hvid baggrund er lærredet tilfældig pixelstøj, ikke ulig sne på en fjernsynsskærm, som modellen derefter kan forme efter behov, fortæller Ole Winther.
Hvilken form billedet tager, afhænger af modellens evne til at forstå de tekst-inputs, man giver den, den underliggende algoritme, som dikterer, hvordan den tilegner sig viden, og dens træning, hvilket du kan læse mere om i nedenstående faktaboks.
Kilde: Ole Winther
Han arbejder ikke selv med billedskabende AI, men forsker i maskinlæring på Danmarks Tekniske Universitet (DTU) og følger udviklingen tæt og med fascination.
Han fortæller, at »det med at lave billeder ud fra en tekststreng,« er noget, man har forsøgt på, siden deep learning slog igennem i 2012, men at det først er i de seneste år, at der rigtig er kommet fart på.
Nu går det så stærkt, at han ikke kan se en ende på mulighederne for, hvad AI’s som disse vil kunne fremstille.
»Jeg tror sagtens, at man kan lave en AI, hvor man for eksempel giver den et manuskript til en film, og så skaber den billedsiden,« siger Ole Winther, professor ved Institut for Matematik og Computer Science på DTU samt i bioinformatik ved Københavns Universitet.
»Det er det, som er sindssygt ved at være maskinlæring-forsker. Hvor hurtigt de her ting rykker.«
»Jeg tror ikke, der er nogen begrænsninger, er det meget korte svar,« griner professoren, da han bliver spurgt ind til teknologiens potentiale.

Han uddyber, at hvis man bliver ved med at give disse AI’s mere regnekraft, vil de teoretisk set kunne lære at forstå mere og mere komplekse sammenhænge.
»Men hvor lang tid det varer, før vi har noget, der er ‘superhuman’ (overmenneskeligt, red.), det ved jeg ikke.«
Hvis vi ser på menneskeansigter som en markør for, hvor langt en AI er nået, er disse ansigter, som DALL·E 2 har skabt, meget sigende. Borte er Craiyon’s monstrøse kødfarvede pixelmasse, erstattet af noget, der næsten ikke er til at skelne fra den ægte vare:
\ Trænet på millioner af billeder
Når man træner en algoritme, fodrer man den en masse relevant data om det, man gerne vil lære den. Med en billedskabende AI, kunne det være millioner af billeder med tekstbeskrivelser, så den kan forbinde ordene med noget visuelt.
AI’en forsøger så at danne nogle mønstre ud fra de store mængder data, den får ind, og justerer sin egen adfærd herefter, så den kan ‘efterabe’ de mønstre bedre og bedre.
Kilde: Ole Winther, Lotte Philipsen
Skal kunne forstå hvad som helst
Teknologiens største stopklods lige nu er, udover mængden af tilgængelig regnekraft, hvor godt AI’en forstår det, den bliver fortalt.
»Den primære udfordring er at skalere sprogmodellen, så man sikrer sig, at den har forstået tingene,« fortæller Ole Winther.
»Det er universelle sprogmodeller, som helst skal forstå hvad som helst. De er trænet på en masse data, men hvis ikke de datasæt er store nok, får de visse udfordringer.«
Professoren uddyber, at der er dem, som tvivler på, at de kunstige intelligens overhovedet kan ‘forstå’, men at det nok hører til i en mere filosofisk boldgade.

Han eksemplificerer dog med en prominent kritiker af de store modeller, den amerikanske psykologiprofessor Gary Marcus, som ikke er solgt på de billedskabende AI’s evne til faktisk at forstå de ting, de bliver fortalt.
»Hvis han fortalte en af de her modeller, at han gerne ville have et billedet af en hest, som sad på en astronaut, så genererede modellen det omvendte: En astronaut, som sad på ryggen af en hest.«
»Og dét, sagde han, viser jo egentlig bare, at modellen ikke forstår noget overhovedet,« forklarer Ole Winther, som dog påpeger, at senere modeller faktisk har formået at bestå den ‘test’, og supplerer billedligt bevismateriale:

Kan ændre vores forhold til billeder
Kunsthistoriker Lotte Philipsen er enig i, at det nok er en teknologi, som nok komme til at have et stort indtryk på verden.
»På godt og ondt,« vurderer hun. Lotte Philipsen er lektor på Institut for Kommunikation og Kultur – Kunsthistorie ved Aarhus Universitet og forsker netop i, hvilken effekt denne teknologi kan have på os.
»Det, som interesserer mig, er, hvad det betyder, for vores måde at forstå og bruge billeder på.«
Der går noget tabt, når vi reducerer billedskabelse til noget, som kan klares med tekstinput, mener Lotte Philipsen, som også leder det nyligt etablerede Centre for Aesthetics of AI Images.
\ Læs mere
Sproget kan simpelthen ikke indfange billedernes kompleksitet, og vi reducerer, hvad billedskabelse er, når vi tvinger sprogets regler ned over det.
»Vores måde at skabe billeder på er så uendelig meget mere kompleks end bare tekstinput.«
»Billeder er både motiver, det er stilarter, en hel masse forskellige kompositoriske og kulturelt betydningsmæssige meninger, som vi hver især ligger i,« fortæller Lotte Philipsen og bemærker ironien i, at selv det at tale om billeder reducerer deres kompleksitet.
»Der er jo meget andet i billeder, end lige præcis hvad de skal forestille rent mimetisk.«
Mennesker smitter af
Lotte Philipsen sætter ikke pris på den blinde entusiasme for, hvad teknologien kan, uden at tænke så meget på, hvad der reelt indgår i teknologien.
Fordi modellerne er trænet på billeder med tekstbeskrivelser, eller labels, som hjælper AI’en med at forstå, hvad den ser, er den menneskelige subjektivitet med fra starten.
»De labels er ikke neutrale—på nogen måde. Det er noget, mennesker giver den. Allerede der opstår den første meget kraftige tolkning af billederne, som kommer til at påvirke alt, hvad du bruger dem til bagefter.«
Vi menneskers holdningsmæssige bagage smitter altså af på modellerne og i sidste ende på de billeder, modellerne genererer. Og det skal der langt mere fokus på, mener lektoren. »Det kan jeg simpelthen ikke understrege nok.«
»Det mest berømte eksempel på den slags er måske, da Twitter ikke kunne genkende sorte mennesker,« fortæller Lotte Philipsen og henviser til, at det sociale medie lavede et værktøj til automatisk at beskære billeder, som prioriterede hvides ansigter over sortes.
»Det kommer direkte ud af, at den (AI’en, red.) ikke var trænet på sorte mennesker.«
Denne journalist kan da også skrive under på to gange at have oplevet billeder, som var præget af racistiske karikaturer, med AI’en Midjourney.
Derudover kan man sagtens forestille sig, at sådan teknologi, når den er blevet en anelse mere avanceret og lettilgængelig, kan bruges til at sprede fake news og på anden måde vildlede folk.
Fremtiden
Lotte Philipsen ser dog en fremtid, hvor teknologien kunne få en plads i samfundet, hvis vi var mere opmærksom på, hvordan vi brugte den.
»Det kan jo mange ting. Rigtig mange ting. For eksempel diagnostisk, hvor man får en AI til at kigge på billeder af noget hududslæt og fortælle præcis, hvad det er for en sygdom. Det er jo ret nyttigt.«
Teknologien er nok i hvert fald – på godt og ondt som sagt – kommet for at blive. Som Lotte Philipsen kommer ind på, og som Ole Winther bekræfter, kan læringsmodellerne – de ansvarlige algoritmer – bruges til alt muligt, ikke kun billeder.
DALL·E bygger på den universelle sprogmodel GPT3, som OpenAI varetager, og som kan bruges til utroligt mange forskellige ting.
Selv er Ole Winther ved at lære OpenAI’s GPT3-model at kunne bestå den amerikanske lægeeksamen.
Han påpeger, at samme model lige nu trænes i at skrive nyhedsartikler, så de måske kan gøre journalisters arbejde en dag (gulp). Andre steder bruger man dem til forskning i eksempelvis lægemidler.
»Akkurat de samme modeller, vi bruger til at lave billeder med, bruger andre (forskere, red.) til at generere protein-strukturer.«
»Man kan træne dem på en stor database af proteinstrukturer, så vi bedre kan forstå, hvordan proteiner bevæger sig.« Det kan for eksempel føre til bedre medicin.
Og de billedskabende AI’s har allerede en tilstedeværelse blandt os. Hos netmediet Føljeton har man blandt andet eksperimenteret med at bruge Midjourney til at lave artikelillustrationer.
Noget, som får Ole Winther til at lufte et potentielt fremtidsscenarie:
»Hvis nu de om fem år skal lave budgetnedskæringer, og siger ‘Okay, vi kan bruge Google’s API, eller vi kan betale for en illustrator.’ Hvad vælger man?«
Det er altså meget stof til eftertanke med den teknologi, som vi har i hænde her.
Om det så er noget, teknologiens fakkelbærere vil tage i betragtning, i deres iver efter at rykke grænserne, må tiden vise.
\ Her kan du selv lege med den kunstige intelligens
En række forskellige kunstige intelligenser, som kan lave billeder, er under udvikling.
De fungerer ved, at du skriver en række ord, ligesom når du søger på Google. Derefter går den kunstige intelligens i gang med at skabe billeder, som, ifølge den, svarer til det, du har skrevet.
Du kan allerede nu lege med et par stykker:
- Craiyon, tidligere DALL·E Mini, er et åbent forskninsprojekt, som du kan eksperimentere med på livet løs, ved at klikke her.
- Midjourney er i såkaldt åben beta, hvilket vil sige, at alle kan prøve den. Du kan læse nærmere her.
Der er andre, som endnu ikke er åbne for alle:
- DALL·E 2 er i en lukket beta, og der er derfor kun begrænset adgang. Du kan skrive dig på ventelisten her.
- Imagen er et af Googles bud og bygger på deres velafprøvede algoritmer for sprog og billedsammensætning. Imagen er ikke åbent for brug, men du kan se eksempler her.
- Deep Mind er en anden af Googles sprogmodeller, som per 2022 også kan trænes på billeder. Er også lukket for brug.
- Parti er Google’s seneste bud på en konkurrent til DALL·E 2, og er den af Google’s tre modeller, som mest ligner OpenAI’s model.