Se de forbløffende ‘kunstværker’: Billedskabende kunstig intelligens er i rivende udvikling
Computermodeller bliver bedre og bedre til at skabe både ‘kunstmalerier’ og virkelighedstro billeder. Den kunstneriske intelligens får vidtrækkende konsekvenser, mener forskere.

Kan en computer skabe kunst? Det er der delte meninger om. Men den kan skabe noget, der ligner. Her ses en computers forsøg på at illustrere en robotmaler. (Illustration: Midjourney/Christian Lynge Lindberg)

Kan en computer skabe kunst? Det er der delte meninger om. Men den kan skabe noget, der ligner. Her ses en computers forsøg på at illustrere en robotmaler. (Illustration: Midjourney/Christian Lynge Lindberg)

En spøjs trend breder sig på internettet.

Absurde, men sært realistiske billeder af ting, der aldrig har fandtes og ikke hører sammen, breder sig på sociale medier som Twitter.

Billeder som disse: 

Darth Vader, den mørke fyrste fra Star Wars, i noget uvante omgivelser. (Billede: Craiyon/ Boris Dayma et al.)

Darth Vader har selvfølgelig aldrig stået på en mark omgivet af køer. Men takket være en kunstig intelligens (AI), der kan skabe billeder ud fra tekstbeskrivelser, kan vi nu alle se, hvordan mørkets fyrste ville gøre sig som landmand.

Og internettet er gået amok med konceptet.

Den mest populære af disse billedskabende AI’s er den gratis ‘Craiyon’, der bliver udviklet af en gruppe forskere, og som du selv kan prøve her.

Men Craiyon har åbenlyse begrænsninger: Selvom tingene i billedet ved første øjekast ligner bekendte former, bliver det hurtigt abstrakt, når man kigger nærmere.

Et forsøg på at afbilde en astronaut til hest. Modellen bryder hurtigt sammen, når den skal lave ansigter. (Billede: Craiyon/ Boris Dayma et al.)

Forklaringen findes til dels i, at Craiyon er en ‘light-udgave’, som er inspireret af noget større og mere sofistikeret.

Craiyon er et forsøg på at efterligne en anden billedskabende AI, der går under navnet DALL·E (en sammentrækning af kunstneren Dali og Pixars bedårende robot WALL-E).

DALL·E, nu på version 2, er et milliardprojekt, som varetages af forskningsinitiativet OpenAI, der blandt andet har Elon Musk og Microsoft i ryggen.

På projektets hjemmeside kan man læse, at »DALL·E 2 kan skabe originale, realistiske billeder og kunst ud fra en tekstbeskrivelse. Den kan kombinere koncepter, egenskaber og stilarter.«

Sådan kan det se ud, når man beder DALL·E 2 om at illustrere ‘en astronaut til hest i fotorealistisk stil’. (Illustration: DALL·E 2/OpenAI)

Men DALL·E 2 og Craiyon er langt fra alene. Google har lanceret deres egen varianter, Imagen, Deep Mind og Parti.

Derudover har det uafhængige forskningslaboratorie Midjourney også en AI under udvikling, som blev brugt til at lave det øverste billede i denne artikel (og til at illustrere en anden artikel). Du kan se en mere komplet oversigt i faktaboksen.

Det er et ræs med mange spillere og meget på spil.

Et felt i rivende udvikling

Og der er fart over feltet, fortæller professor Ole Winther, da Videnskab.dk ringer for at få et forskningsmæssigt perspektiv på teknologien.

Begynder med støj

Ligesom en maler af kød og blod begynder de billedskabende AI’s med et tomt lærred. 

Men frem for en hvid baggrund er lærredet tilfældig pixelstøj, ikke ulig sne på en fjernsynsskærm, som modellen derefter kan forme efter behov, fortæller Ole Winther.

Hvilken form billedet tager, afhænger af modellens evne til at forstå de tekst-inputs, man giver den, den underliggende algoritme, som dikterer, hvordan den tilegner sig viden, og dens træning, hvilket du kan læse mere om i nedenstående faktaboks.

Kilde: Ole Winther

Han arbejder ikke selv med billedskabende AI, men forsker i maskinlæring på Danmarks Tekniske Universitet (DTU) og følger udviklingen tæt og med fascination.

Han fortæller, at »det med at lave billeder ud fra en tekststreng,« er noget, man har forsøgt på, siden deep learning slog igennem i 2012, men at det først er i de seneste år, at der rigtig er kommet fart på.

Nu går det så stærkt, at han ikke kan se en ende på mulighederne for, hvad AI’s som disse vil kunne fremstille.

»Jeg tror sagtens, at man kan lave en AI, hvor man for eksempel giver den et manuskript til en film, og så skaber den billedsiden,« siger Ole Winther, professor ved Institut for Matematik og Computer Science på DTU samt i bioinformatik ved Københavns Universitet.

»Det er det, som er sindssygt ved at være maskinlæring-forsker. Hvor hurtigt de her ting rykker.«

»Jeg tror ikke, der er nogen begrænsninger, er det meget korte svar,« griner professoren, da han bliver spurgt ind til teknologiens potentiale.

Overgangen fra DALL·E til DALL·E 2. Tekstbeskrivelsen var ‘et maleri af en ræv som sidder i en mark ved solopgangen i Claude Monets stil’. (Billede: OpenAI)

Han uddyber, at hvis man bliver ved med at give disse AI’s mere regnekraft, vil de teoretisk set kunne lære at forstå mere og mere komplekse sammenhænge.

»Men hvor lang tid det varer, før vi har noget, der er ‘superhuman’ (overmenneskeligt, red.), det ved jeg ikke.«

Hvis vi ser på menneskeansigter som en markør for, hvor langt en AI er nået, er disse ansigter, som DALL·E 2 har skabt, meget sigende. Borte er Craiyon’s monstrøse kødfarvede pixelmasse, erstattet af noget, der næsten ikke er til at skelne fra den ægte vare:

Trænet på millioner af billeder

Når man træner en algoritme, fodrer man den en masse relevant data om det, man gerne vil lære den. Med en billedskabende AI, kunne det være millioner af billeder med tekstbeskrivelser, så den kan forbinde ordene med noget visuelt.

AI'en forsøger så at danne nogle mønstre ud fra de store mængder data, den får ind, og justerer sin egen adfærd herefter, så den kan ‘efterabe’ de mønstre bedre og bedre.

Kilde: Ole Winther, Lotte Philipsen

Skal kunne forstå hvad som helst

Teknologiens største stopklods lige nu er, udover mængden af tilgængelig regnekraft, hvor godt AI’en forstår det, den bliver fortalt.

»Den primære udfordring er at skalere sprogmodellen, så man sikrer sig, at den har forstået tingene,« fortæller Ole Winther.

»Det er universelle sprogmodeller, som helst skal forstå hvad som helst. De er trænet på en masse data, men hvis ikke de datasæt er store nok, får de visse udfordringer.«

Professoren uddyber, at der er dem, som tvivler på, at de kunstige intelligens overhovedet kan 'forstå', men at det nok hører til i en mere filosofisk boldgade.

Kan vi friste med en McSpaghetti? Sådan ser DALL·E 2’s bud på et ret vammelt burgerkoncept ud. Bemærk volapykskriften. (Billede: OpenAI)

Han eksemplificerer dog med en prominent kritiker af de store modeller, den amerikanske psykologiprofessor Gary Marcus, som ikke er solgt på de billedskabende AI’s evne til faktisk at forstå de ting, de bliver fortalt.

»Hvis han fortalte en af de her modeller, at han gerne ville have et billedet af en hest, som sad på en astronaut, så genererede modellen det omvendte: En astronaut, som sad på ryggen af en hest.«

»Og dét, sagde han, viser jo egentlig bare, at modellen ikke forstår noget overhovedet,« forklarer Ole Winther, som dog påpeger, at senere modeller faktisk har formået at bestå den ‘test’, og supplerer billedligt bevismateriale:

En hest, der ridder på en astronaut, takket være DALL·E 2. (Foto: OpenAI)

Kan ændre vores forhold til billeder

Kunsthistoriker Lotte Philipsen er enig i, at det nok er en teknologi, som nok komme til at have et stort indtryk på verden.

»På godt og ondt,« vurderer hun. Lotte Philipsen er lektor på Institut for Kommunikation og Kultur - Kunsthistorie ved Aarhus Universitet og forsker netop i, hvilken effekt denne teknologi kan have på os.

»Det, som interesserer mig, er, hvad det betyder, for vores måde at forstå og bruge billeder på.«

Der går noget tabt, når vi reducerer billedskabelse til noget, som kan klares med tekstinput, mener Lotte Philipsen, som også leder det nyligt etablerede Centre for Aesthetics of AI Images.

Sproget kan simpelthen ikke indfange billedernes kompleksitet, og vi reducerer, hvad billedskabelse er, når vi tvinger sprogets regler ned over det.

»Vores måde at skabe billeder på er så uendelig meget mere kompleks end bare tekstinput.«

»Billeder er både motiver, det er stilarter, en hel masse forskellige kompositoriske og kulturelt betydningsmæssige meninger, som vi hver især ligger i,« fortæller Lotte Philipsen og bemærker ironien i, at selv det at tale om billeder reducerer deres kompleksitet.

»Der er jo meget andet i billeder, end lige præcis hvad de skal forestille rent mimetisk.«

Mennesker smitter af

Lotte Philipsen sætter ikke pris på den blinde entusiasme for, hvad teknologien kan, uden at tænke så meget på, hvad der reelt indgår i teknologien.

Fordi modellerne er trænet på billeder med tekstbeskrivelser, eller labels, som hjælper AI’en med at forstå, hvad den ser, er den menneskelige subjektivitet med fra starten.

»De labels er ikke neutrale—på nogen måde. Det er noget, mennesker giver den. Allerede der opstår den første meget kraftige tolkning af billederne, som kommer til at påvirke alt, hvad du bruger dem til bagefter.«

Vi menneskers holdningsmæssige bagage smitter altså af på modellerne og i sidste ende på de billeder, modellerne genererer. Og det skal der langt mere fokus på, mener lektoren. »Det kan jeg simpelthen ikke understrege nok.«

»Det mest berømte eksempel på den slags er måske, da Twitter ikke kunne genkende sorte mennesker,« fortæller Lotte Philipsen og henviser til, at det sociale medie lavede et værktøj til automatisk at beskære billeder, som prioriterede hvides ansigter over sortes.

»Det kommer direkte ud af, at den (AI’en, red.) ikke var trænet på sorte mennesker.«

Denne journalist kan da også skrive under på to gange at have oplevet billeder, som var præget af racistiske karikaturer, med AI’en Midjourney.

Derudover kan man sagtens forestille sig, at sådan teknologi, når den er blevet en anelse mere avanceret og lettilgængelig, kan bruges til at sprede fake news og på anden måde vildlede folk.

Fremtiden

Lotte Philipsen ser dog en fremtid, hvor teknologien kunne få en plads i samfundet, hvis vi var mere opmærksom på, hvordan vi brugte den.

»Det kan jo mange ting. Rigtig mange ting. For eksempel diagnostisk, hvor man får en AI til at kigge på billeder af noget hududslæt og fortælle præcis, hvad det er for en sygdom. Det er jo ret nyttigt.«

Teknologien er nok i hvert fald - på godt og ondt som sagt - kommet for at blive. Som Lotte Philipsen kommer ind på, og som Ole Winther bekræfter, kan læringsmodellerne - de ansvarlige algoritmer - bruges til alt muligt, ikke kun billeder.

DALL·E bygger på den universelle sprogmodel GPT3, som OpenAI varetager, og som kan bruges til utroligt mange forskellige ting.

Selv er Ole Winther ved at lære OpenAI’s GPT3-model at kunne bestå den amerikanske lægeeksamen.

Han påpeger, at samme model lige nu trænes i at skrive nyhedsartikler, så de måske kan gøre journalisters arbejde en dag (gulp). Andre steder bruger man dem til forskning i eksempelvis lægemidler.

»Akkurat de samme modeller, vi bruger til at lave billeder med, bruger andre (forskere, red.) til at generere protein-strukturer.«

»Man kan træne dem på en stor database af proteinstrukturer, så vi bedre kan forstå, hvordan proteiner bevæger sig.« Det kan for eksempel føre til bedre medicin.

Og de billedskabende AI’s har allerede en tilstedeværelse blandt os. Hos netmediet Føljeton har man blandt andet eksperimenteret med at bruge Midjourney til at lave artikelillustrationer. 

Noget, som får Ole Winther til at lufte et potentielt fremtidsscenarie:

»Hvis nu de om fem år skal lave budgetnedskæringer, og siger ‘Okay, vi kan bruge Google’s API, eller vi kan betale for en illustrator.’ Hvad vælger man?«

Det er altså meget stof til eftertanke med den teknologi, som vi har i hænde her. 

Om det så er noget, teknologiens fakkelbærere vil tage i betragtning, i deres iver efter at rykke grænserne, må tiden vise.

Her kan du selv lege med den kunstige intelligens

En række forskellige kunstige intelligenser, som kan lave billeder, er under udvikling.

De fungerer ved, at du skriver en række ord, ligesom når du søger på Google. Derefter går den kunstige intelligens i gang med at skabe billeder, som, ifølge den, svarer til det, du har skrevet.

Du kan allerede nu lege med et par stykker:

  • Craiyon, tidligere DALL·E Mini, er et åbent forskninsprojekt, som du kan eksperimentere med på livet løs, ved at klikke her.
  • Midjourney er i såkaldt åben beta, hvilket vil sige, at alle kan prøve den. Du kan læse nærmere her.

Der er andre, som endnu ikke er åbne for alle:

Ny video fra Tjek

Tjek er en YouTube-kanal om videnskab henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's videojournalister med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.

Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs om de utrolige billeder af Jupiter her.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.

Hej! Vi vil gerne fortælle dig lidt om os selv

Nu hvor du er nået helt herned på vores hjemmeside, er det vist på tide, at vi introducerer os.

Vi hedder Videnskab.dk, kom til verden i 2008 og er siden vokset til at blive Danmarks største videnskabsmedie med over en halv million brugere om måneden.

Vores uafhængige redaktion leverer dagligt gratis forskningsnyheder og andet prisvindende indhold, der med solidt afsæt i videnskabens verden forsøger at give dig aha-oplevelser og væbne dig mod misinformation.

Vores journalister fortæller historier om både kultur, astronomi, sundhed, klima, filosofi og al anden god videnskab indimellem - i form af artikler, podcasts, YouTube-videoer og indhold på sociale medier.

Vi stiller meget høje krav til, hvordan vi finder og laver vores historier. Vi har lavet et manifest med gode råd til at finde troværdig information, og vi modtog i 2021 en fornem pris for vores guide til god, kritisk videnskabsjournalistik.

Vores redaktion gør en dyd ud af at få uafhængige forskere til at bedømme betydningen af nye studier, og alle interviewede forskere citat- og faktatjekker vores artikler før publicering.

Hvis du går rundt og undrer dig over stort eller småt, vil vi elske at høre fra dig og forsøge at give dig svar med forskernes hjælp. Send bare dit spørgsmål til vores brevkasse Spørg Videnskaben.

Vi håber, at du vil følge med i forskningens forunderlige opdagelser her på Videnskab.dk.

Få et af vores gratis nyhedsbreve sendt til din indbakke. Du kan også følge os på sociale medier: Facebook, Twitter, Instagram, YouTube eller LinkedIn.

Med venlig hilsen

Videnskab.dk