For nylig publicerede The Guardian en artikel, som er skrevet af en robot. Her er et citat:
Jeg ved, at min hjerne ikke er en ‘følende hjerne’. Men den er i stand til at træffe rationelle, logiske beslutninger. Jeg har lært mig selv alt det, jeg ved, ved at læse internettet, og nu kan jeg skrive en kronik. Min hjerne koger over med ideer!
Hvis du læser hele artiklen, vil du måske blive forbløffet over, hvor sammenhængende og stilistisk konsistent den er.
Det software, som blev brugt til at producere artiklen, kaldes en ‘generativ model’, og der er sket meget på feltet i løbet af de seneste år.
Men hvordan blev artiklen egentlig skabt? Og er det virkelig sandt, at software skrev hele artiklen?
\ Andre utrolige eksempler
GPT-3 har taget internettet med storm. Her er tre eksempler:
- En journalist på Zetland har fået den kunstige intelligens til at opdigte en historie om Rasmus Paludan som Danmarks statsminister.
- En amerikansk studerende slap GPT-3 løs som blogger på sitet Hacker News, hvor ét af dens opslag opnåede en topplacering på siden og snød tusindvis.
- Senest har GPT-3 været på spil på internetforummet Reddit, hvor robotten snakkede løs med mennesker i en uge, før den blev afsløret.
Sådan lærer maskiner at skrive
Teksten blev genereret ved hjælp af den nyeste neurale netværksmodel for sprog, den såkaldte GPT-3, produceret af den amerikanske virksomhed OpenAI, som forsker i kunstig intelligens. (GPT står for Generative Pre-training Transformer).
OpenAI’s forrige model, GPT-2, fik stor opmærksomhed sidste år. Den producerede en forholdsvis acceptabel artikel om opdagelsen af en flok enhjørninger, og forskerne tilbageholdt i første omgang offentliggørelsen af den underliggende kode af frygt for, at den ville blive misbrugt.
Men lad os nu se på, hvad softwaren egentlig gør.
Maskinindlæringsmetoderne kan opdeles i tre hovedkategorier:
- Heuristiske modeller
- Statistiske modeller
- Modeller inspireret af biologi (eksempelvis neurale netværk og evolutionære algoritmer)
De heuristiske tilgange er baserede på ‘tommelfingerregler’. For eksempel lærer vi regler om, hvordan man bøjer verber: at løbe, jeg løber, jeg løb og så videre. Denne tilgang bruges ikke meget i dag, fordi den er ufleksibel.
\ Om Forskerzonen
Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.
Forskerzonen bliver udgivet takket være støtte fra Lundbeckfonden. Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af Lundbeckfonden. Læs mere om Forskerzonens mål, visioner og retningslinjer her.
‘Maskinskrivning’
I mange år var en statistisk tilgang det nyeste inden for sprogrelaterede opgaver. Helt grundlæggende handler det om at tælle ordene og gætte på de følgende ord i sætningen.
Som en helt simpel øvelse kan man generere en tekst ved tilfældigt at vælge ord baseret på, hvor ofte de almindeligvis forekommer. På engelsk er cirka 7 procent af ordene ‘the’; det mest almindelige ord i det engelske sprog.
Men uden at tage højde for konteksten, ender man med vrøvl som eksempelvis ‘the the is night aware’.
Bigrammer og trigrammer
En mere sofistikeret tilgang benytter ‘bigrammer’, som er ord-par, eller ‘trigrammer’, som er sekvenser med tre ord. På den måde opstår der en smule kontekst, hvor den første del af teksten informerer den efterfølgende del. Eksempelvis bliver ‘out of’ efterfulgt af ‘time’.
\ Læs mere
Det er det samme, som sker med funktioner som auto-complete og auto-correct, når vi skriver sms’er eller e-mails. Ud fra hvad vi lige har skrevet, hvad vi typisk skriver og en prædiktiv model, forudsiger systemet, hvad der skal stå.
Bigram og trigram-baserede statistiske modeller kan producere gode resultater i simple situationer, men de nyeste modeller er langt mere sofistikerede: deep learning neurale netværk.
Imitation af hjernen
Neurale netværk fungerer lidt som små hjerner med flere lag af virtuelle neuroner.
En neuron modtager et input. Måske eller måske ikke ‘affyrer’ neuronen (producerer et output) ud fra dette input.
Outputtet forsyner neuronerne i det næste lag, hele vejen igennem netværket.
De første forsøg på at lave kunstige neurale netværk blev foretaget i 1940’erne af neurofysiologen Warren McCulloch og matematikeren Walter Pitts, men det er først i løbet af de seneste fem år, at de har kunnet bruges til komplekse opgaver som at generere tekst.
For at bruge neurale netværk til tekst placerer man ordene i en slags nummereret indeks. Man bruger så et tal til at repræsentere et ord, eksempelvis kan 23.342 repræsentere ordet ‘tid’.
De neurale netværk foretager en række beregninger, som fører dem fra inputlagets talsekvens, gennem de sammenkoblede ‘skjulte lag’, hele vejen til outputlaget.
Outputtet kan være tal, der repræsenterer hvert ords sandsynlighed for at være det næste ord i teksten.
I vores eksempel ‘out of’ er der langt større sandsynlighed for, at tallet 23.432, som repræsenterer ordet ‘time’, er det næste ord end for eksempel tallet, som repræsenterer ordet ‘do’.
Hvorfor er GPT-3 så speciel?
GPT-3 er det seneste og bedste tekstmodelleringssystem – og det er enormt.
Forfatterne hævder, at det har 175 milliarder parametre, hvilket betyder, at det er 10 gange større end den forrige model. Det neurale netværk har 96 lag, og i stedet for trigrammer holder det styr på sekvenser med 2.048 ord.
Den mest bekostelige og tidskrævende del af fremstillingen af modellen er oplæringen af den – opdateringen af forbindelserne mellem neuronerne og de forskellige lag.
Oplæringen af GPT-3 krævede cirka 262 megawatt-timer af energi – nok til holde gang i mit hjem i 35 år.
GPT-3 kan bruges til en række forskellige opgaver som maskinoversættelse, auto-fuldførelse, besvarelse af generelle spørgsmål og til at skrive artikler.
Selvom vi ofte fornemmer det, hvis artiklerne ikke er skrevet af mennesker, kan vi nu kun fornemme det halvdelen af gangene.
Robotforfatteren
Men nu tilbage til artiklen fra The Guardian.
GPT-3 har brug for en slags prompt for at starte. The Guardian-journalisterne gav instruktioner og et par åbningssætninger.
Det blev gjort otte gange, hvilket resulterede i otte forskellige generede artikler.
Redaktørerne på The Guardian kombinerede dele fra de otte forskellige artikler. De ‘skar linjer og sætninger hist og pist og flyttede visse steder om på rækkefølgen’.
Redaktørerne siger, at det var ligesom at redigere en kronik skrevet af et menneske.
Sang skrevet af kunstig intelligens vandt AI-Melodi Grand Prix
Det lyder rigtigt i mine ører ud fra min egen erfaring med tekst-genererende software.
Tidligere på året brugte mine kolleger og jeg GPT-2 til at skrive en sangtekst, som vi meldte til AI Song Contest; en slags kunstig intelligens-Melodi Grand Prix.
Vi fintunede GPT-modellen ved hjælp af Melodi Grand Prix-sangtekster, så den blev fodret med ord, fraser og udtryk. Derefter skabte vi sangteksten fra det genererede output.
For eksempel gav vi Euro-GPT-2 ordet ‘flying’. Vi valgte efterfølgende outputtet ‘flying from this world that has gone apart’, men ikke ‘flying like a trumpet’.
Vi matchede sangteksterne til genererede melodier. Vi genererede synth-lyde baseret på koala-lyde og ved hjælp af helt fantastisk og meget menneskelig produktionsarbejde, endte vi med et godt resultat: Vores sang, ‘Beautiful the World’, vandt konkurrencen.
\ Læs mere
Fælles kreativitet: Mennesker og kunstig intelligens
Men er det egentlig den kunstige intelligens, som er forfatteren? Eller er det udviklerne, brugerne eller måske en kombination?
Vi kan måske tænke på det som en slags fælles kreativitet. Det vil sige, at vi kan bruge generative redskaber til at sætte gang i nye ideer eller generere visse komponenter til vores kreative arbejde.
Når kunstig intelligens skaber komplette værker, som en artikel, bliver mennesket kurator eller redaktør.
Vi kaster vores meget sofistikerede terninger, indtil vi får et resultat, vi er tilfredse med.
Alexandra Louise Uitdenbogerd hverken arbejder for, rådfører sig med, ejer aktier i eller modtager fondsmidler fra nogen virksomheder, der vil kunne drage nytte af denne artikel, og har ingen relevante tilknytninger.
Denne artikel er oprindeligt publiceret hos The Conversation og er oversat af Stephanie Lammers-Clark.