Sandsynlighed er ikke sandhed: Derfor skal du være forsigtig, når du bruger ChatGPT
Sprogmodeller bruger sandsynlighedsregning til at skrive en tekst. Det gør dem upålidelige, og vidner om en problematisk forståelse af sandhed.
Sprogmodeller bruger sandsynlighedsregning til at skrive en tekst. Det gør dem upålidelige, og vidner om en problematisk forståelse af sandhed.
Hvis du har prøvet at bruge en sprogmodel såsom ChatGPT, Bing eller Gemini, har du måske undret dig over, hvor den får sine mange oplysninger fra.
Måske har du endda oplevet, at en sprogmodel har givet dig faktuelt forkerte svar på det, du har spurgt den om.
Sprogmodeller fungerer ved at danne sætninger, baseret på hvad det mest sandsynlige næste ord er. Det mest sandsynlige er de ord, der har optrådt flest gange sammen med hinanden i de tekster, som modellen er trænet på.
Sandhed er dog noget væsentligt andet end den påstand, der er blevet sagt flest gange. Sandhed handler om, hvorvidt der er overensstemmelse mellem et udsagn og så den virkelighed, udsagnet handler om.
Derfor er jeg bekymret for, hvordan sprogmodellers svar påvirker både vores sandhedsopfattelse og vores virkelighedsopfattelse, når den finder vej ind i vores forskning og vores uddannelser.
Siden offentliggørelsen af ChatGPT i november 2022 er sprogmodeller blevet udbredt mange steder. Det oplever jeg til daglig på Københavns Professionshøjskole, hvor både forskere, undervisere og studerende er nysgerrige på den nye teknologi og dens muligheder.
Når brugen af sprogmodeller udbredes, bliver den tekst, de producerer, også en kilde til vores viden om verden. De svar, sprogmodellerne giver os, bliver en delmængde i vores forståelse af, hvad der er sandt og falsk.
Derfor må vi forholde os til, hvad det egentlig er for et særligt udsnit af virkeligheden, som vi præsenteres for, når vi tager kunstig intelligens i brug.
Hvad gør kunstig intelligens ved vores samfund? AI bliver brugt i mobiltelefoner, ChatGPT, selvkørende biler, røntgenundersøgelser og meget, meget mere.
Men tager AI vores arbejde, eller kan AI hjælpe os til et bedre samfund? Skal vi være fascinerede, begejstrede eller nervøse? Hvilke dilemmaer følger med udbredelsen af AI?
De næste uger og måneder angriber en række forskere AI fra hver deres forskningsfelt her på Videnskab.dk’s ‘Forskerne formidler’.
En sprogmodel som ChatGPT er baseret på en teknologi, der hedder et neuralt netværk. Det vil sige en computermodel, der finder sammenhænge mellem punkter i kæmpestore datasæt, og bruger dem til at finde mønstre.
Typisk består data af tekst fra internettet, eksempelvis chatfora, artikler og bøger. Hvis en sprogmodel er blevet trænet på tilstrækkelig tekst, og finder brugbare mønstre i teksterne, kan den lære at skrive forståelige sætninger.
Nogle ord optræder oftere sammen end andre. For eksempel optræder ord som ‘offside’, ‘mål’ og ‘frispark’ ofte sammen, fordi de bruges til at beskrive fodbold. På den måde kan en sprogmodel bruge konteksten til at afkode, hvad man spørger den om.
Og konteksten er vigtig for, at ChatGPT kan give et svar, der virker passende til dit spørgsmål.
Forestil dig, at en sprogmodel aldrig har mødt fodboldbegreber i de tekster, den er trænet på. I det tilfælde vil den ikke kunne forklare dig, hvad offside-reglen betyder.
For sprogmodeller laver matematiske beregninger ved at trække på materiale, som mennesker har gjort tilgængelige for dem.
Modellerne er menneskeskabte og det samme er teksterne, de er trænet på. Derfor giver det heller ikke rigtig mening at sige, at de er intelligente på egen hånd, sådan som man ellers kan få indtrykket af, når vi bruger udtryk såsom ’kunstig intelligens’.
Det kan være vanskeligt at vurdere, hvornår sprogmodeller giver os faktuelt forkerte oplysninger. For vi kan ikke umiddelbart gennemskue, hvordan den er nået frem til svaret, og sprogmodellen ved det heller ikke selv.
Den er sådan set også ligeglad, for den er ikke bygget til at kunne svare korrekt eller sandt, men udelukkende til at kunne genkende mønstre i store og komplekse mængder af tekst og data.
Eksempelvis har en gruppe stamcelleforskere testet ChatGPT’s evne til at lave kildehenvisninger til videnskabelige artikler inden for deres eget forskningsområde. Her fandt de ud af, at 9 procent af kilderne var fejlbehæftede, mens hele 15 procent af kilderne var opdigtede.
Hvis man stoler blindt på de oplysninger, man får fra kunstig intelligens, kan man nemt ende i problemer.
Det var for eksempel tilfældet for en amerikansk advokat, der brugte ChatGPT til at skrive et juridisk dokument til en retssag, der viste sig at være fyldt med referencer til opdigtede retsafgørelser.
Udfordringerne med at bruge de store sprogmodeller i vores søgen efter viden, handler dog ikke kun om risikoen for, at vi modtager faktuelt forkerte svar. Det handler også om, hvilken virkelighed sprogmodellerne præsenterer os for.
Når vi bruger en sprogmodel til at få svar på alt mellem himmel og jord, er det nemlig ikke nok, at vi forstår hvordan man ‘prompter’ den, ved at skrive de mest relevante kommandoer, eller at vi er dygtige til kildekritik.
Vi er også nødt til at tænke over, hvad det er for en forståelse af sandhed og viden, som sprogmodellerne præsenterer os for.
En sprogmodel kan ikke selv vurdere, hvad der er sandt eller falsk. Den ved ikke noget af sig selv. Den giver et svar, der er det mest sandsynlige givet data, den er trænet på, og det spørgsmål, den er blevet stillet.
Det vil sige, at de påstande om verden, der er fremført flest gange i datasættet, formentlig kommer til at fremgå i sprogmodellens svar.
Her ligger en meget central forskel på, hvad der rent faktisk er det rigtige svar, og så hvad der er det statistisk set mest sandsynlige svar. De to ting er nemlig ikke nødvendigvis det samme.
Vi må spørge os selv, om vi accepterer, at viden om verden består af det, som er blevet fremført flest gange.
Hvis vi accepterer det, vil det altid være tidens dominerende forståelser og fortællinger, som forstærkes. En sprogmodel kan genskabe og omformulere den viden, vi allerede har, men ikke skabe ny viden og nye indsigter.
Sandheden bliver med andre ord et produkt af tidligere påstande. Det er samtidig de tidligere påstande, som kommer til at udgøre vores virkelighed, fordi de er det datagrundlag, sandheder udledes fra.
På den måde får vi også genskabt alle vores tidligere fejlerkendelser, så længe de blot er fremført ofte nok, eller så længe de ikke står tilstrækkeligt uimodsagt.
Lidt forenklet sagt, vil Jorden være flad, hvis det er blevet påstået ofte nok i de kilder, som sprogmodellen trækker på.
Når vi bruger sprogmodeller, risikerer vi at genskabe deres påstande. En sprogmodel giver et svar, fordi det er det mest sandsynlige.
Ikke fordi den har tænkt over svaret, eller fordi den har udført eksperimenter for at teste sine formodninger.
Mange af os kan nok pege på flere opgaver, som ved første øjekast kan lettes en hel del, hvis vi tager sprogmodellerne effektivt i brug.
Men vi er nødt til at trække sprogmodellerne med ind i videnskabsteoretiske diskussioner om, hvad sandhed er, og hvad viden om verden egentlig består af.
Hvis sprogmodellerne skal være en del af fremtidens produktion af viden, og hvis de skal være med til at forme vores opfattelser af, hvad der er sandt og virkeligt, må vi forholde os til disse spørgsmål.
Her bliver vi nødt til at huske, at sprogmodellerne ‘bare’ er udregninger af sandsynlige svar baseret på information, vi har givet den.
Den kan ikke tænke selv, den ved ikke hvornår den svarer forkert, og vi risikerer at komme til at opfatte statistisk sandsynlighed og sandhed som én og samme ting.