»Da jeg startede min ph.d. for fem år siden, kunne vi knap nok skabe sammenhængende sætninger med sprogmodeller,« fortæller Valentin Liévin til Videnskab.dk.
Nu er Valentin Liévin, der netop har forsvaret sin ph.d. i maskinlæring, lykkedes med at få en sprogteknologi drevet af kunstig intelligens til at bestå tre medicinske prøver.
Herunder den amerikanske embedslægeeksamen – den såkaldte ‘United States Medical Licensing Examination (USMLE)’, som amerikanske læger skal bestå for at få en licens til at arbejde som læger.
»Jeg er overrasket. Jeg havde ikke regnet med, at den ville klare sig så godt,« fortæller han.
\ Bestået tre andre medicinske prøver
USMLE er ikke den eneste prøve, som DTU-forskerne har testet sprogteknologien GPT-3.5. på. Også i tre andre medicinske prøver har teknologien klaret skærene:
To adgangseksamener til at læse medicin i Indien (MedMCQA) bestod sprogmodellen også med 60 procent korrekte svar. Et godt stykke over de 50 procent, der skal til for at bestå. Men stadig et stykke op til de 90 procent, som de bedste elever klarer den med.
I en anden mere kvalitativ prøve, der tester, om man forstår indholdet i videnskabelige abstracts fra den medicinske database PubMed, svarede sprogmodellen korrekt på 78,2 procent af spørgsmålene.
Navnet på den computerdrevne lægeaspirant er GPT-3.5.
Det er den selvsamme teknologi, der står bag den hypede chatbot ChatGPT, der siden december 2022 har vakt vild opsigt, fordi den kan løse en universitetseksamen og besvare alverdens spørgsmål med et overbevisende sprog.
Præstationen er netop blevet delt i et såkaldt preprint. Det vil sige som en videnskabelig artikel, der endnu ikke har været gennem fagfællebedømmelse i et videnskabeligt tidsskrift og derfor bør læses med det forbehold.
»En stor bedrift«
Andre forskere er dog imponerede over resultatet.
Professor og overlæge i gynækologi og graviditet Martin G. Tolsgaard, der har ikke været involveret i det nye studie, kalder det for »en stor bedrift«, at den kunstige intelligens kan bestå embedseksamen.
Martin G. Tolsgaard er tilknyttet Rigshospitalet, hvor han netop forsker i, hvordan læger kan bruge kunstig intelligens som en hjælp i deres arbejde i fremtiden.
Består embedseksamen som en dårlig læge
Trods rosende ord er GPT-sprogmodellen langt fra at være en superstuderende.
USMLE-prøven er en multiple-choice prøve med 4 svarmuligheder. Prøven består af et par hundrede spørgsmål.
»Spørgsmålene indeholder en beskrivelse af patienten – deres sygehistorie, blodtype og så videre – efterfulgt af et spørgsmål, der ofte handler om at identificere den mest sandsynlige diagnose,« forklarer Valentin Liévin.
60 procent af spørgsmålene i USMLE skal besvares korrekt for at bestå. Sprogrobotten bestod lige akkurat med 60,2 procent. De bedste læger til prøven svarer korrekt på cirka 87 procent af spørgsmålene.
»På en måde klarede vi os lige så godt som de dårligst præsterende læger,« konstaterer Valentin Liévin.
Her er et eksempel på, hvordan den kunstige intelligens har svaret på et spørgsmål på prøven. Den blå tekst er den ordre (eller prompt), som forskerne har givet den kunstige intelligens:

\ Læs mere
Havde rekorden – men blev slået af Google
At få kunstige intelligenser til at klare medicinske prøver som USMLE bedst muligt, er blevet en disciplin, som AI-forskere fra hele verden konkurrerer i.
Lægeeksamerne er en gode måde at træne deres kunstige intelligenser på, fortæller datalogi-professor på Københavns Universitet Mads Nielsen, der ikke har været involveret i det nye studie, men kalder det for en »flot præstation«:
»Eksamener er typisk lidt mere karikerede eksempler end det, man ser i den beskidte virkelighed. Men det er en oplagt sandkasse til at træne kunstig intelligens i,« siger Mads Nielsen.
Mads Nielsen er tilknyttet et forskningsprojekt, der skal undersøge, hvordan kunstig intelligens kan bruges til at give hurtigere og bedre viden om bivirkninger hos patienter.
I en kort stund havde DTU-forskerne – der lige akkurat bestod og altså præsterede som en dårlig læge – faktisk rekorden for at være det forskerhold, der havde klaret USMLE-prøven bedst.
Men bare fem dage efter, at DTU-forskerne fremlagde deres studie 20. december 2022, præsenterede et forskerhold fra Google et studie, hvor de havde brugt Googles egen sprogmodel ‘PaLM’.
Google-modellen bestod USMLE med 67 procent korrekte svar og er dermed den sprogmodel, der i skrivende stund har klaret den amerikanske embedslægeeksamen allerbedst.
Kan hjælpe med diagnoser
DTU-forskernes ultimative mål er dog mere ædelt end at hutle sig gennem lægeeksamener.
Det egentlige mål er at finde ud af, hvordan læger kan få hjælp til at stille bedre og hurtigere diagnoser gennem kunstig intelligens, pointerer Valentin Liévin, som startede forskningen under sin praktik i virksomheden FindZebra, der også er involveret i forskningen (se faktaboks).
\ Forskning laves i samarbejde med DTU-virksomhed
FindZebra er en medicinsk søgedatabase, der netop bruger kunstig intelligens til at matche symptomer med sjældne sygdomme, som en læge ikke nødvendigvis vil være opmærksom på.
Virksomheden er blandt andet ejet af DTU-professor og medforfatter til studiet, Ole Winther.
FindZebra har blandt andet delvist finansieret en forlængelse af Valentin Liévins ph.d. og har derigennem støttet forskningen.
Allerede i dag bruges kunstig intelligens også som hjælperedskab til at give bedre diagnoser. Så det er ikke nyt, påpeger Valentin Liévin.
Forskningen i GPT-sprogmodellen er blot en måde at videreudvikle disse redskaber på.
Kan analysere millioner af sager
Valentin Liévin forklarer idéen bag projektet på følgende måde:
Hvis du går til lægen med ondt i knæet eller et kløende mærke på ryggen, vil du blive undersøgt på forskellige måder. En stor del af udredningen foregår også ved, at du sætter ord på, hvordan du har det.
Til sidst vil din læge – ud fra en bunke informationer – forsøge at stille en diagnose. Men, påpeger Valentin Liévin, alle udredninger er ikke lige nemme.
I nogle tilfælde findes der hundredvis af potentielle diagnoser. I nogle af dem vil diagnosen være så sjælden, at lægen måske aldrig nogensinde har hørt om den.
Her kan kunstig intelligens og sprogrobotter som GPT-3.5 måske hjælpe i fremtiden, forudser DTU-forskeren:
»I løbet af et øjeblik vil AI’en have analyseret millioner af tidligere medicinske sager og finde den mest passende forklaring, som den kan bruge til at anbefale en diagnose.«
Sprogmodeller kan ændre lægers praksis
Hvis du føler dig skræmt over udsigten til, at din praktiserende læge bliver erstattet af en sprogrobot, kan du glæde dig over, at det sandsynligvis ikke kommer til at ske.
Pointen er, at den kunstige intelligens skal fungere som en ekstra hjælp til lægen. Ikke erstatte lægen fuldstændig.
\ Kunstig intelligens kan forudsige kræftrisiko
I et studie fra 2022 viste et dansk forskerhold fra Syddansk Universitet som de første i verden, at kunstig intelligens kunne hjælpe med at forudsige risikoen for kræft hos patienter.
En forskerne bag studiet, professor Ivan Brandslund, kaldte i Videnskab.dk forskningen for »next-level klinisk bio-kemi«.
»Vi fortæller lægen, hvad tallene betyder, og om der er risiko for, at personen får kræft eller ej. Metoden genkender mønstre. Det kan lægen ikke,« lød det fra professoren, der forsker i klinisk biokemi og kunstig intelligens ved Syddansk Universitet.
Og selvom kunstige intelligenser nu kan bestå lægeeksamener, »betyder det selvfølgelig ikke, at enhver med en sprogmodel i hånden ville kunne praktisere som læge,« tilføjer overlæge Martin G. Tolsgaard.
»En teoretisk eksamen repræsenterer trods alt kun en lille del af de kompetencer, der skal til for at virke som læge,« påpeger han.
Martin G. Tolsgaard mener dog, at sprogteknologien allerede nu »ændrer ved vores forståelse af, hvad det vil sige at være en kompetent læge«:
»Sprogmodeller kan huske ting, som læger bruger utallige år på at lære udenad. Men de begår til gengæld også fejl, som mennesker måske aldrig ville have begået. For eksempel vil en kunstig intelligens ofte gætte en hel del, og den er ikke altid så god til at sige, hvornår den er usikker. Derfor er der brug for en læge, der ved, hvornår den ikke er på rette spor.«
Kun begyndelsen
Den stigende interessen for kunstig intelligens i sundhedsvæsenet sker parallelt med, at nye store sprogmodeller som GPT-3.5 i disse år er i rivende udvikling.
For bare lidt over et år siden sad Valentin Liévin og legede med en mindre sprogmodel kaldet BERT. Efter et helt års justeringsarbejde og træning på over 100.000 medicinske spørgsmål lod han BERT gå op til den amerikanske embedslægeeksamen.
I en forskningsartikel fra september 2022 præsterende han så resultatet:
BERT klarede 55 procent af spørgsmålene og dumpede dermed prøven.
I maj 2022 kastede Valentin Liévin sig så over GPT-sprogmodellen. Allerede efter en uges arbejde med modellen klarede den sig bedre end BERT. Og i december 2022 bestod GPT-modellen altså også den svære amerikanske lægeeksamen.
Meget tyder på, at det kun er begyndelsen.
Ifølge Sam Altman, der har skabt sprogmodellerne, vil GPT-3.5 om få år »ligne et kedeligt stykke legetøj«. Allerede i løbet af 2023 kommer der en opdateret version – en såkaldt GPT-4.