Forstå usikkerhed i matematiske modeller med disse interaktive grafikker
Hvorfor er det så svært at forudsige, hvordan eksempelvis coronasmitten udvikler sig? Prøv selv, hvordan små forskelle i antagelserne kan give helt andre resultater.
grafer_usikkerhed_matematiske_modeller_corona_coronavirus_covid19_covid-19

Eksponentiel vækst er den mest naturlige måde at beskrive noget, der vokser hurtigere, jo mere der allerede er. (Foto: Shutterstock)

Eksponentiel vækst er den mest naturlige måde at beskrive noget, der vokser hurtigere, jo mere der allerede er. (Foto: Shutterstock)

Matematik er et vigtigt redskab til at forudsige ting i virkeligheden.

Hvadenten man vil finde ud af, hvor hurtigt en kræfttumor vokser, eller hvordan COVID-19 udvikler sig i den danske befolkning, kan matematisk modellering være til hjælp.

Indenfor forskning i matematisk modellering prøver man blandt andet at vurdere, hvor god en forudsigelse er.

Én måde at beskrive det på er ved hjælp af såkaldte usikkerheder. Usikkerhederne beskriver typisk det interval omkring en matematisk forudsigelse, som er mest sandsynligt.

Når regeringens COVID-19-eksperter eksempelvis skal forudsige, hvor mange dagligt smittede vi kan forvente om fire uger, rummer den forudsigelse en vis usikkerhed.

Men er matematik ikke grundlæggende viden? Hvordan kan en matematisk model være 'usikker'?

Det forsøger vi at løfte sløret for i denne artikel. Samtidig viser vi, hvordan selv ganske små ændringer i de talværdier, man bruger som parametre, kan have stor betydning.

I vores interaktive figurer herunder kan du selv ændre på beregningerne og se, hvad der sker.

Fakta
Om Forskerzonen

Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.

Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet.

Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.

Et udgangspunkt: Eksponentiel vækst

Før vi ser på tilfældighed og usikkerhed, skal vi bruge et velegnet eksempel at se på.

En klassisk matematisk ligning, der kan bruges som en forsimplet model af et væld af virkelige systemer, er eksponentiel vækst

Eksponentiel vækst er den mest naturlige måde at beskrive noget, der vokser hurtigere, jo mere der allerede er. Hvad dette 'noget' er, afhænger af, hvad vi ser på:

Kræftceller i en tumor, smittede med en sygdom eller antallet af personer i en befolkning.

Selvom den eksponentielle vækst er en simpel model, i den forstand at den har få parametre og detaljer, kan den oftest bruges som et godt første bud på, hvordan ting udvikler sig, før mere nuancerede og detaljerede modeller tages i brug.

Matematisk skrives eksponentiel vækst således:

x(t) = x(0) • ea•t

Hvor x er den ting, vi ser på (celler, smittede, personer, eller lign.), t er hvor lang tid, der er gået siden start, hvor antallet var x(0), er Eulers tal (omtrent 2,7), og a er en parameter, der beskriver, hvor hurtig væksten er.

Herunder kan du se, hvordan en figur af eksponentiel vækst ser ud. Ved at trække i de sliders, der er under figuren, kan du ændre på antallet i starten (altså x(0)) og vækstraten (altså a).

Figuren kan åbnes i et nyt vindue her. I dén figur kan du også se, hvordan de tre grafer påvirker hinanden. (Figur: Rasmus Kristoffer Pedersen)

Vi kender ikke altid de tal, vi arbejder med

De to sliders ovenfor ændrer på den værdi, der benyttes for de to parametre, der er i modellen (rent teknisk er antallet i starten en såkaldt 'start-betingelse', men det kan her betragtes som en parameter).

Sættes en parameter til en bestemt værdi, vil beregningen give netop én løsning. Men i nogle situationer er det præcise tal måske ukendt, og det, vi ved, er i stedet blot, at tallet ligger indenfor et interval.

Forestil dig eksempelvis et biologi-forsøg med bakterier, der vokser i en petriskål.

Selvom der ved forsøgets begyndelse skal være 2.000 bakterieceller, er det næppe præcist dét antal celler, der vil være der, hver gang forsøget gentages.

Alle målemetoder – også optællingsmetoder – har nemlig usikkerheder.

Antallet af celler varierer fra gang til gang – somme tider vil der være lidt flere og somme tider lidt færre. Variation af denne slags forventes typisk at være fordelt om et gennemsnit på en måde, man kalder normalfordelt (også kaldet 'Gauss-fordelt').

Normalfordeling og tilfældige tal

En normalfordeling er en sandsynlighedsfordeling, som man forestiller sig, at man 'trækker' tilfældige tal fra, hver gang et forsøg udføres – ligesom når man spiller banko.

En normalfordeling beskrives med to tal: Et gennemsnit, som er den mest sandsynlige værdi, og som gennemsnittet af de tal, man trækker, vil nærme sig, jo flere tal man trækker.

Derudover har vi et tal for spredningen eller den variation, der er om gennemsnittet. Typisk beskrives spredningen som en standard afvigelse, som er et tal, der er højt, når der er stor spredning om gennemsnittet, og lavt, når der er lille spredning.

Hvis der er stor spredning, er der med andre ord mange værdier langt fra gennemsnittet og vice versa, mens lav spredning betyder, at de fleste værdier ligger tæt på gennemsnittet.

Hvis vi i biologiforsøget ovenfor eksempelvis havde 2.002 celler, så 1.989 og så 2.014, ville det være et tegn på en lavere spredning (og mindre usikkerhed i vores metode), end hvis vi fik for eksempel 2.502, 1.770 og så 2.292.

Herunder kan du igen ændre på de samme to parametre som ovenfor, men denne gang kan du også styre spredningen omkring gennemsnittet.

Der, hvor kurven er høj, er det mest sandsynligt, at man trækker tal fra, hvorimod det er mindre sandsynligt der, hvor kurven er lav.

Under kurven bliver nogle tilfældige tal fra fordelinger illustreret som små, gennemsigtige streger.

Figuren kan åbnes i et nyt vindue her. I dén figur kan du også se, hvordan de tre grafer påvirker hinanden. (Figur: Rasmus Kristoffer Pedersen)

Bemærk, at hvis antallet i starten er under 0, så trækkes et nyt tal for at undgå 'negative' antal. Rent formelt er det derfor teknisk set ikke en normalfordeling, men kun en tilnærmelse.

Vækstrater under 0 giver derimod fin mening. I sådanne situationer får man eksponentielt fald frem for vækst.

Eksponentiel vækst, nu med usikkerhed

Nu kan du kombinere den eksponentielle vækst med de to parametre som ikke længere har én enkelt værdi, men i stedet bruger en tilfældig værdi fra den fordeling, du så ovenfor.

I figuren herunder vises en masse løsninger som små prikker, der bevæger sig. Hver prik repræsenterer en løsning med én bestemt værdi for antallet i starten, og én bestemt værdi for vækstraten.

På grund af tilfældigheden giver det dog meget forskellige løsninger.

Til sammenligning viser en stiplet linje løsningen med de gennemsnitlige parameterværdier, som også blev vist i den første figur her på siden.

Prøv at ændre på de sliders, der er under figuren. Hvad sker der, når den ene spredning er stor, men den anden er lille? Hvad hvis begge parametre har stor spredning?

Figuren kan åbnes i et nyt vindue her. I dén figur kan du også se, hvordan de tre grafer påvirker hinanden. (Figur: Rasmus Kristoffer Pedersen)

Hvis du har sat spredning på begge parametre, vil du måske se, at forskellige kurver krydser hinandens spor somme tider.

En løsning med et lavt antal i starten, men en høj vækstrate vil eksempelvis krydse en løsning med et højt antal i starten med en lavere vækstrate.

Men hvis vi kun havde observeret eller målt vores system på ét enkelt tidspunkt (der, hvor de krydser), ville vi have svært ved at kende forskel på de to løsninger og vurdere, hvad der gør dem forskellige.

Det er netop en af grundene til, at usikkerhed kan være svær at sætte tal på. Et eksperiment skal måske udføres dobbelt så mange gange, bare for at have en måling på mere end ét tidspunkt.

1.000 beregninger senere…

Det smarte ved at kende den forventede variation i en models parametre er, som du så ovenfor, at man kan få en idé om, hvor meget en løsning kan variere.

Det er denne variation, som man omtaler som usikkerheden i modellens forudsigelse.

Der er forskellige måder at beskrive usikkerheden. En simpel måde at gøre det er at vise et klassisk boksplot (se et eksempel på et sådant her) for, hvad man ville få på et bestemt tidspunkt, for eksempel dag 4.

Boksplottet ville så blandt andet vise det interval, der indeholder halvdelen af værdierne, og hele intervallet fra de højeste til de laveste værdier. På den måde kan man se, hvor usikker en forudsigelse kunne være.

En udvidelse af dette er at vise de samme intervaller, men for alle tidspunkter.

Herunder kan du se den fordeling, der ville blive observeret efter 1.000 beregninger.

Her har vi brugt de startværdier, der var for de fire sliders (antallet i starten: gennemsnit 2; standard afvigelse 0,2. Vækstrate: gennemsnit 0,1; standard afvigelse: 0,04).

Jo mørkere farve et interval er vist med, jo større andel af løsningerne ligger indenfor intervallet.

Medianen, altså den midterste af løsningerne, vises med en sort streg i midten af intervallerne.

spredning_spaend_for_alle_loesninger

Usikkerhed er et grundvilkår, når det kommer til at forudsige fremtiden ved hjælp af modeller. Men usikkerhed er faktisk en god ting, fordi den viser os, hvor sikre vi kan være på vores forudsigelse. (Figur: Rasmus Kristoffer Pedersen)

Med denne figur kan man altså vise, hvor stort et spænd vi beregnede os frem til, med den spredning der var i parameterværdierne.

Hvis man som eksempel ønsker at vide, hvad antallet er på dag 6, er median-værdien på omkring 7, men spændet er så bredt, at halvdelen er løsningerne ligger mellem 4 og 10.

Det er mest sandsynligt, at antallet er 7 på dag 6. Men usikkerheden i parameterværdierne giver en tilsvarende usikkerhed i modelresultatet, som beskriver, hvor tæt på 7, vi kan forvente, resultatet bliver.

Se boksen under artiklen for nogle tekniske udregninger af, hvordan forskellen i forskellige løsninger kan beskrives.

Vanskeligt at spå om fremtiden

Matematiske modeller kan hjælpe os med at forstå, hvordan forskellige ting – eksempelvis coronapandemien – udvikler sig. Men som et gammelt dansk citat (der sommetider tilskrives Niels Bohr eller Storm P.) siger:

»Det er vanskeligt at spå, især når det gælder fremtiden.«

Selv en model, der beskriver virkeligheden godt, kan være begrænset af, hvor godt vi kender de parametre, som bruges.

Et enkelt forkert gæt på en parameters værdi kan i nogle tilfælde have enorm betydning for modellens opførsel, især på lang sigt.

En forudsigelse kan derfor ramme langt ved siden af virkeligheden – et fænomen, vi kender alt for godt fra prognoser for vejret.

Netop usikkerheder i parametre og uforudsete ændringer er noget af det, der kan gøre det svært at spå om for eksempel antallet af COVID-19 smittede.

Da COVID-19 modelgruppen i februar skulle forudsige antallet af indlagte med COVID-19, vurderede de, at der kunne være omtrent 870 indlagte i midten af april.

Men modelgruppen gjorde det i samme notat klart, at en forudsigelse så langt ud i fremtiden er forbundet med en stor usikkerhed.

Da virkeligheden heldigvis endte med at ligge lavt indenfor denne usikkerhed, har det betydet, at der nu er rum for en større genåbning end tidligere forventet.

Usikkerhed øger troværdigheden

Er læren så, at vi ikke kan bruge modellerne til noget? Selvfølgelig ikke, de er stadig videnskabens bedste bud på, hvordan fremtiden ser ud.

Men eksemplet understreger behovet for, at enhver, der bruger modeller, også er åben om de parametre og usikkerheden, der nødvendigvis også er.

Samtidig er det også vigtigt, at usikkerheden kommunikeres korrekt, og at en forudsigelse ikke fortolkes som en entydig sandhed om, hvordan fremtiden bliver.

Hvis vi er bevidste om, hvor stor spredning der kan være i parameterværdierne, er det muligt at finde ud af, hvor sandsynligt det er, at noget bestemt sker.

Det kan for eksempel være vigtigt at vide, om en kræfttumor, der vokser overraskende hurtigt, er indenfor et sandsynligt interval, eller om der er sket noget uventet, som skal undersøges yderligere.

I modsætning til parameterværdier uden spredning (såkaldte punkt-estimater), giver spredning og usikkerhed i parameterværdier altså et mere nuanceret billede.

En matematisk forudsigelse om fremtiden vil, i sagens natur, altid være et gæt.

Ved at beskrive den usikkerhed, der er i forudsigelsen, kan man dog se, hvor godt et gæt, der er tale om. På den måde kan man også forholde sig til de risici, som tilfældig variation kan give anledning til.

Kender man derimod ikke usikkerheden, kan det være svært at vide, hvor troværdigt et gæt faktisk er.

Så selvom det kan virke lidt skørt rent sprogligt, er en matematisk forudsigelse med usikkerhed altså bedre end en forudsigelse uden usikkerhed.

Ovenstående figurer kan åbnes i et nyt vindue her, hvor en ændring i ét parameter viser sig i alle tre figurer samtidigt. 

Rasmus Kristoffer Pedersen er postdoc ved PandemiX Centeret, Roskilde Universitet. Dér arbejder de med at undersøge, hvordan historiske epidemier og biologisk viden kan benyttes til at gøre os klogere på fortidens, nutidens og ikke mindst fremtidens sygdomsudbrud.

Centeret er ledet af professor Lone Simonsen. Se mere på ruc.dk/pandemix.

Eksponentiel vækst og små ændringer

En lille advarsel til læseren. Nedenstående tillæg til artiklen er tænkt for den ekstra matematisk interesserede – og/eller til brug i undervisningen.

Som vist i figurerne her i artiklen kan spredning i de parametre, der indgår i eksponentiel vækst, have stor betydning for, hvor forskellige løsninger bliver: Altså, hvor sikre/usikre vi er på vores løsninger.

Heldigvis kan man matematisk beskrive, hvor stor forskel der vil være mellem to løsninger.

Vi tager udgangspunkt i én bestemt løsning:

x(t) = x(0)eat

hvor vækstraten er a, og antallet i starten er x(0).

Hvis vi til sammenligning forestiller os en løsning, hvor der er en lille forskel i antallet i starten, sådan at antallet i starten kan skrives x(0) + δ, hvor δ blot er et antal, så ville vi have en løsning, som vi kan kalde x1(t), og som ville se sådan her ud:

x1(t) = ( x(0) + δ)eat = x(0)eat + δeat

Forskellen på de to løsninger, og derved også hvor langt væk de vil bevæge sig fra hinanden, når  bliver højere, kan så udregnes som:

x1(t) – x(t) = x(0)eat – x(0)eat = δeat

Forskellen vokser altså eksponentielt, men med samme vækstrate som løsningerne vokser med.

Hvor langt væk de to løsninger bevæger sig fra hinanden er altså begrænset af, hvor høj vækstraten er – selvom de starter ved en forskellig værdi i starten.

På samme måde kan vi bestemme, hvor stor betydning en forskel i vækstraten kan have.
Hvis en løsning har en vækstrate, der kan skrives α + β, så ville løsningen, lad os kalde den x2(t), kunne skrives som:

x2(t) = x(0)e(α + β)t = x(0)eateβt

For at sammenligne den oprindelige løsning x(t) med denne nye løsning skal vi ikke se på forskellen mellem de to løsninger, men i stedet forholdet mellem dem:

 

x2(t)
x(t)

=

x(0)eateβt = eβt
x(0)eat

Derved ved vi, hvor hurtigt løsningerne ændrer sig i forhold til hinanden: forholdet mellem løsningerne stiger nemlig eksponentielt, som tiden går.

Denne måde at vurdere, hvordan en ændring i en parameter kommer til udtryk, når et matematisk system fremskrives, kan være med til at styrke forståelsen af en matematisk model og ikke mindst de forudsigelser, man kan lave med den.

Alle må bruge og viderebringe Forskerzonens artikler

På Forskerzonen skriver forskere selv om deres forskning. Vi mener, det er vigtigt, at alle får mulighed for at læse om forskning fra forskerens egen hånd.

Alle må derfor bruge, kopiere og viderebringe Forskerzonens artikler udfra følgende enkle krav:

  • Det skal krediteres: 'Artiklen er oprindelig bragt på Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler'. Hvis artiklen bringes på web, skal der linkes til artiklen på Forskerzonen.
  • Artiklen må ikke redigeres og skal bringes i fuld længde (medmindre andet aftales med forskeren).
  • Du skal give forskeren besked om, at du genpublicerer.
  • Artikler, som er oversat fra The Conversation, skal have indsat en HTML-kode til indsamling af statistik i bunden. HTML-koden finder du i den originale artikel på The Conversations hjemmeside ved at klikke på knappen "Republish this article" ude til højre, derefter klikke på 'Advanced' og kopiere koden. Du finder linket til artiklen på The Conversation i bunden af Forskerzonens oversatte artikel. 

Det er ikke et krav, men vi sætter pris på, at du giver os besked, hvis du publicerer vores indhold (undtaget indhold fra The Conversation). Skriv til redaktør Anders Høeg Lammers på ahl@videnskab.dk.

Læs mere om Forskerzonen i Forskerzonens redaktionelle retningslinjer.

DOI - Digital Object Identifier

Artikler, produceret til Forskerzonen, får tildelt et DOI-nummer, som er et 'online fingeraftryk', der sikrer, at artiklerne altid kan findes, tilgås og citeres. Generelt får forskningsdata og andre forskningsobjekter typisk DOI-numre.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.

Danske corona-tal

Videnskab.dk går i dybden med den seneste corona-forskning. Læs vores artikler i temaet her.

Hver dag opdaterer vi også de seneste tal.

Dyk ned i grafer om udviklingen i antal smittede, indlagte og døde i Danmark og alle andre lande.

Ny video fra Tjek

Tjek er en YouTube-kanal om videnskab, klima og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs her om, hvordan forskerne tog billedet af atomerme.