I videnskaben findes der en dominerende forestilling om, at der er en matematisk sandhed, der strukturerer universet.
Det antages, at forskernes opgave er at tyde disse matematiske relationer: Når de først er forstået, kan de oversættes til matematiske modeller.
Når den resulterende ‘siliciumvirkelighed’ bliver bearbejdet i en computer, er det tanken, at det leverer nyttig indsigt i, hvordan verden fungerer.
Da videnskaben bliver ved med at afsløre hemmeligheder, bliver modellerne ved med at blive større: De integrerer opdagelser og nyfundne mekanismer for bedre at afspejle verden omkring os.
Mange forskere antager, at mere detaljerede modeller producerer skarpere estimater og bedre forudsigelser, fordi de er tættere på virkeligheden.
Men vores nye forskning, publiceret i tidsskriftet Science Advances, indikerer, at det muligvis har den modsatte effekt.
\ Om Forskerzonen
Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.
Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet og Region Hovedstaden.
Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.
Tendens til at producere mere usikre estimater
Antagelsen om, at ‘jo flere detaljer desto bedre’ findes på tværs af mange discipliner.
Konsekvenserne er enorme: Universiteter får flere og mere kraftfulde computere, fordi de ønsker at køre større og større modeller, der kræver en stigende mængde computerkraft.
For nylig investerede Europa-Kommissionen eksempelvis 8 milliarder euro (cirka 59, 5 milliarder kroner) i at skabe en meget detaljeret simulation af Jorden (med mennesker) kaldet en ‘digital tvilling‘, i håbet om bedre at kunne løse aktuelle sociale og økologiske udfordringer.
Vores seneste forskning viser, at jagten på stadig mere komplekse modeller som redskaber til at producere mere nøjagtige estimater og forudsigelser muligvis ikke virker.
Baseret på statistisk teori og matematiske eksperimenter kørte vi hundredtusindvis af modeller med forskellige konfigurationer for at måle, hvor usikre deres estimater er.
Vi opdagede, at mere komplekse modeller havde en tendens til at producere mere usikre estimater. Det skyldes, at nye parametre og mekanismer bliver tilføjet.
Et nyt parameter, for eksempel effekten af tyggegummi på spredningen af en sygdom, skal måles – og derfor stiger usikkerheden og risikoen for beregningsfejl.
Usikkerheder hober sig op
Forskerne, som bygger modellerne, kan også bruge forskellige ligninger til at beskrive det samme fænomen matematisk.
Når først disse nye tilføjelser og deres tilknyttede usikkerhed er integreret i modellen, hober de sig oven på de usikkerheder, der allerede er der.
Og usikkerheden bliver ved med at stige med hver modelopgradering, hvilket gør modellens output mere sløret ved hvert trin på vejen – også selvom modellen i sig selv bliver mere virkelighedstro.
Det påvirker alle modeller, der ikke har passende validerings- eller træningsdata til at kontrollere nøjagtigheden af deres output.
Det inkluderer globale modeller for klimaforandringer, hydrologi (vandstrøm), fødevareproduktion og epidemiologi såvel som alle modeller, der forudsiger fremtidige effekter.

Uklare resultater
I 2009 skabte teknikere en algoritme kaldet Google Flu Trends, der skulle forudsige andelen af influenza-relaterede lægebesøg i hele USA.
På trods af at algoritmen var baseret på 50 millioner forespørgsler, som folk havde foretaget via Google, var modellen ikke i stand til at forudsige udbruddet af svineinfluenza i 2009.
Teknikerne gjorde derefter modellen, som ikke længere er i brug, endnu mere kompleks – men den var stadig ikke særlig præcis.
Forskning ledet af den tyske psykolog Gerd Gigerenzer viste, at modellen konsekvent overvurderede antallet af lægebesøg i 2011 til 2013, i nogle tilfælde med mere end 50 procent.
Gerd Gigerenzer opdagede, at en langt enklere model leverede bedre resultater.
Hans model forudsagde den ugentlige forekomst af influenza baseret på blot en lille portion data: Hvor mange personer, der havde opsøgt deres praktiserende læge den foregående uge.
Beregninger med ét enkelt parameter klarer ærterne
Et andet eksempel er globale hydrologiske modeller, som sporer, hvordan og hvor vand bevæger sig og lagres.
De startede som ganske enkle modeller i 1960’erne baseret på evapotranspirations-processer (altså mængden af vand, der fordampede og transpirerede fra et landskab dækket af planter) og blev hurtigt udvidet for at tage højde for husholdnings-, industri- og landbrugsvandbruget på global skala.
Det næste trin for disse modeller er at simulere vandbehovet på Jorden for hver kilometer hver time.
Men man kan så tænke over, om denne ekstra detalje ikke bare vil gøre dem endnu mere snørklede.
Vi har tidligere vist, at estimater af mængden af vand brugt til kunstvanding produceret af otte globale hydrologiske modeller kan beregnes med blot ét enkelt parameter – omfanget af det kunstvandede areal.
Vejen frem
Hvorfor er det faktum, at flere detaljer kan forværre en model, blevet overset indtil nu?
Mange modelbyggere sender ikke deres modeller til usikkerheds- og følsomhedsanalyse, som er metoder, der fortæller forskerne, hvordan usikkerheder i modellen påvirker de endelige estimater.
Mange bliver bare ved med at tilføje detaljer uden at afdække, hvilke elementer i deres model, der har det største ansvar for usikkerheden i outputtet.
Det er bekymrende, da modelbyggere er interesserede i at udvikle stadig større modeller – hele karrierer er såmænd bygget på komplekse modeller.
Det er fordi, de er sværere at forfalske: Deres kompleksitet skræmmer udenforstående og komplicerer forståelsen af, hvad der foregår inde i modellen.
Der er dog en løsning. Vi foreslår, at man sikrer, at modellerne ikke bliver ved med at blive større og større bare fordi.
Selvom forskerne udfører en usikkerheds- og følsomhedsanalyse, risikerer deres estimater at blive så usikre, at de bliver ubrugelige for både forskning og beslutningstagning.
Det giver ikke meget mening at investere mange penge i databehandling bare for at køre modeller, hvis estimater er fuldstændig uklare.
Effektive dimensioner
Modelbyggerne bør i stedet overveje, hvordan usikkerheden stiger med hver tilføjelse af yderligere detaljer i modellen – og finde den bedste afvejning mellem niveauet af detaljer og estimaternes usikkerhed.
For at finde denne balance kan man bruge begrebet ‘effektive dimensioner’ – et mål for antallet af parametre, der tilføjer usikkerhed til det endelige output, under hensyntagen til, hvordan disse parametre interagerer med hinanden – som vi definerer i vores studie.
Ved at beregne en models effektive dimensioner efter hver opgradering kan modelbyggere vurdere, om stigningen i usikkerhed stadig gør modellen egnet til beslutningstagen – eller om den derimod gør modellens output så usikker, at den er ubrugelig.
Det øger gennemsigtigheden og hjælper forskerne med at designe modeller, der tjener forskningen og samfundet bedre.
En del modelbyggere vil nok stadig hævde, at tilføjelsen af detaljer kan føre til mere nøjagtige estimater. Bevisbyrden ligger nu hos dem.
Denne artikel er oprindeligt publiceret hos The Conversation og er oversat af Stephanie Lammers-Clark.
\ Kilder
- Arnald Puys profil (University of Birmingham, England)
- “Models with higher effective dimensions tend to produce more uncertain estimates,” Science Advances (2022). DOI: 10.1126/sciadv.abn9450
- “Climate forecasting: Build high-resolution global climate models”, Nature (2014). DOI. 10.1038/515338a
- “Irrigated areas drive irrigation water withdrawals”, Nature Communications (2021). DOI: 10.1038/s41467-021-24508-8
- “Ambitious partnership needed for reliable climate prediction”, Nature Climate Change (2022). DOI: 10.1038/s41558-022-01384-8