Sådan sjusker forskere med statistik
»I forskningens verden er der mange, der har dårlige statistikkompetencer. Det er almindeligt at lave grove fejl og komme frem til forkerte konklusioner,« siger Lars Holden fra forskningsinstitutionen Norsk Regnesentral.
statistik fejl forskning

Hvorfor er statistik så vigtigt i forskning? Statistiske metoder gør det muligt at undersøge en del af en population for så at drage konklusioner om hele populationen. (Illustration: Shutterstock)

Hvorfor er statistik så vigtigt i forskning? Statistiske metoder gør det muligt at undersøge en del af en population for så at drage konklusioner om hele populationen. (Illustration: Shutterstock)

Store mængder af data gør ingen nytte, hvis forskerne ikke forstår de statistiske analyseværktøjer. Og der er masser af fælder, man kan falde i.

Statistik er oven i købet så kompliceret, at det kan være meget let at snyde med resultater uden nogen særlig stor risiko for at blive opdaget.

»Der skal meget til for at sætte sig ind i data, metoder og udregninger i et studie. Det er ganske få, der har kompetencerne til at gå grundigt ind i andres statistiske analyser,« siger Lars Holden, som er administrerende direktør i den norske forskningsinstitution Norsk Regnesentral (NR), til Forskning.no, Videnskab.dk’s norske søstersite.

Krise!

Hvorfor er statistik så vigtigt i forskning?

Statistiske metoder gør det muligt at undersøge en del af noget og så drage konklusioner om helheden.

Medicin bliver afprøvet på grupper af forsøgspersoner i flere runder, før det kan antages, at det vil virke godt for de fleste. En udvalgt gruppe mennesker får spørgsmål om deres politiske præferencer, så samfundsforskeren kan vurdere, hvor stor tilslutning de forskellige partier har for tiden.

'Reproducerbarhedskrisen' er navnet på en problemstilling, som forskningen har stået med de seneste årtier, og det handler ikke, som navnet ellers kan tyde på, om, at forskerne har problemer med at formere sig.

Det handler om, at en stor del af de publicerede forskningsfund ikke kan genskabes.

Selv med adgang til de originale data og regneværktøjer kan det ikke lade sig gøre. Selve dataanalyserne kan ikke gentages. Forskeres misbrug eller manglende forståelse for statistik bliver næsten altid trukket frem som en vigtig forklaring på krisen.

»Der er så utroligt meget, der kan gøres forkert. Mere end det, som forskerne har beskrevet i et studie, kan have indvirkning,« siger Anders Løland, der er assisterende forskningschef ved NR.

Her er syv almindelige fejl:

1. Dårligt datagrundlag

Størrelsen på den gruppe, som man tester, og måden, man vælger den gruppe på, er vigtige valg for alle forskere.

»Det er en normal misforståelse, at det altid er bedst med en stor gruppe og en masse data. Men en gruppe, der ikke er repræsentativ, er meget værre end en lille gruppe,« siger Jan Terje Kvaløy, der er professor i statistik ved Universitetet i Stavanger.

Han ser et tænkt eksperiment for sig, hvor forskere spørger 10.000 erhvervsledere om deres syn på Norges tilknytning til EU.

»Det vil ikke ligefrem give et repræsentativt billede af befolkningen som helhed. Et repræsentativt udsnit på 500 personer vil give et meget bedre billede,« siger professoren.

Andre gange er det mindre åbenlyst, at et udsnit af befolkningen er skævt – som i en amerikansk undersøgelse fra 2015. Den kiggede på 35.000 teenagere, som kom til lægen efter ATV-ulykker (ATV er en slags firehjulet køretøjm, der eksempelvis kan køre 'offroad', red.), og den viste, at det var gået bedre for dem, som ikke havde brugt hjelm.

»Problemet var, at der kan have været mange ATV-ulykker, hvor hjelmen beskyttede så godt, at de involverede ikke behøvede at tage til lægevagten,« siger Kvaløy.

For teenagerne med hjelm skulle ulykken altså være af en alvorligere grad, før de i det hele taget kom med i undersøgelsen.

»Det er en fælde, der er let at falde i. Den kaldes Berkons paradoks,« fortæller Kvaløy.

LÆS OGSÅ: Lær statistik og lev længere

2. Forkert statistisk model

Før forskerne kan gå i gang med at regne på de data, de har samlet ind, skal de vælge, hvordan deres data skal grupperes og indtastes på computeren, og de skal vælge en statistisk model. Det vil sige, at de skal vælge, hvilke statistiske værktøjer, der passer.

»Der er enormt mange forskellige modeller derude. Her er der helt klart meget, som kan gå galt,« siger Kvaløy.

Johs Hjellbrekke er sociologiprofessor på Universitetet i Bergen og i øjeblikket også direktør for Det norske universitetscenter i Paris. Han understreger, at valgene har konsekvenser og derfor skal kunne forsvares.

»Det er ikke bare at gå hen til en computer med et datasæt, ryste det lidt og se, hvad der kommer ud. Strukturen, vi påfører data gennem kodning, er vi garanteret at møde igen i resultaterne.«

Derfor er vi nødt til at kunne forsvare analytisk, hvorfor ting er grupperet, som de er, siger han.

Løland ved NR understreger desuden, at alle statistiske værktøjer hviler på nogle forudsætninger.

»Spørgsmålet er, om de forudsætninger er til stede i det konkrete datasæt,« siger han.

Meget ofte er det en forudsætning, at ens data er tilfældigt udvalgt.

»Hvis der er skævheder i datamaterialet, er forskeren nødt til at finde en måde at korrigere for det på,« forklarer han.

Det kan betyde, at man skal bruge mere avancerede statistiske analyser.

»Valget af statistisk model bør underbygges,« siger Løland.

Han understreger, at gode valg forudsætter viden om både det fænomen, man undersøger, de data, man arbejder med, og de relevante statistiske modeller, der findes.

3. Ud på fisketur (efter resultater)

Prøv at forestille dig, at du kaster en terning og slår seks de første fem gange. Det er en usandsynlig tilfældighed.

Selv om du kaster terningen rigtig mange gange, er det en teoretisk mulighed, at det bliver en sekser forholdsvist ofte. Derfor kan en efterfølgende dataanalyse vise, at der er størst chance for at slå seks med terningen.

Her er vi så heldige at vide på forhånd, at medmindre nogen har snydt med terningen, er der lige så stor sandsynlighed for hver af terningens sider ved hvert kast. Vi skal bare bruge et regneværktøj til at beskrive usikkerheden, som tilfældighederne skaber.

Forskerne har flere forskellige statistiske værktøjer. Det mest brugte, og måske også det mest omdiskuterede, er P-værdien. Den er mellem 0 og 1, og jo lavere P-værdi, jo mindre er usikkerheden.

I mange grene af videnskab er det en regel, at en P-værdi på mindre end 0,05 er lav nok – altså et signifikansniveau på fem procent.

Det vil sige, at et sådant eksperiment vil give et falsk positivt resultat 1 ud af 20 gange i situationer uden reel effekt. P-værdier under 0,05 giver altså ingen garanti for, at fundet er rigtigt, men det er alligevel blevet en magisk grænse for at få et studie publiceret.

Et normalt og alvorligt problem i videnskaben er forskere, som kører mange analyser på sine data for at lede efter P-værdier, som er mindre end 0,05. De tager så at sige på fisketur efter dem, og den, der leder, skal finde.

»Når vi laver mange test, bliver der til sidst stor sandsynlighed for, at mindst en af dem giver en P-værdi på mindre end 0,05, uden af der er nogen reel effekt,« siger Kvaløy fra Universitetet i Stavanger.

Det er årsagen til, at det er vigtigt, at man på forhånd specificerer, hvilke hypoteser man ønsker at teste.

»Hvis man vil lave flere test, bør man kompensere for det ved at kræve en lavere P-værdi for hver hypotese, der testes,« siger Kvaløy.

Den kendte ernæringsforsker Brian Wansink fra Cornell University i USA var for nylig nødt til at forlade sit job efter afsløringer om fejl og problematisk brug af statistik i en række meget omtalte og citerede forskningsartikler. Mange af artiklerne er nu trukket tilbage.

Opsigtsvækkende nok var det Brian Wansinks egne udtalelser, der udløste en granskning af ham. I et blogindlæg opfordrede han nemlig studerende til at teste mange hypoteser på deres datasæt, hvis de ikke fandt det, de ledte efter, i første runde.

Mens han mistede sit job, og tidsskrifterne trak hans artikler tilbage, fastholdt han selv, at metoderne var gode, og fundene var solide.

»Meget af det, der går galt, handler ikke om trylleri og 'dårlige' holdninger til, hvad man bør gøre. Måske er der bare tale om, at man ikke har viden nok – at man ikke tænker særlig meget over, hvad man laver. Det med at fiske efter resultater skal, uanset hvad, ikke blive normen,« siger Løland fra NR.

At fiske efter resultater har flere navne. Det kaldes blandt andet for P-hacking, signifikansjagt, data-dredging, cherry picking og data-tortur. Typisk rapporteres det ikke i forskningsartiklerne, at man har jagtet en lav P-værdi på den måde.

LÆS OGSÅ: Statistiske faldgruber: Derfor er det afgørende at fortælle, hvad man vil undersøge

4. Blande statistisk signifikans og relevans

Lav P-værdi og et signifikant resultat behøver ikke at betyde, at et forskningsfund er specielt interessant eller relevant. For at vurdere det er vi nødt til at se på størrelsen af den effekt, der er fundet.

Nu til dags har forskere større adgang til data, og flere og flere studier undersøger store populationer. I store populationer kan selv små fund bevises med lav P-værdi. Selv om forskeren kan påstå, at hun er meget sikker på, at effekten er reel, er den måske så lille, at den ikke betyder noget i praksis.

»Det er endnu en grund til at være skeptisk over for P-værdier. I medicin skelner man for eksempel ofte mellem statistisk signifikans og medicinsk signifikans,« siger Kvaløy fra Universitetet i Stavanger.

Vi kan forestille os en avisoverskrift om, at det at spise meget lakrids fordobler risikoen for en bestemt kræftrisiko. Dobbelt så stor risiko!

Det lyder dramatisk, men måske er der tale om en type kræft, som næsten ingen rammes af. Og hvor mange spiser egentlig rigtig meget lakrids?

Fundet kan altså betyde meget lidt i praksis.

LÆS OGSÅ: Professor advarer: 'Big Data' kan føre til overdiagnosticering

5. Simpsons paradoks

»Forskere er også nødt til at være på vagt, når de undersøger forskellige grupper og forskellige størrelser,« understreger Løland fra NR.

Han kommer med et eksempel, som handler om mord, diskrimination og dødsstraf i USA. I 1981 viste den amerikanske forsker Michael Radelet, at der ikke er en tydelig sammenhæng mellem etniciteten af den tiltalte og dødsstraf. Alligevel kunne han vise, at det amerikanske retssystem diskriminerer sorte i sådanne sager. Hvordan var det muligt?

I første runde inddelte han sine data i to grupper: Sorte og hvide tiltalte. Resultaterne viste, at hvide fik dødsstraf i 11 procent af sagerne, mens sorte fik det i 8 procent af sagerne.

Men billedet forandrede sig dramatisk, da Radelet inddelte de to grupper i undergrupper efter offerets etnicitet:

  • 11 procent af hvide tiltalte, som havde dræbt hvide, fik dødsstraf.
  • 0 procent af hvide tiltalte, som havde dræbt sorte, fik dødsstraf.
  • 23 procent af sorte tiltalte, der havde dræbt hvide, fik dødsstraf.
  • 3 procent af sorte tiltalte, der havde dræbt sorte, fik dødsstraf.

Dødsstraf blev altså meget oftere resultatet i sager, hvor offeret var hvidt, og det gjaldt endnu oftere, hvis den tiltalte var sort, og offeret var hvidt.

»Faren ved Simpsons paradoks er, at der kan være forskelle i undergrupper, som forskerne ikke opdager. Det tror jeg ofte, folk glemmer,« siger Løland.

Derfor kan det være vigtigt at forfine analysen og bruge tid på at forstå, hvad spørgsmålet, som man stiller, egentlig indebærer – gerne allerede, når man planlægger, hvordan datagrundlaget skal indhentes.

6. Blander sammenhæng og årsag

Falske årsagssammenhænge eller såkaldte 'spuriøse' sammenhænge er et problem, der hele tiden viser sig i videnskab.

Selv om det er bevist, at der er en statistisk sammenhæng – for eksempel mellem at få lidt søvn og få hjertesygdomme – er det slet ikke sikkert, at lidt søvn er årsagen til hjertesygdom.

Såkaldte kausalitetsanalyser blev oprindeligt designet til et naturvidenskabeligt, eksperimentelt forskningsdesign.

»I samfundsvidenskaberne er det blevet diskuteret, om bestemte typer af kausalitetsanalyser i det hele taget er forsvarlige,« forklarer sociolog Hjellebrekke.

I forhold til eksemplet med lidt søvn og hjertesygdom kan det være, at det er stress, der er den underliggende faktor, der både påvirker søvnen og risikoen for hjertesygdom.

»Fejlfortolkning af statistiske årsagssammenhænge er klassisk og velkendt, men det er alligevel noget, vi stadig ser,« siger Kvaløy fra Universitetet i Stavanger.

Hvis du vil læse mere om, hvordan man kender forskel på, om en sammenhæng er kausal eller en korrelation, så kan du læse Videnskab.dk's artikel 'Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?'.

7. Svært at få publiceret, når der ikke er fund

De foregående punkter viser, at der er mange valg, som forskere skal foretage, når de skal analysere et datasæt. Valgene påvirker resultatet, men det er ikke sådan, at forskerne nødvendigvis rapporterer om alle deres valg, når de skriver deres forskningsartikler.

På toppen af alle de skævheder, som det kan medføre, er der endnu et stort og alvorligt problem i videnskaben i dag: Publiceringsskævheden.

Det er meget lettere at få publiceret artikler med tydelige fund, og det er svært at få publiceret artikler uden fund. De sidstnævnte ender derfor ofte i skuffen.

Hvorfor er det et problem?

Hvis vi tænker tilbage på det punkt, der handler om at være på fisketur, husker vi, at med al forskning er der en risiko for at finde falsk positive fund. Hvis det bare er de positive fund, der bliver publiceret, danner der sig derfor et meget forkert billede til sidst.

»Det er ikke en fejl, som enkelte forskere begår, det er en fejl af hele det videnskabelige system,« siger Løland.

»Ring til en statistiker«

En af løsningerne på reproducerbarhedskrisen kan være at fremme en bedre og mindre mekanisk forståelse af statistik. P-værdien bør for eksempel ikke beskrives som et værktøj til at få det bevis, man har brug for at få noget publiceret. Når alt kommer til alt, er statistik ikke en garanti for sandheden.

Statistikken er et sprog, forskerne kan bruge til at snakke om tilfældigheder og usikkerhed. Den diskussion kan hurtigt blive meget kompliceret. 

»Det er let at lave fejl, men mange føler alligevel, at de har kompetencer nok,« siger NR-direktør, Holden.

I stedet for at sende alle forskere på en række statistikkurser tror han, at det er bedre at lave en kultur, hvor man kalder de virkelige eksperter ind.

»Ring til en statistiker i tide,« siger Holden.

»Ring, før du starter med at indsamle data. Post mortem-statistik er ikke altid så sjov,« siger Kvaløy.

Denne artikel blev første gang publiceret i fagbladet Forskningsetikk i december 2018.

©Forskning.no. Oversat af Sanni Jensen.

LÆS OGSÅ: Manifest: Få styr på tal og statistik

LÆS OGSÅ: Grønland i tal: Forstå verdens største ø gennem statistik

... Eller følg os på Facebook, Twitter eller Instagram.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.