800 forskere advarer: Statistisk signifikans og p-værdien giver ikke retvisende forskningsresultater
Det kan føre til, at politikere, som støtter sig til forskning, ender med at tage beslutninger på et forkert grundlag, advarer forskerne.
Statistisk signifikans misbrug metode forskningsresultat konklusion fund grænseværdi tilfældigheder p-værdi usikkerhed

Når forskerne eksempelvis tester, hvor godt en medicin virker, er det let at tro, at de enkelte statistiske mål fortæller mere, end de egentlig gør. 800 forskere advarer i et opråb mod misbrug af statistisk blåstempling af resultater. (Foto: Shutterstock)

»Jeg håber, at kommentaren i Nature endelig vil få forskerne til at vågne op,« skriver Sandra Hamel i en email til forskning.no, Videnskab.dk's norske søstersite.

Hun er lektor ved Universitetet i Tromsø (UiT) Norges arktiske universitet.

Sandra Hamel er blandt de 800 forskere fra mere end 50 forskellige lande, som har skrevet under på et opråb, der advarer om brugen af statistisk signifikans i tidsskriftet Nature.

Et almindeligt forskningsredskab bliver misbrugt, mener de.

Artikelserie om statistisk signifikans

Videnskab.dk har i en artikelserie sat fokus på forskernes brug af begreberne statistisk signifikans og p-værdi.

Læs også artiklerne:

Læs mere om emnet i vores tema data og tal.

Trætte af misbruget af begrebet 'statistisk signifikans'

Det er umuligt at fastslå helt nøjagtigt, hvor grænsen går, for at man kan kalde et forskningsresultat 'sikkert nok'. Her er vi nemlig oppe mod en  glidende skala af usikkerhed.

Forskerne fastlægger dog alligevel ofte en sådan grænse, og havner resultatet indenfor denne grænseværdi, bliver det anset som gyldigt.

Hvis ikke, ender studiet ofte i skraldespanden.

Dét er netop, hvad mange forskere har set sig gale på: At en tilfældig valgt grænse skal bestemme, om et fund er signifikant, og at forskerne tolker det som et solidt fund.

Forskerne bag opråbet vil gerne sende begrebet på pension.

»Misbruget af statistisk signifikans har skadet de forskellige forskningsmiljøer og dem, som er afhængige af videnskabelige råd,« skriver forskerne, som arbejder indenfor alt fra biologi til psykologi og medicin.

P-værdien bestemmer, hvor gyldig en konklusion er

Forskerne sætter grænsen for, hvornår en konklusion anses for gyldig, med et tal, som kaldes p-værdien (probability value). Læs også boksen under artiklen.

I statistikkens verden viser p-værdien i praksis, hvor usikre forskerne er på, om forskningsresultatet skyldes tilfældigheder.

Det kunne eksempelvis være, at forskerne gerne vil vise, at der rent faktisk er flere i Norge, som får influenza om vinteren end om sommeren. Her er det naturligvis vigtigt for dem at vise, at de ikke udelukkende har studeret de stakler, som lå på langs med influenza lige én vinter.

Der er bare alligevel altid fare for, at forskerne tilfældigvis ender med at studere personer, som ikke repræsenterer befolkningen. 

LÆS OGSÅ: Statistiske faldgruber: Derfor er det afgørende at fortælle, hvad man vil undersøge

Kan få konsekvenser for samfundet

»Det største problem er, at forskerne - som så mange andre - ser verden som sort-hvid,« skriver Sandra Hamel, som arbejder ved Institut for arktisk og marinbiologi.

Men det var aldrig tanken bag p-værdien (at den skulle bruges til at blåstemple eller afvise forskningsresultater, red.) , mener hun.

»Det er dét, som er misbruget.«

Noget, som skal afsløre usikkerheden i forskningen, bliver altså brugt som et skråsikkert svar, påpeger forskerne.

Det kan føre til, at politikere, som støtter sig til forskning, ender med at tage beslutninger på et forkert grundlag. Politikerne risikerer også at gå glip af vigtige forskningsresultater, som bliver frasorteret.

Det har Sandra Hamel og mange andre kæmpet mod i flere år. Nu står de sammen for at gøre kål på uskikken.

Man risikerer at forkaste interessant forskning

P-værdien er et tal, som viser, hvor mange procents sandsynlighed der er for, at forskeren opnår et bestemt resultat i sit studie - selv om resultatet ikke gælder for hele den gruppe, som han/hun forsøger at sige noget om.

Er værdien på 5 procent eller derunder, er risikoen for, at forskeren er på glatis, lille.

P-værdien kan være alt fra 0 til 100 procent - jo lavere værdi, desto bedre.

Men hvad er konsekvensen af, at et resultat bliver anset for at være tilstrækkelig solidt, hvis p-værdien er 4 procent, men ikke hvis den er 6 procent?

»Man risikerer at forkaste interessante resultater, fordi p-værdien ikke er 'signifikant'« skriver overlæge Preben Aavitsland ved Folkehelseinstituttet i Norge i en email til forskning.no.

Preben Aavitsland er ligeledes af den mening, at vi helt skal holde op med at benytte statistisk signifikans.

LÆS OGSÅ: Misbrug af p-værdi fordrejer udgivelse af forskning

P-værdien benyttes i flæng

Når forskere indenfor eksempelvis biomedicin opgiver p-værdier i deres artikler, benytter de det i 96 procent af artiklerne for at slå fast, at et fund er gyldigt, fordi det havner indenfor den hyppigst brugte grænse på 5 procent.

Tidskrifter publicerer oftest artikler, som konkluderer, at der er en korrelation - altså, et statistisk sammenfald, i modsætning til kausalitet - en årsagssammenhæng.

LÆS OGSÅ: Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?

Forskerne bag opråbet henviser til tidsskriftet, The American Statistician, som har viet en hel udgave til problemstillingen.

»Forskningsverden er gået besærk,« erklærer forskerne bag en af de 43 artikler.

I lederartiklen står der:

»Det er på tide, at man helt holder op med at bruge begrebet 'statistisk signifikant'.«

»Vi får se, om det lykkes, for misbruget af p-værdien er meget udbredt,« konkluderer endnu en artikel i tidsskriftet.

Fortæller ikke den sande historie

Der er flere problematikker forbundet med misbruget af p-værdien til at påvise statistisk signifikans.

»Når folk hører 'statistisk signifikant', tænker de, at det 'har betydning', eller 'det er et vigtigt resultat', eller noget i den dur. Det er en uheldig sammenblanding,« skriver Torstein Låg, som er fagansvarlig ved psykologi- og jurabiblioteket ved UiT. 

Han har kun ganske lidt til overs for begrebet.

Ofte fortolker forskerne selv for meget ind i p-værdien. Den fortæller os nemlig ikke, om det svar, de har fundet, er sandt. 

»P-værdien kan ikke afdække troværdigheden, forekomsten, sandheden eller vigtigheden af en korrelation eller effekt,« som The American Statistician skriver i lederartiklen.

Bør fremgå, HVOR stærk en korrelation er

Flere af de forskere, som forskning.no har været i kontakt med, mener, at forskerne bør koncentrere sig mere om, hvor stærk korrelationen er - og ikke bare om der er en korrelation.

Øystein Sørensen er lektor ved Universitetet i Oslo (UiO) og arbejder med psykologi. 

Han nævner et hypotetisk eksempel, hvor forskning viser, at personer, der motionerer, lever længere end personer, som ikke motionerer.

Hvis effekten af motionstræningen er 0,01 år længere levetid, har det en helt anden betydning for folkesundheden, end hvis motionisterne lever 5 år længere.

»Det kan p-værdien ikke fortælle os noget som helst om,« skriver Øystein Sørensen i en email.

Men han mener, at man godt kan bruge den - på den rigtige måde og sammen med andre mål.

LÆS OGSÅ: Forsker sår tvivl om videnskabelig metode: 'Vi kan ikke stole på p-værdi'

Samme resultat - forskellig konklusion

P-værdien siger altså ikke noget om, hvor stærk en korrelation (sammenfald) er.

Forskerne bag opråbet refererer til et eksempel, hvor forskerne skulle måle, om visse typer betændelsesdæmpende medicin kunne forstyrre hjerterytmen.

To studier fandt nøjagtigt den samme effekt: Der var 20 procent større risiko for hjerteproblemer blandt patienter, som tog denne slags medicin.

Studie nummer 1 konkluderede, at der var en sammenhæng mellem medicinbrugen og hjerteproblemer, mens studie nummer 2 konkluderede, at der ikke var en sammenhæng.

Hvordan kunne forskerne drage så forskellige konklusioner?

Fordi forskerne bag det første studie opnåede en p-værdi, som var statistisk signifikant. Det gjorde det andet forskerteam derimod ikke, hvorfor konklusionen altså blev, at der ikke var en kobling mellem medicinen og hjerteproblemer.

Men! Når vi ser nærmere på resultaternes usikkerhed, viser studie nummer 1, at risikoen for hjerteproblemer er mellem 9 og 33 procent større blandt patienterne, som tager den betændelsesdæmpende medicin.

Studie nummer 2 viser, at risikoen er mellem 3 og 48 procent. 

Resultatet af studie nummer 1 er altså mere præcist end resultatet af studie nummer 2, men studie nummer 2 viser også en risiko. Det er derfor forkert at konkludere, at den betændelsesdæmpende medicin ikke har en forstyrrende effekt på hjerterytmen.

Forskerne bør formidle netop denne risiko, mener gruppen af forskere bag opråbet. LÆS OGSÅ: Sådan sjusker forskere med statistik

P-værdien skal ledsages af en række andre mål

Hvad er alternativet til statistisk signifikans?

Erkendelse af, at p-værdien er en flydende størrelse, og ikke en defineret grænse.

Vi har brug for forholdsregler, der kan afgøre, hvad der er solid forskning.

Vi skal kombinere p-værdien med en række andre mål, som kan fortælle mere om forskningsresultaterne, lyder det i en af artiklerne i The American Statistician.

Forskerne bør ikke slippe afsted med p-værdien, understreger forskerne bag opråbet.

Det betyder ofte mere, hvordan studiet er gennemført, og hvordan forskerne forklarer deres resultater.

LÆS OGSÅ: Manifest del 4: Få styr på tal og statistik

Skal favne usikkerheden

Kulturen omkring statistisk signifikans betyder, at mange forskere tager skyklapper på og forsøger at undgå at beskæftige sig med usikkerhed.

Men i den virkelige verden sender statistikken ret rodede budskaber ud, rapporterer lederartiklen i The American Statistician.

Forskerne skal blive bedre til at formidle, at de resultater, de præsenterer, er usikre. De skal lære at favne usikkerheden, opfordrer forskerne bag opråbet i Nature.

Men det er ikke så let for os mennesker, mener Simen Gaure. Han er matematiker og forsker ved Frischcenteret i Oslo.

»Folk er ikke trygge ved usikkerhed. De vil helst have, at forskerne siger ja eller nej,« siger Simen Gaure. Han slutter:

»Princippet bag statistiske undersøgelser er, at du skal tage højde for usikkerhed, og så kan du ikke lave et ja/nej svar! Vi må acceptere, at verden er kompliceret.«

©Forskning.no. Oversat af Stephanie Lammers-Clark.

LÆS OGSÅ: P-værdier er også for humanister

LÆS OGSÅ: Nature og Science: Prestige ikke lig med troværdigt indhold

Historien bag p-værdien

Videnskab.dk's Forskerzonen, hvor forskerne selv skriver artikler, har tidligere bragt artiklen P-værdien – misbrugt, men ikke forladt, hvor historien bag begrebet forklares:

En eftermiddag i Sydengland omkring år 1919 skænkede biologen Ronald Fisher en kop te og rakte den til sin kollega frøken Muriel Bristol. Hun afslog med den begrundelse, at hun foretrak te fra en kop, hvor mælken er hældt op før teen – frem for en kop, hvor teen er hældt op først.

Da hun insisterede på, at hun kunne smage forskel, foreslog en tredje tilstedeværende ved navn William Roach en blindsmagning. Den blev gennemført, og Roach erklærede begejstret, at Muriel faktisk kunne afgøre, om mælk eller te var kommet i koppen først.

Han var måske ikke helt objektiv (han blev senere gift med Muriel), og detaljerne omkring Muriels præstation er desværre udokumenterede. Men episoden med teen fik kolossal betydning for praktisk videnskab.

Ronald Fisher var nemlig en stor matematisk begavelse og spillede en central rolle for udviklingen af principper for statistisk behandling af forsøgsresultater, som anvendes flittigt af moderne forskere.

Fisher beregnede 'nulhypotesen'

Te-eksperimentet blev udgangspunkt for en berømt gennemgang i Fishers lærebog 'The Design of Experiments'.

Her sagde han: »Antag, at der er otte kopper. I fire af dem er mælken hældt op først, i de sidste fire teen først. De otte kopper præsenteres for Muriel i tilfældig rækkefølge. Hvis hun præcist udpeger de fire kopper, hvor mælken kom i først, kan vi så konkludere, at hun faktisk kan identificere blandingsrækkefølgen?«

Fishers ræsonnement var følgende: Hvad nu, hvis Muriel ikke kan smage forskel, men bare gætter?

Under denne antagelse, som Fisher kaldte 'nulhypotesen', hvor stor er så sandsynligheden for, at hun – rent tilfældigt – ville udpege de fire rigtige kopper som i forsøget?

Man kan beregne svaret til 1/70 eller knapt halvanden procent. Da denne sandsynlighed er lille, må vi forkaste nulhypotesen om gætteri og anerkende Muriels evner som tesmager.

De halvanden procent kaldes for p-værdien (probability value). Lidt forenklet er p-værdien generelt sandsynligheden for, at man ville få det observerede forsøgsresultat, hvis nulhypotesen er sand.

Læs mere om kontroverserne omkring p-værdien i artiklen P-værdien – misbrugt, men ikke forladt.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.