Hvordan skal videnskabsfolk fortolke deres data? De kommer frem fra deres kontorer efter dage, uger, måneder, endda år, som er blevet brugt på at måle og optegne – men hvordan skaber forskere så konklusioner om resultaterne af deres undersøgelser?
Statistiske metoder er brugt af mange, men vores seneste forskning i Nature Methods afslører, at en af de klassiske videnskabelige statistikker, p-værdien, måske ikke er så pålidelig, som vi tror.
Forskere kan godt lide tal, fordi de kan sammenlignes med andre tal. Og ofte laves disse sammenligninger ud fra statistiske analyser for at formalisere processen.
Den brede idé bag alle statistiske analyser er, at de giver forskeren mulighed for at foretage nogle umiddelbart objektive vurderinger af resultaterne af deres undersøgelser.
Hvilken medicin er mest effektiv?
Forskere udfører ofte undersøgelser for at finde ud af, om der er forskel mellem to betingelser: bliver mennesker hurtigere bedre efter at have taget den blå pille (første betingelse) eller den røde pille (anden betingelse)?
Den mest almindelige metode til at vurdere, om der er forskel på pillernes effekt, er ved at lave en statistisk analyse, hvor nogle patienter fik en blå pille og nogle en rød, og ud fra dette bedømme, om der er stærk evidens for, at en farve er mere effektiv end den anden.
For at vurdere forsøgsresultatet bruger forskere ofte en ”p-værdi” (P står for probability).
Denne værdi bruges til at vise, hvor overbevisende disse resultater er: hvis P-værdien er lille, mener de, at deres fund er reelle og ikke blot en tilfældighed. Tager vi for eksempel vores pilleeksempel, så vil en lav p-værdi blive opfattet som et godt bevis for, at der er forskel i effekten af de to farvede piller.
Selvom P aldrig er bevis for, at der er en forskel – videnskabelige studier beviser aldrig noget, de giver blot en grad af evidens – studier med en lav p-værdi bliver anset for at være overbevisende, og bliver derfor sjældent gentaget for at sikre, at resultaterne er korrekte.
Det kan måske virke rimeligt, da der er begrænsede mængder penge og tid i videnskab – resultater fra et studie, der synes at være meget klare, retfærdiggør måske ikke dobletjek, når der er andre nye opdagelser derude, som skal gøres.
P-værdier er nogle lunefulde venner
Ikke desto mindre har vi fremlagt nogle simple modeller for at vise, at p-værdi ofte varierer meget, hvis et studie gentages.
Vores modeller skildrer et simpelt scenarie. Prøver er blevet målt ud fra to betingelser. En statistisk test, som kaldes t-test, blev udført for at undersøge, om der er stærk evidens for, at betingelserne er forskellige, og testresultatet er tolket ved generering af en p-værdi.
De to betingelser i vores scenarie er ganske forskellige, og derfor vil vi nok forvente, at en fornuftig prøvestørrelse vil afsløre denne forskel. Det vil sige, at en fornuftig prøvestørrelse vil give en lav P-værdi knyttet til t-testen. Men når vi gentager modellen mange gange, opdager vi, at p-værdien varierer opsigtsvækkende hver gang.
Hvis din ven har inviteret dig over til middag i næste weekend, men i dagene op til bliver ved med at ringe til dig og give dig nye tidspunkter for, hvornår du skal komme, vil du hurtigt opdage, at du ikke er spor sikker på, hvad tid middagen faktisk er. På samme måde bliver p-værdien upålidelig og et dårligt mål for, hvor stærk evidensgrundlaget er for et enkelt forsøg, hvis den varierer betydeligt hver gang, man laver en undersøgelse.
Det har store implikationer for dataanalyser – en lav p-værdi udbytte fra et studie kan have lige så meget med held at gøre, som det har med tilstedeværelsen af et vigtigt mønster i dataet at gøre, og i tillæg vil en gentagelse af forsøget måske resultere i en helt anden p-værdi.
Derfor kan en lav P-værdi for et enkelt forsøg ikke anses for at være stærkt evidensgrundlag for, at der er en forskel mellem betingelserne.
Denne svaghed kunne meget vel forklare, hvorfor berømte videnskabelige fund fra fortiden, som er centrale for grundlæggelsen af mange discipliner, ikke bliver bekræftet, når de oprindelige studier nu omsider bliver eksamineret igen.
Disse omfatter en mangel på reproducerbarhed inden for cancerforskning, så vel som det åbenbare tab af fænomenet, der kaldes ”verbal overskygning”, hvor mennesker, der får vist et ansigt og bliver bedt om at beskrive det, er mindre tilbøjelige til at genkende ansigtet senere, end hvis de bare havde set på det.
Så hvorfor er p-værdien så foranderlig, så lunefuld? Desværre lader det til, at en vis grad af omskiftelighed mellem prøverne for hver gang et eksperiment afprøves, skaber en ustabil p-værdi.
Hvordan kommer vi videre?
Så hvis ikke p-værdien, hvad skal vi så bruge til at analysere og tolke vores data? Vi argumenterer for et fundamentalt skift i vores måde at tænke på, væk fra at stille spørgsmålet ”er der en forskel?” og i stedet spørge ”hvor stor er forskellen?”. Når alt kommer til alt, ønsker forskere sjældent at vide, om der er forskel mellem betingelserne.
Der er altid forskel, selv hvis den er ekstremt lille. Det er mere relevant at spørge, om forskellen er stor nok til at være interessant, til at være vigtig. Hvis effekten af den røde pille kun er 0,01% større end den blå pilles effekt, så er der forskel mellem dem, men den er ikke bemærkelsesværdig – i praksis er den ene pillefarve lige så god som den anden.
P-værdien kan skrottes og forskere kan i stedet fokusere på, hvor stor forskel der er mellem betingelserne ifølge deres eksperiment. De kan også give nem-at-beregne-værdier over, hvor præcis denne forskel er tilbøjelig til at være, når den generaliseres uden for laboratoriet.
Så når først dataindsamlingen er slut, bør forskere fokusere på at vurdere, hvor stor forskellen er i effekten af de blå og røde piller, og hvor præcis dette estimat er tilbøjeligt til af være. Forskere kender allerede til disse simple begreber – effektstørrelse og kofidensinterval – de skal blot begynde at lægge vægt på dem, og lade p-værdien blive en ting, der hører fortiden til.
Desværre, mens nogle få tidsskrifter nu er begyndt at forbyde p-værdien i anerkendelse af nogle af dens fejl, har i hvert fald et tidsskrift for nylig også forbudt konfidensintervallet, åbenbart fordi dens præcise statistiske definition risikerer, at det bliver overfortolket og misforstået.
Et fornuftigt modsvar til dette perspektiv er, at konfidensintervaller er et vigtigt værktøj til at estimere udkanten af fejl omkring vores fund – de er et vigtigt mål, når vi skal oversætte vores dataprøver, som vi har samlet i laboratoriet, i en forståelse af scenarier i den virkelige verden, hvor resultater virkelig har betydning.
Lewis Halsey hverken arbejder for, rådfører sig med, ejer aktier i eller modtager fondsmidler fra nogen virksomheder, der vil kunne drage nytte af denne artikel, og har ingen relevante tilknytninger. Denne artikel er oprindeligt publiceret hos The Conversation.