Statistik: Sådan fisker forskere efter resultater
Forskere er sommetider så optagede af at få et »rigtigt« resultat, at de - bevidst eller ubevidst - fifler med statistikken.
fisk statistik p-værdi statistisk signifikans

Forskere kan let blive fristede til at gå på fisketur i statistikken. Men det kan være problematisk. (Foto: Shutterstock).

Han ville bevise, at du køber flere og mere usunde varer, hvis du handler på tom mave.

Og at folk spiser al den mad, de har på tallerkenen, selvom de egentligt er mætte.

Men den kendte amerikanske spisevaneforsker og professor Brian Wansink endte med at måtte forlade sit job på Cornell University på grund af en række eksempler på uredelig forskning.

Hans fremgangsmåde viser, hvor galt det kan gå, når forskere fifler med statistikken.

Wansink undersøgte mange sammenhænge på én gang

Udover statistiske selvmodsigelser, selvplagiering og usandsynlige ligheder i resultater fra helt forskellige forsøg, begik Wansink en meget almindelig fejl.

Han undersøgte mange sammenhænge på én gang.

Fandt han ikke noget umiddelbart interessant blandt alle deltagerne i sit studie, så ledte han på nye måder i mindre grupper.

Hvis prisen på en buffet for eksempel tilsyneladende ikke påvirkede, hvad restaurantgæster mente om den mad, de havde spist, skiftede han fokus.

I stedet kiggede han så kun på kvinder, kun på mænd, kun på dem, som sad alene, eller kun på dem, der spiste sammen.

På den måde kunne han finde sammenhænge, opsummerer det amerikanske nyhedssite Buzzfeed.

LÆS OGSÅ: Statistiske faldgruber: Derfor er det afgørende at fortælle, hvad man vil undersøge

Artikelserie om statistisk signifikans

Videnskab.dk har i en artikelserie sat fokus på forskernes brug af begreberne statistisk signifikans og p-værdi.

Læs også artiklerne:

Læs mere om emnet i vores tema data og tal.

Misbrug af statistik

Det, som Wansink gjorde, kaldes at “fiske” efter p-værdier eller “datafiskeri”.

»Den mest almindelige måde at gøre det på er - bevidst eller ubevidst - at lede lidt for meget i sit datasæt uden at have en klar plan for det,« siger psykolog og ph.d.-studerende på Universitetet i Oslo Jan-Ole Hesselberg, som er medlem af den nationale forskningsetiske komité for medicin og sundhedsstudier.

Udover kun at kigge på nogle af deltagerne i et studie er en anden almindelig strategi simpelthen at fjerne nogle deltagere, som stikker meget ud, og lave analysen uden dem.

Der er ikke noget galt i at undersøge flere sider af materialet, som forskerne har samlet ind, mener Hesselberg, som også er ledende fagchef i ExtraStiftelsen.

Problemet var, at Wansink og hans kollegaer lod som om, dette var deres plan hele tiden, men hvor de så først formulerede spørgsmålene efterfølgende.

»Så snart du begynder at teste flere ting, må du korrigere for det i analyserne. Du bliver desuden nødt til at fortælle, hvad du har gjort, så andre kan tage højde for, at der er blevet foretaget flere forskellige analyser,« siger Hesselberg.

Fristet til p-fiskeri

Man bliver nemt revet med i jagten på et spændende resultat.

Det er kedeligt, når man ikke finder nogle sammenhænge, og sådanne studier bliver sjældent offentliggjort.

Som mange andre forskere var Wansink optaget af at komme under en specifik statistisk grænse, for at kunne slå fast at hans resultater var gyldige.

»Du bliver fristet til at fiske, indtil du har nået den grænse,« siger Hesselberg.

Det tal, som markerer grænsen, kaldes p-værdien.

Det viser, hvor mange procent sandsynlighed, der er, for at forskeren får et bestemt resultat i sin undersøgelse, selvom det ikke er tilfældet for hele den gruppe, han prøver at sige noget om.

Er sandsynligheden bare 5 procent - altså, p-værdien 0,05 - er chancen for, at han er helt skævt på den, lille.

LÆS OGSÅ: Misbrug af p-værdi fordrejer udgivelse af forskning

Der har dannet sig en kultur - eller måske en ikke-kultur - i forskerkredse om, at sandsynligheden må ligge under fem procent, for at kunne sige at et fund er godt nok.

Sådanne fund kaldes statistisk signifikante.

Forskere bag et opråb i tidsskriftet Nature mener, at dette er et misbrug af statistikken. For grænsen er tilfældigt sat, og den fortæller ikke noget om, hvorvidt en opdagelse er sand.

P-fiskeri: Som at spille yatzy, uden at vide hvor mange gange modstanderen kaster terningerne

Psykolog Jan-Ole Hesselberg sammenligner p-fiskeri med at spille yatzy, men hvor deltagerne ikke fortæller, hvor mange kast de laver. Du får kun lov til at se resultatet.

Brugte de 3 eller 100 kast på at få yatzy?

»Antallet af kast påvirker i højeste grad sandsynligheden for, at de får de resultater, de ønsker sig,« siger Hesselberg.

»Ville du spille med nogen, når du ikke vidste, hvor mange kast de har taget?«

Hvis en terning falder på gulvet og havner i en sprække, som gør det umuligt at se, hvad terningen viser, er det nødvendigt at kaste på ny.

»Men du bliver nødt til at vide, hvorfor de vil kaste igen,« siger Hesselberg.

P-fiskeri forstyrrer resultaterne

Hvad er problemet med, at forskere fortæller om resultater, som de falder over i deres studier?

De kan vel også være interessante, selvom om de ikke var præcis det, forskerne ledte efter?

Hvis man laver mange undersøgelser om de samme mennesker, så øges risikoen for, at den sammenhæng, der fremstår som gyldig, i realiteten skyldes tilfældigheder i udvalget af deltagere.

»Begynder du at lede efter sekundære effekter, så er det mere sandsynligt, at effekter du finder ikke er ægte,« siger professor i statistik fra Universitetet i Stavanger, Jan Terje Kvaløy.

Forskeres antagelser om, hvad der er sandt, kaldes hypoteser.

Hvis du tester 20 forskellige hypoteser på det samme datamateriale, bør du stille skrappere krav til, hvilken p-værdi der er lav nok, mener Kvaløy.

LÆS OGSÅ: P-værdien – misbrugt, men ikke forladt

Det er almindeligt at definere et fund som signifikant, når p-værdien er lavere end 0,05. Med 20 hypoteser kan du dele dette tal med 20.

Kvaløy siger, at denne type justering er ligetil, når forskere har et moderat antal hypoteser men bliver mere svært, hvis antallet af hypoteser er stort.

Så bliver p-værdien så lav, at den er svær at opnå. Han siger, at der også er tre andre metoder.

Men det vigtigste er, at forskere fortæller klart og tydeligt, om de kun har testet en hypotese, eller om de har fisket efter lave p-værdier og signifikante resultater, mener Kvaløy.

Kan inspirere til nye undersøgelser

Hvis du ændrer fokus undervejs, tester du strengt taget ikke længere den sammenhæng, du sagde, du ville undersøge, da du formulerede hypotesen, før du gik i gang.

Alligevel kan resultater, man falder over tilfældigt, godt være interessante, mener Kvaløy.

»Ikke alt, man finder på en fisketur, er nonsens,« siger han.

»Nogle gange kan man finde guldæg, når man leder på den måde. Men du kan ikke med sikkerhed sige, om det var en tilfældig eller reel effekt.«

Du kan derimod få en idé om, hvad der kan være godt at kigge nærmere på næste gang.

»Resultatet bør derfor kun have status som noget, som kan være interessant at undersøge videre i nye, uafhængige studier,« siger han.

LÆS OGSÅ: Sådan sjusker forskere med statistik

Kvaløy mener, forskere må være tydelige, hvis de skifter retning i deres forskning. De må heller ikke overdrive betydningen af resultater, som ikke er direkte knyttet til hovedhypotesen, altså, den hypotese, som man først og fremmest tester.

Hvis man for eksempel skal teste en ny type blodtryksmedicin og undervejs opdager, at den ikke har nogen effekt på blodtryk, men at den derimod ser ud til at fungere mod hovedpine, så skal man lave et nyt studie, hvor man undersøger, om medicinen rent faktisk virker mod hovedpiner.

Wansink afslørede sig selv

Spisevaneforskeren Wansink afslørede på en måde sig selv.

Andre forskere begyndte at undersøge han studier, fordi professoren i en blog mere eller mindre opfordrede studerende til at bruge tvivlsomme teknikker til at fremme deres karriere, ifølge den britiske avis The Guardian.

Han nævnte endda fem studier, hvor studerende havde gjort sådanne ting. Studier, som Wansink selv havde været involveret i.

De andre forskere regnede på, om resultaterne virkede rimelige. Det endte med, at flere af Wansinks videnskabelige artikler blev trukket tilbage.

Svært at opdage tvivlsomme metoder

Ofte er det vanskeligt at opdage p-fiskeriet.

»Problemet er, at det i de fleste tilfælde er umuligt at vise, at det bliver gjort bevidst. Men ser man på det store billede, er det tydeligt, hvis det bliver gjort,« siger Hesselberg.

Han henviser til et studie publiceret i The Quarterly Journal of Experimental Psychology, som dokumenterer, at påfaldende mange psykologiresultater havner akkurat inden for den 'magiske' grænse for statistisk signifikans.

»Det burde ikke ske, hvis alle gør som planlagt. Men hvis man fisker efter p-værdier, er det helt naturligt. Det er ofte ikke godt at vide, hvad forskeren ledte efter i udgangspunktet.«

Som leder for kampagnen AllTrials i Norge kæmper Hesselberg for, at alle studier skal registreres, før de sættes i gang. Så bliver det nemlig lettere efterfølgende at tjekke, om forskerne har gjort det, de planlagde.

En gennemgang fra projektet Compare Trials af studier, som faktisk blev forhåndsregistreret, viser, at mange forskere ændrer plan undervejs uden at fortælle om det i den videnskabelige artikel.

Magtstudie kunne ikke reproduceres

Et vigtigt princip i forskningen er, at flere forskere skal kunne finde det samme resultat, hvis de laver lignende studier. På denne måde er man mere sikker på, at konklusionerne faktisk stemmer.

Men i mange studier får forskere ikke samme resultat, når de prøver at genskabe andres studier.

Det bliver kaldet en reproduktionskrise, og den er er ganske velkendt i samfundsforskningen.

Et eksempel på et studie, som ikke lod sig gentage, er et psykologisk eksperiment, som antydede, at dit eget kropssprog kan påvirke dig.

Ph.d. og psykolog Amy Cuddy og hendes kolleger mente at kunne bevise, at hvis du står med spredte ben eller sidder med benene på skrivebordet, føler du dig mere magtfuld, og derfor vil du handle mere magtfuldt ud fra dette.

De målte også færre stresshormoner og mere testosteron hos deltagerne som stod i en sådan »power pose.«

Men andre forskere fik ikke samme resultater, da de prøvede at lave studiet påny.

Cuddy fik massiv kritik, opsummerer den amerikanske avis The New York Times.

Til sidst valgte en af hendes kollegaer, der var med til at lave studiet, at tage afstand fra konklusionen. I en udtalelse på sin egen hjemmeside nævnte hun p-fiskeri.

Er der krise i forskningen?

Men at forskere får en anden p-værdi, når de gentager et studie, betyder ikke nødvendigvis, at det forrige resultat var forkert.

Det er nemlig helt naturligt, at studier får forskellige p-værdier, skriver forskerne bag en artikel i tidsskriftet The American Statician.

Forskerne kan ikke konkludere, at det forrige studie ikke kan gentages, fordi de nye resultater ikke når grænsen for signifikans, mener de.

For i det nye forsøg er det trods alt ikke præcis samme mennesker eller omstændigheder.

Hvad så hvis der ikke er nogen krise i forskningen alligevel?

Det er ikke en krise, hvis vi ikke forventer at kunne gentage studiet, hævder forskerne.

Men det er ikke kun p-værdien, som antyder, at vi en krise. Ofte er sammenhængen svagere i gentagelsen end i det oprindelige studie. Og styrken på effekten bliver man nødt til at sammenligne fra studie til studie, siger Hesselberg.

Forskernes forhold til statistisk signifikans kan sammenlignes med alkohol

Når studier giver forskellige resultater, kan forskerne bliver mere sikre på svaret ved at foretage store opsamlingsstudier, der regner på resultaterne fra flere enkeltstudier samtidig.

Muligheden for akkumuleret viden hænger også sammen med, hvordan forskningen bliver forstået.

Når forskerne skal præsentere studier, må de overveje en række andre faktorer end p-værdien, understreger forskerne i The American Statician.

I stedet for at fokusere på usikre resultater bør de både beskrive, hvordan studiet blev gennemført, hvilke problemer der opstod undervejs og de tal, der kom ud af analysen.

Forskerne i The American Statician sammenligner forskernes forhold til statistisk signifikans med alkohol:

Det er ikke skadeligt, hvis man bruger det på en fornuftig måde, men det er nemt at blive afhængig.

Både alkohol og statistiske metoder kan give tro på enkle løsninger uden negative konsekvenser.

LÆS OGSÅ: Fup-forsker: Jeg snød millioner til at tro, at chokolade slanker

LÆS OGSÅ: Pas på disse faldgruber, når du læser statistik

©Forskning.no. Oversat af Marie Hohnen. 

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.