Statistiske faldgruber: Derfor er det afgørende at fortælle, hvad man vil undersøge
Forskeres tilgang påvirker både deres resultat og hvor sikkert, det er. Bliv klogere på metode, statistik og p-værdi.
Statistik, p-værdi, tilfældigheder, sammenfald, korrelation, kausalitet, sammenhæng, faldgruber

Statistik kan bøjes i den retning, man lyster. Vi skal passe på med at stole for meget på begreber som sammenhæng og p-værdi. (Foto: Shutterstock)

Forskere skal sørge for at fortælle, hvad de vil undersøge, inden de går i gang med at undersøge det. Ellers er der alt for stor risiko for, at de finder tilfældigheder i stedet for fakta.

Sådan lyder den korte version af, hvorfor det er vigtigt at oplyse til myndigheder og rette organer, hvad man har tænkt sig at udforske, når man laver forsøg på mennesker.

Videnskab.dk har talt med tre forskere: Mikkel Willum Johansen fra Københavns Universitet, Jens Olav Dahlgaard fra CBS samt Christian Gluud fra Copenhagen Trial Unit, Center for klinisk interventionsforskning, i København.

Her har vi sat deres input sammen til en artikel, der kan gøre dig lidt klogere på videnskabelige studier som for eksempel et studie i sammenhængen mellem tarmbakterier og vores chance for at tabe os af sund kost, som Videnskab.dk har beskrevet i en anden artikel.

Stort materiale – tilfældige sammenhænge

Grundlæggende kan man undersøge et emne på flere måder: Meget overordnet eller mere konkret (du kan læse flere detaljer i artiklen Hvad er videnskabelig metode?).

Vil man lede efter sammenhænge, man ikke kender i forvejen, er det oplagt at kaste sig over den overordnede løsning ved at se på et stort materiale med tal eller andre oplysninger på mennesker.

Går du på jagt i et stort materiale efter sammenhænge, er der god sandsynlighed for, at du finder én eller anden. Til gengæld er den sammenhæng meget usikker, og tit vil den enten dække over, at en udenforstående faktor spiller ind eller blot være en ren tilfældighed.

Sammenhæng/sammenfald

En sammenhæng i data kan groft sagt skyldes én af tre muligheder:

  1. En ren tilfældighed
  2. En korrelation – et sammenfald af to elementer, som dog ikke afhænger eller er påvirket af hinanden. En tredje faktor kan være i spil.
  3. En kausalitet – de to elementer (i statistik kaldet »variabler«) hænger sammen (er associerede), og den ene faktor påvirker den anden i bestemt retning.

Læs mere i artiklen Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?

Et eksempel: Hvis man dykker ned i tal for, hvordan folk omkommer, og samtidig dykker ned i tal for omsætningen i den danske fødevarebranche, vil man givet opdage, at flere drukner, samtidig med at bliver der solgt mange is. Det kunne indikere en sammenhæng.

Heldigvis kan man i sådan et tilfælde bruge sin sunde fornuft og formentlig regne ud, at sammenhængen nok mest er, at der er en tredje faktor på spil: At folk spiser is om sommeren, hvor de også bader mest – og ikke at Kung Fu-is i sig selv får folk til at drukne.

Men hvad nu, hvis man undersøger noget, som vi intet aner om på forhånd, for eksempel præcis hvilke tarmbakterier der har hvilke funktioner i vores krop?

Hvis man søger bredt efter sammenhænge mellem nogle af vores hundredvis af bakterietyper i tarmen, og hvilke sygdomme, hvilken højde, øjenfarve, hvilket uddannelsesniveau eller BMI vi har – uden nogen særlige forestillinger om, hvad man mere præcist skal kigge efter – risikerer man netop at finde tilfældige eller pudsige sammenfald (korrelation).

Derfor vil det kræve en hel del mere forskning bagefter for at fastslå, om der er en reel sammenhæng mellem tallene (kausalitet), og hvad den observerede sammenhæng skyldes.

Statistik, p-værdi, tilfældigheder, sammenfald, korelation, kausalitet, sammenhæng

Et eksempel på et pudsigt sammenfald af faktorer, der næppe hænger direkte sammen: USA's udgifter til bl.a. videnskab følger antallet af selvmord ved bl.a. kvælning. (Graf: tylervigen.com)

Specifik undersøgelse – mulig sammenhæng

Fortæller du i stedet på forhånd, at du leder efter en specifik sammenhæng, er der også større chance for, at du finder ud af, om verden virkelig hænger sådan sammen.

Hvis du for eksempel beder en gruppe mennesker spise Kung Fu-is og bagefter holder øje med, om de drukner, opdager du formentlig hurtigt, at de to ting næppe hænger tydeligt sammen, selvom det store datamateriale antydede det.

Du får med andre ord en mere solid og troværdig undersøgelse, hvis du har fastlagt en hypotese på forhånd.

Det er altså to forskellige typer undersøgelser:

  1. Den brede undersøgelse i et stort materiale kalder man for en eksplorativ undersøgelse – man udforsker et område uden at have nogen særlige hypoteser for, hvad man støder på.
  2. Den mere konkrete kalder man for en hypotesetestende undersøgelse – man formoder, at verden hænger sammen på en given måde, og efterprøver det helt specifikt.

Så langt, så godt. Hvordan bedømmer man så, om en undersøgelse af den ene eller den anden art overhovedet finder frem til noget, der beskriver virkeligheden uden for et videnskabeligt forsøg?

P-værdi antyder, om et fund er solidt

Jo, når forskere laver forsøg, vil de gerne fjerne statistiske usikkerheder, for eksempel usikkerheder ved resultatet, der indikerer, at is får os til at drukne. Det gør de ved at lave flere undersøgelser, tit er det beregninger eller inklusion af andre faktorer, der indikerer, hvor stor risikoen er for at have ramt forkert.

Det lugter måske lidt at hokuspokus, men tallet er centralt i stort set al forskning. Tallet skal helst være på under fem procent, hvis man skal tale om statistisk sikkerhed. Forskere kalder tallet for p-værdien.

Hvis en p-værdi er på over 0,05 (fem procent), er der så stor usikkerhed ved resultatet, at det videnskabeligt set ikke tyder på en sammenhæng.

Lav p-værdi er ingen garanti

Jens Olav Dahlgaard, adjunkt på Department of Business and Politics ved CBS, gør opmærksom på, at bare fordi man kan fremvise et resultat med en p-værdi på under 0,05, betyder det langt fra altid, at man har fundet en sikker sammenhæng.

Man kan rent statistisk sagtens knytte is og dødsfald sammen i en statistik med en p-værdi på under 0,05. Problemet er, at regnestykket frem mod p-værdien kan overse eller udelade andre vigtige sammenhænge – i dette tilfælde det gode sommervejr. P-værdien er altså først en solid pejling af resultatets troværdighed, når man ved, at man har regnet alle relevante faktorer med.

Jens Olav Dahlgaard tilføjer dog, at der selv da er forskel på p-værdiers troværdighed. Man vil være mindre tilbøjelig til at ’tro på’ en p-værdi, der viser noget helt nyt og overraskende (Kung Fu-is udløser dødsfald), end en p-værdi der bekræfter noget etableret (flere drukner i godt vejr). P-værdien bør altså ses som ét blandt mange værktøjer til at vurdere et resultat og bør altid suppleres af sund videnskabelig fornuft, bemærker Jens Olav Dahlgaard.

Nu går vi videre med nogle meget overordnede principper, og der kan være nuancer og arbejdsmetoder på, som kan afhjælpe nogle af problemerne herunder. Men!

Statistisk usikkerhed i de to typer studier

Lad os overføre den statistiske usikkerhed (p-værdien) til de to typer studier fra før, først på det stærkeste studie, det hypotesetestende:

Hvis man har lavet en specifik hypotese og ledt efter en særlig sammenhæng, som holder statistisk og ligger under p-værdien, er det muligt, at resultatet holder vand.

Men man kan også sige det med andre ord: Man skal huske på, at p-værdien populært sagt efterlader i hvert fald fem procents risiko for, at man har opdaget noget, der ikke holder vand i virkeligheden. Et tilfælde. En fejlmåling. En falsk positiv. Selvom et studie lader til at have fundet en årsagssammenhæng, kausalitet, er det altså fortsat til en vis grad usikkert, hvis man kun har statistikken at forholde sig til.

Christian Gluud bemærker, at selv ved meget små p-værdier, for eksempel 0,0001, er der stadig 1/1000 risiko for, at sammenhængen er tilfældig. Først hvis man finder flere uafhængige undersøgelser, der peger i samme retning, begynder man at skulle tro på sammenhængen.

Dernæst videre til den svageste type studie, den eksplorative undersøgelse: Går du på jagt i store data, er usikkerheden som regel endnu større. Du skal nemlig så at sige lægge fem procent risiko på for hver eneste gang, du undersøger en mulig sammenhæng.

Undersøger du en tarmbakterie og en sygdom, er det én usikkerhed, undersøger du tarmbakterien og højde, er det en anden usikkerhed. Undersøger du en anden tarmbakterie og sygdommen, er det en tredje usikkerhed og så videre.

Det er klart, at en omfattende jagt øger sandsynligheden for at finde noget, der ser ud til at hænge sammen. Men samtidig øger hver eneste søgning risikoen for at finde et tilfældigt sammenfald, ligesom is og druknedød.

Her bliver statistikken lidt indviklet, men hvis du for eksempel søger på 20 sammenhænge i det samme materiale, stiger risikoen for, at du finder noget tilfældigt fra 5 til over 60 procent. Jo flere sammenhænge, du søger på, des tættere kommer du på 99,99 procents risiko for at finde noget tilfældigt.

Hvor mange gange er terningen slået? 

Mikkel Willum Johansen sammenligner det med at slå med en 20-sidet terning: Hvis man slår én gang, er chancen for at få en 1’er 5 procent, men hvis man slår med terningen 20 gange, er chancen for at få mindst én 1’er steget til mere end 60 procent. På samme måde stiger sandsynligheden for at finde en falsk positiv i data, hver gang man undersøger en variabel mere. 

Det kan være helt fint, for nogle gange finder man jo noget reelt, selvom chancen for det er lille. Og verden har brug for studier, der søger efter sammenhænge, man ikke kender i forvejen, og som kan danne grobund for hypoteser, som så kan blive testet mere grundigt af.

Problemet er, hvis du ikke har fortalt nogen, at du har fundet din sammenhæng ved at søge i stort materiale efter tilfældige sammenhænge, eller hvis du måske endda oven i købet giver indtryk af, at du har søgt meget snævert og bekræftet en hypotese. I så fald skjuler du, at der ikke er en forholdsvis lille, men en kæmpe risiko for, at du har fundet noget helt tilfældigt; en falsk positiv.

Aaron Ramsey, korrelation, kausalitet, sammenhæng, dødsfald

En stor historie i engelsk presse har været, at hver gang Arsenal-spilleren Aaron Ramsey lavede et mål, døde et kendt menneske - for eksempel David Bowie og Osama bin Laden. Læs mere om 'sammenhængen' i denne artikel. (Foto: Shutterstock)

Med andre ord: Hvis man ikke kan se på forhånd, hvad du havde tænkt dig at undersøge, kan man ikke vide, om dit resultat er fundet med groft sagt 5 procents eller 60 procents usikkerhed.

»Hvis du undlader at fortælle, at du har ramt ved siden af 19 gange, og kun fremviser den ene gang, hvor du har fundet noget, siger du, at der kun er 5 procents risiko for, at du har ramt forkert. Men det passer ikke – der er i virkeligheden over 60 procents risiko, og så er det pludselig ikke så imponerende et resultat, du har fundet,« forklarer Mikkel Willum Johansen.

P-værdien under angreb

P-værdien er under heftig beskydning i øjeblikket. Mange mener, at man tillægger visse videnskabelige resultater alt for stor betydning, for resultater kan sagtens være uholdbare, selvom de holder sig inden for p-værdien.

For nylig bragte tidsskriftet Nature Human Behaviour en række forskeres alvorlige angreb på p-værdien. I kommentaren ’Redefine statistical significance’, hvor de argumenterer for, at p-værdien skal sættes ned til 1/10 af, hvad den er nu – til 0,005.

Det vil blandt andet gøre, at mange videnskabelige resultater pludselig bliver til at genfinde i andre forsøg, argumenterer de. I dag kan mange resultater ikke genskabes.

Konkret eksempel på studie, der bliver usikkert

I en pressemeddelelse fra Københavns Universitet fortæller Arne Astrup, professor på Institut for Idræt og Ernæring, at han og kolleger i et nyt studie har påvist, at forholdet mellem to særlige bakterietyper er afgørende for, om det lykkes at tabe sig.

Problemet er, at den videnskabelige metode i det studie ikke blev beskrevet, før studiet gik i gang (læs mere i artiklen Forskere: Arne Astrup overdriver »gennembrud« i fedmeforskning).

Det betyder, at udenforstående ikke kan vide med sikkerhed, om forskerne har fisket i et stort hav af tarmbakterier og har fundet ud af, at forholdet mellem to af dem ser ud til at spille sammen med et vægttab – eller om de har haft en specifik hypotese, som de har testet.

Med andre ord: Vi kan ikke vide, om resultatet er behæftet med op til 5 procents usikkerhed eller med 60 procents usikkerhed eller mere.

»Derfor er det ekstremt uheldigt, at de har glemt at indberette studiet. Vi kan ikke udelukke, at de har ledt efter en masse forskellige sammenhænge. Det er bekymrende og ærgerligt, for det gør et studie langt mindre troværdigt,« konstaterer Mikkel Willum Johansen.

Mangel på indberetning bremser videnskab

P-værdi omdiskuteret

Efter mange års debat sendte verdens største statistiske selskab, amerikanske ASA, i 2016 en meddelelse ud om, hvordan p-værdien bør opfattes og bruges.

»Det var aldrig meningen, at p-værdien skulle erstatte videnskabelig fornuft,« lød det fra ASA-leder Ron Wasserstein i en pressemeddelelse.

»Velovervejede statistiske argumenter har langt mere værdi end et enkelt tal, og om det tal overstiger en vilkårlig tærskel. Det er meningen, at denne meddelelse skal styre forskningen ind i post-p<0,05-æraen,« lyder det i pressemeddelelsen.

Meddelelsen er siden blevet læst over 150.000 gange.

Konsekvenserne rækker dog langt ud over det enkelte studie.

Hvis forskere ikke indberetter deres forsøg til de rette instanser, er de heller ikke forpligtede til at rapportere om deres fund. En konsekvens er, at resultaterne fra så meget som halvdelen af alle igangsatte forsøg aldrig bliver videregivet, fordi forskerne så at sige ikke har fundet noget, de syntes, det er værd at berette om (læs mere i videnskabelige studier, for eksempel hos Plos One eller i BMJ).

Problemet ved den praksis er, at når andre forskere tager et grundigt kig ud over al forskning på et område – for at indsamle solid viden og opsummere, hvad vi ved på et givent område, så forskningen kan bevæge sig videre derfra – så fanger de kun studier, der viser en særlig sammenhæng.

»Som systematisk reviewer får man kun adgang til de 'polerede' forsøg, som indikerer gavn, fordi de neutrale eller negative forsøg er blevet 'fejet ind under gulvtæppet'. Det betyder, at vi reelt ikke har en kinamands chance for at vurdere de reelle effekter af det undersøgte,« bemærker overlæge, dr.med. Christian Gluud, leder af Copenhagen Trial Unit, som er specialiseret i videnskabelige gennemgange og udformning af forsøg med mennesker.

Han tilføjer, at hvis man undlader at fortælle om sit forsøg, risikerer man også, at forskere mange andre steder i verden sætter sig for at lave præcis det samme, formålsløse projekt og på den måde får forskningen til at bevæge sig langsommere fremad.

Læs eventuelt mere om problemet i et indlæg i tidsskriftet Trials.

Du kan få  mere viden om forskellene på korrelation og kausalitet, og hvordan du sporer dem, i den grundige artikel Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?

Lyt på Videnskab.dk!

Hver uge laver vi digital radio, der udkommer i form af en podcast, hvor vi går i dybden med aktuelle emner fra forskningens verden. Du kan lytte til den nyeste podcast i afspilleren herunder eller via en podcast-app på din smartphone.

Har du en iPhone eller iPad, kan du finde vores podcasts i iTunes og afspille dem i Apples podcast app. Bruger du Android, kan du med fordel bruge SoundClouds app.
Du kan se alle vores podcast-artikler her eller se hele playlisten på SoundCloud