Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?
Korrelation er ikke det samme som kausalitet. Forveksler man de to begreber, kan man komme til at overfortolke et forskningsresultat totalt. Lær at skelne mellem to kernebegreber i videnskab.
korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Selv om forskere konstaterer, at antallet af storke i et område korrelerer med antallet af børnefødsler i det samme område, betyder det ikke nødvendigvis, at storkene er årsag til, at der bliver født børn. (Foto: Shutterstock)

Hvorfor smelter isen på Arktis? Hvorfor får folk kræft? Hvorfor stiger kriminaliteten? Videnskab handler blandt andet om at finde svar på den slags spørgsmål. Og det tager mega lang tid.

Allerførst skal der være et uopklaret mysterium. Som i starten af 1900-tallet, hvor læger lagde mærke til, at flere og flere mennesker fik kræft i lungerne. Ingen anede hvorfor.

Først et par årtier senere viste en undersøgelse, at antallet af lungekræfttilfælde var steget voldsomt i takt med, at salget af cigaretter eksploderede efter første verdenskrig, skriver Kræftens Bekæmpelse om tobakkens historie

Forskerne havde nu en statistisk sammenhæng mellem tobakssalg og kræft samt en hypotese om, at rygning kan give kræft i lungerne. Men der gik flere år, før de kunne slå fast, at der er en årsagssammenhæng; altså at rygning kan give lungekræft.

For en statistisk sammenhæng – i dette tilfælde mellem tobakssalg og lungekræft – betyder ikke nødvendigvis, at det ene forårsager det andet. Selv om der blev solgt et stigende antal cigaretter i den periode, hvor antallet af lungekræfttilfælde steg, kunne der i princippet være andre årsager end tobakken til, at rygerne fik kræft. 

Korrelation er ikke det samme som kausalitet

Statistiske sammenhænge, hvor to størrelser – for eksempel tobakssalg og lungekræft – følges ad over tid, kaldes korrelationer.

En korrelation er nogle gange et tegn på, at det ene forårsager det andet – for eksempel at rygning fører til kræft.

Hvis der er en årsagssammenhæng, siger man også, at der er kausalitet eller en kausal sammenhæng. Ingen er længere i tvivl om, at der er en kausal sammenhæng mellem tobak og lungekræft.

Men der kan sagtens være korrelation, uden at der også er kausalitet.

Der er eksempelvis korrelation mellem antallet af film, Nicolas Cage har medvirket i mellem 1999 og 2009, og antallet af mennesker, der i samme periode druknede i en swimmingpool, viser en opgørelse publiceret i Spurious Correlations. Men de fleste kan nok regne ud, at der ikke er kausalitet. Folk drukner næppe, fordi Nicolas Cage er med i film.

korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Spøjst: Antallet af film med Nicolas Cage korrelerer med antallet af folk, der drukner swimmingpools. (Graf: Spurious Correlations/ Data: Center for Disease Control & Prevention, USA, og Internet Movie Database)

Du kan læse flere eksempler på virkeligt skøre korrelationer her. Som for eksempel at alderen på de kvinder, der mellem 1999 og 2009 vandt modelkonkurrencen Miss America, korrelerer med antallet af mennesker, der i samme periode blev dræbt med varme objekter. 

Man kan kun komme tæt på 

Når forskere finder en korrelation, har de altså ikke fundet årsagen til, at noget sker. Alligevel leder de efter korrelationer. For en korrelation kan være et tegn på, at der også er kausalitet.

Forskernes opgave er at finde ud af, om det er tilfældet.

Men hvordan kommer de fra korrelation til kausalitet? Hvordan finder de for eksempel ud af, om en statistik sammenhæng mellem antallet af solgte cigaretter og lungekræfttilfælde er et tegn på, at rygning kan forårsage kræft i lungerne?

korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Folk drukner nok ikke, fordi Nicolas Cage medvirker i film, selv om der er en korrelation. (Foto: Wikipedia og Shutterstock)

 

Det ved Allan Linneberg, der er professor i epidemiologi på Københavns Universitet.

Svaret er ikke helt enkelt, starter han med at understrege.

»Først og fremmest er det vigtigt at slå fast, at man næsten aldrig med 100 procent sikkerhed kan sige, at noget er en årsagssammenhæng, uanset hvor mange undersøgelser, man laver, og hvor mange statistiske sammenhænge man finder,« siger Allan Linneberg.

»Men man kan komme tæt på ved at samle så meget og så mange forskellige typer evidens for kausalitet som muligt,« fortsætter han.

Der er korrelation mellem byliv og allergi

Epidemiologer som Allan Linneberg laver forskning, hvor de undersøger, om der er statistiske sammenhænge mellem befolkningsgruppers livsstil og forekomsten af sygdomme.

De bruger oplysninger fra forskellige registre som for eksempel Danmarks Statistik, nationale sundhedsregistre og Landspatientregistret.

Allan Linneberg og kolleger har for eksempel fundet en korrelation mellem byliv og allergi ved at bruge registrerede oplysninger om 1.236 danske mænd. De mænd, der er vokset op i byen, har oftere allergi end de mænd, der er vokset op på landet, viser deres undersøgelse.   

Undersøgelsen finder en korrelation, men den finder ikke en årsag til, at mænd, der vokser op på landet, sjældnere får allergi.

korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Drenge, der vokser op i byen, har større risiko for at få allergi. Men det er ikke sikkert, at bylivet er årsag til allergi. (Foto: Shutterstock) 

Resultatet skal findes flere gange

Når Allan Linneberg og hans fagfæller skal afgøre, om der kan være kausalitet – for eksempel om bondegårdsliv beskytter mod allergi, bruger de nogle såkaldte kausalitetskriterier.

De historisk mest kendte kriterier for kausalitet blev formuleret i 1965 af den britiske epidemiolog Sir Edward Bradford Hill.

Ifølge Hills-kriterierne stiger sandsynligheden for, at der er kausalitet, eksempelvis hvis:

  • Forskellige forskere i forskellige lande og blandt forskellige befolkningsgrupper finder den samme korrelation.

  • Det er logisk/plausibelt. (Det er for eksempel ikke logisk, at man bliver kvalt i sit sengetøj, fordi man spiser meget ost, selv om der ifølge amerikanske data er en perfekt korrelation mellem antallet af folk, der er så uheldige at dø i deres sammenfiltrede sengetøj og mængden af konsumeret ost – se nedenfor).

  • Årsagen var til stede før effekten (Hvis folk først begynder at ryge, efter de har fået kræft, er det usandsynligt, at tobakken har fremkaldt sygdommen).

I boksen under artiklen kan du finde alle Hills kausalitets-kriterier.

korrelation kausalitet årsagssammenhæng videnskabsteori statistik konfounder

Spøjs korrelation, men næppe en kausal sammenhæng: Antallet af folk, der døde, fordi de blev filtret ind i deres sengetøj steg eksponentielt med mængden af konsumeret ost mellem 2000 og 2009. (Graf: Spurious Correlations/ Data: U.S. Department of Agriculture and Centers for Disease Control & Prevention)

Nisser driller forskerne

Men selv om det er logisk, at der er kausalitet, og selv om flere undersøgelser viser samme korrelation, kan man stadig ikke være sikker på, at der er en årsagssammenhæng.

Så simpelt er det ikke, for nisser kan drille forskerne. Nisserne kaldes også konfoundere eller effekt-forvekslere.

I resten af artiklen bruger vi ligesom forskerne det mundrette ord 'konfounder' om nisserne. Konfounder stammer fra det engelske 'confounding', som betyder forvirrende.

Forskerne bruger ordet til at beskrive elementer, der forvirrer i den forstand, at de kan være årsag til en korrelation, i stedet for det forskerne troede var årsagen.

»Konfounding betyder, at den sammenhæng, man har fundet, skyldes andre faktorer end den, man undersøger,« siger Allan Linneberg.

Folk bliver tykke – hvad er årsagen?

I det følgende eksempel, som er opfundet til lejligheden, kan kostvaner være en konfounder:

Forskere finder en korrelation mellem at være fysisk inaktiv og overvægtig. Det er plausibelt, at der også er en årsagssammenhæng, altså at man bliver overvægtig af at være inaktiv.

Man kan bare ikke udelukke, at dem, der ikke dyrker motion, generelt spiser større mængder og mere usund mad, end dem der er fysisk aktive.

Forkerte madvaner kan være en konfounder, fordi kosten – i stedet for den manglende motion – kan være årsag til, at de inaktive forsøgspersoner bliver tykke.

Altså: Selv om der er en korrelation mellem inaktivitet og overvægt, er forsøgsdeltagerne ikke nødvendigvis blevet tykke, fordi de ikke dyrker motion. Det kan være, at de er blevet tykke, fordi de spiser forkert.

korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Selv om der er en korrelation mellem overvægt og inaktivitet, er det ikke sikkert, at man bliver tyk af at være inaktiv. Det kan tænkes, at man bliver tyk af at spise forkert. (Foto: Shutterstock)

Mon Billed-Bladet er kræftfremkaldende?

Her er et andet opdigtet eksempel:

»Hvis vi forestiller os, at der er en statistisk sammenhæng mellem at læse Billed-Bladet og at have en højere kræftrisiko, så er det nok ikke, fordi Billed-Bladet er kræftfremkaldende, men snarere fordi nogle ting kendetegner ugebladets læsere, som gør, at de oftere får kræft,« siger Allan Linneberg.

Alder kan være en mulig konfounder.

»Billed-Bladets læsere er formentlig ældre end gennemsnittet, og jo ældre man er, des højere er risikoen for at få kræft. Deres høje alder kan være forklaringen på, at de oftere får kræft end resten af befolkningen,« siger professoren.

Forskerne fjerner nisserne 

Videnskab.dk skriver ind imellem om undersøgelser, hvor forskere har fundet korrelationer, men ikke nødvendigvis en kausal sammenhæng. For nyligt har vi for eksempel skrevet om forskning, der viser, at der er statistisk sammenhæng mellem

-    autisme og omskæring af drengebørn  

-    cykling og et længere liv

Når man læser om et forskningsresultat, står der tit, at forskerne har justeret for forstyrrende faktorer (konfoundere) som forsøgsdeltagernes alder, vægt, helbred, uddannelse og sociale baggrund.

Når forskerne justerer for konfoundere, laver de matematiske beregninger, som minimerer effekten af dem.

Forskerne laver eksempelvis modeller, hvor de mennesker, de studerer, bliver delt op i mindre grupper. Så sammenligner de dem, der ligner hinanden aldersmæssigt, uddannelsesmæssigt, socialt, kulturelt eller på andre parametre, som kan være en forstyrrende årsag til den korrelation, de finder.

I eksemplet med Billed-Bladet kunne man inddele forsøgspersonerne efter deres alder og undersøge, om både unge og ældre har højere risiko for kræft end resten af befolkningen.

Hvis korrelationen kun findes hos de ældre læsere, er det sandsynligvis alderen, og ikke læsning af ugebladet, der øger risikoen for kræft.

Vær opmærksom i dagligdagen 

I den politiske debat hører man ofte, at en korrelation bliver omtalt som en kausalitet, selv om der ikke er justeret for konfoundere.

Allan Linneberg husker et konkret eksempel:

»Jeg hørte engang en embedsmand fra et ministerium sige, at det ikke er et problem for karaktergennemsnittet, at man øger antallet af elever i gymnasieklasserne. Han henviste til tal, som viste, at klasser med mange elever har højere karaktergennemsnit end klasser med færre elever.«

»Men når folk kommer med sådan nogle udtalelser, skal man være på vagt og prøve at vurdere, hvad der ligger bag tallene, og hvad der kan forklare dem.«

Ifølge Allan Linneberg har embedsmanden formentlig overset en vigtig konfounder: Gymnasier med de største klasser er sandsynligvis i mange tilfælde de mest velrenommerede og populære – det er derfor, de er fyldte.

Eleverne har sikkert højtuddannede og velstillede forældre, som går op i deres børns uddannelse og derfor har skrevet dem på venteliste til de mest velansete gymnasier.

»Vi ved, at børn af højtuddannede på forhånd har bedre forudsætninger for at få høje karakterer,« siger Allan Linneberg.

Derfor er det nok ikke klassernes størrelse, der er årsag til de høje karakterer, men derimod elevernes sociale baggrund.

korrelation kausalitet statistik årsagssammenhæng videnskabsteori

Selv om karaktergennemsnittet i gymnasieklasser med mange elever er højere end i mindre klasser, er klassens størrelse ikke nødvendigvis årsag til de bedre karakterer. (Foto: Shutterstock)

Lodtrækning renser 

Forskerne justerer som sagt for konfoundere. Men det er stadig ikke nok, for der er altid en risiko for, at der er konfoundere, forskerne har overset, eller at den matematiske metode ikke er god nok til at reducere effekten af dem.

Det er der heldigvis råd for. Forskere kan teste, om en korrelation også findes, hvis de deler forsøgsdeltagerne tilfældigt op via lodtrækning (randomiseret).

I lodtrækningsforsøg er der større sandsynlighed for, at en korrelation er tegn på, at der er kausalitet, end i studier, hvor forskerne udelukkende observerer og laver beregninger på baggrund af data.  

Konfoundere bliver fordelt ligeligt

I lodtrækningsforsøgene deler forskerne forsøgsdeltagerne tilfældigt op i to grupper. En af grupperne bliver bedt om at gøre et eller andet, som forskerne vil teste effekten af.

Vær kritisk

Her er tre artikler, der klæder dig på til at være kritisk, når du søger ny viden og læser om forskning: 

Guide: Bliv en kritisk læser af nyheder om forskning

Sådan finder du troværdig information på nettet

Sådan læser og forstår du en videnskabelig artikel

Det kan for eksempel være, at de bliver bedt om at spise vitaminpiller dagligt eller at løbe et par gange om ugen. Forsøgsdeltagerne i den anden gruppe skal fortsætte med at leve, som de plejer. 

Efter et stykke tid, gerne flere år, tester forskerne effekten af interventionen – for eksempel løb eller vitaminpiller.

»Hvis alt går godt i et lodtrækningsforsøg, er både de kendte og de ukendte konfoundere ligeligt fordelt i de to grupper, fordi man har inddelt forsøgsdeltagerne tilfældigt,« siger Allan Linneberg.

Allan Linneberg har selv været med til at lave adskillige lodtrækningsforsøg, blandt andet ét hvor en tilfældig gruppe danskere i en årrække blev inviteret til et regelmæssigt helbredstjek på statens regning, mens en anden gruppe ikke fik tilbudt et sundhedstjek.

Undersøgelsen viste, at helbredstjek ikke har en effekt: De, der var blevet inviteret til sundhedstjek, havde lige så ofte hjertekarsygdomme efter tyve år som dem, der ikke havde fået et tilbud om at blive tjekket regelmæssigt. 

Lodtrækningsforsøg kan være uetiske

Forskerne har dog ikke altid mulighed for at lave lodtrækningsforsøg. For det første kan det være uetisk. Man kan for eksempel ikke rigtig bede en tilfældig gruppe mennesker om at begå kriminalitet eller begynde at ryge, fordi man gerne vil teste effekten af det.

For det andet er det meget svært at kontrollere folks adfærd såsom deres kost- eller motionsvaner over en længere periode.

Derfor må forskere ofte nøjes med at finde korrelationer i et studie, hvor de bruger registerede oplysninger om folks livsstil.

Så er gyldne regel altid, at resultatet som minimum skal kunne genfindes af andre forskere, før man kan begynde at tale om, at der er sandsynlighed for kausalitet.

»En enkeltstående epidemiologisk undersøgelse er første trin i en lang forskningsproces, hvor man gradvist kommer nærmere et svar på, om der er en årsagssammenhæng,« siger Allan Linneberg.  

»I første omgang skal vi eller andre forskere kunne gentage resultatet – altså finde den samme korrelation i andre epidemiologiske studier. Hvis fundet kan gentages, stiger sandsynligheden for, at der er kausalitet,« fortsætter han.

Forskellige typer forskning

Jo flere gange et resultatet kan gentages i forskellige typer forsøg lavet af forskellige forskere, des større er sandsynligheden for kausalitet.

Eksempler på forskellige typer forskning: 

Befolkningsundersøgelser (kohortestudier, registerbaseret forskning), som denne artikel fokuserer på.

Lodtrækningsforsøg (randomiserede undersøgelser): Forsøgsdeltagerne bliver tilfældeligt inddelt i to grupper, som enten får placebo eller et virksomt middel.

Forskningsgennemgange (metastudier, systematiske litteraturgennemgange): Forskerne gennemgår al den forskning, der er publiceret om et givent emne.

Laboratorieforsøg

Man skal samle evidens sammen

Selv om adskillige af den slags databaserede befolkningsundersøgelser viser den samme korrelation, er det dog altid en god idé at lave andre typer undersøgelser også.

»Man skal prøve at skabe evidens fra en masse forskellige videnskabelige genrer. På den måde kan man sandsynliggøre, at der er en årsagssammenhæng,« siger Allan Linneberg.

Biokemikere kan for eksempel teste, om de kan genfinde en korrelation i laboratorieforsøg på dyr eller menneskeceller, og humaniora-forskere kan lave kvalitative feltstudier, hvor de observerer og interviewer folk om deres oplevelser, effekter og motiver.

Vær på vagt!

For at gøre en lang historie kort, får du lige en opsummering:

  • Vær på vagt: Hvis du hører, at forskere har fundet en korrelation, er det ikke det samme, som at de har fundet en kausal sammenhæng
     
  • Vær kritisk: Vær opmærksom på, om forskerne har justeret for konfoundere, og om deres resultat er enkeltstående, eller om det er fundet af flere forskellige forskere. Jo flere undersøgelser, der viser det samme, des større er sandsynligheden for kausalitet.
     
  • Vær grundig: Læg mærke til, hvilken type forskning der er tale om? Hvis det er et lodtrækningsstudie, er sandsynligheden for, at der er kausalitet større, end hvis det er et rent registerbaseret studie.
Hills kausalitets-kriterier

Hills kausalitets-kriterier består af ni punkter, som forskere overvejer, når de vurderer, om det er sandsynligt, at en korrelation er et udtryk for kausalitet.  

  1. Hvor stærk er korrelationen?: Jo stærkere sammenhæng (korrelation), der er mellem to størrelser – for eksempel antallet af rygere og forekomsten af lungekræft – des større er sandsynligheden for, at der er kausalitet. Hvis rygning øger risikoen for kræft med 300%, er der større sandsynlighed for kausalitet end hvis rygning øger risikoen 20%.
     
  2. Kan resultatet genfindes?: Hvis resultatet af en undersøgelse kan gentages af forskellige forskere i forskellige lande og blandt forskellige befolkningsgrupper, er der større sandsynlighed for, at der er kausalitet.
     
  3. Hvor specifikt er det? Dette kriterie er blevet kritiseret og er ikke særligt brugbart i dag. Ifølge Edward Hill er der højere sandsynlighed for kausalitet, hvis eksempelvis rygning kun er årsag til én effekt (f.eks. lungekræft). Det vil sige én årsag – en effekt. »Men kriteriet er åbenlyst forkert, hvad angår rygning og kræft, for rygning er årsag til flere andre sygdomme end kræft f.eks. blodprop i hjertet,« siger Allan Linneberg. Hill brugte også begrebet, som om at en sygdom kun kan have en årsag. »Derfor er kriteriet blevet kritiseret og nok ikke brugbart i dag, hvor vi taler om multifaktorielle sygdomme«.
     
  4. Stemmer tiden?: Årsagen skal være til stede før effekten. Hvis en gruppe mennesker først begynder at ryge, efter de har fået kræft, kan man udelukke, at deres sygdom skyldes rygning.
     
  5. Hvor plausibelt er det? Hvis der er kendte biologiske mekanismer, som kan forklare en korrelation, stiger sandsynligheden for, at der er kausalitet.
     
  6. Stiger en sygdomsrisiko i takt med en stigende eksponering?: Sandsynligheden for, at der er en kausal sammenhæng mellem tobak og lungekræft, er større, hvis forekomsten af lungekræft stiger, jo længere og jo mere folk ryger.
     
  7. Er der koherens?: Jo mere overensstemmelse, der er mellem et statistisk fund og den viden, man har om sygdommens biologi, des større er chancen for kausalitet.
     
  8. Kan man finde eksperimentel evidens?: Hvis man kan gentage en statistisk sammenhæng i et laboratorium for eksempel på mus eller i menneskeceller, taler det for kausalitet.
     
  9. Kan man finde noget lignende i forskningslitteraturen?: Findes der lignende eksponeringer, som er årsag til lignende effekter.

Lyt på Videnskab.dk!

Hver uge laver vi digital radio, der udkommer i form af en podcast, hvor vi går i dybden med aktuelle emner fra forskningens verden. Du kan lytte til den nyeste podcast i afspilleren herunder eller via en podcast-app på din smartphone.

Har du en iPhone eller iPad, kan du finde vores podcasts i iTunes og afspille dem i Apples podcast app. Bruger du Android, kan du med fordel bruge SoundClouds app.
Du kan se alle vores podcast-artikler her eller se hele playlisten på SoundCloud