Videnskab er mere end anvendt statistik - kan vi blive fri for p-værdi-tyranni, tak!
KOMMENTAR: Det er dejligt, når komplekse ting kan reduceres til noget simpelt. Men nogle gange taber man mere, end man vinder – som for eksempel når videnskabelige studier med vold presses ned i to simple kasser: ’signifikante’ og ’tilfældige’ fund.
forskere_her_er_vores_raad_til_hvordan_man_formidler_ny_laegemiddelforskning_ansvarligt

P-værdier gør mere skade end gavn. For videnskab er nu engang mere end blot anvendt statistik. (Foto: Shutterstock)

Hvor stor er risikoen for, at et videnskabeligt fund – eksempelvis at motion har en positiv effekt på blodtrykket – faktisk bare er udtryk for en statistisk tilfældighed?

Hvor sikre kan vi være på, at en given behandling rent faktisk virker?

I store dele af videnskaben bruger man p-værdien til at svare på det spørgsmål. Er den tilpas lav, anser man det videnskabelige fund for at være ’signifikant’ – altså ikke et tilfældigt fund.

Er den derimod for høj, afskrives resultaterne som et tilfælde og derfor ikke til at stole på.

Denne skelnen mellem brugbare og ikke-brugbare fund er imidlertid langt fra uproblematisk.

I en ny kommentar publiceret i tidsskriftet Nature opfordrer forfatterne og mere end 800 medunderskrivere til et oprør mod den udbredte praksis med at konkludere på et forskningsprojekt primært på basis af de opnåede p-værdier.

De fremfører, at det snævre fokus på p-værdier alt for ofte fører til, at man afviser i øvrigt vigtige fund som værende tilfældige.

De konstaterer også, at meget ens fund beskrives som forskellige, afhængig af om de var ’signifikante’ eller ej.

Kort sagt: P-værdier gør mere skade end gavn, mener de – og vi er enige!

Artikelserie om statistisk signifikans

Videnskab.dk har i en artikelserie sat fokus på forskernes brug af begreberne statistisk signifikans og p-værdi.

Læs også artiklerne:

Læs mere om emnet i vores tema data og tal.

Hvad er en p-værdi?

At tolke resultater af forsøg med mennesker er ikke altid ligetil.

Som forsker har man en udfordring i at afgøre, om et givet forskningsresultat afspejler en reel effekt eller er et resultat af tilfældigheder og andre faktorer, som ikke har noget med den afprøvede behandling at gøre.

Det er her, den såkaldte p-værdi og begrebet statistisk signifikans spiller en rolle.

Det fører for vidt med en detaljeret redegørelse for matematikken bag, men p-værdien udtrykker sandsynligheden for, at man ville have fundet det, man nu har fundet (for eksempel en behandlingseffekt), hvis (og det er et meget vigtigt ’hvis’) vi antager, at der i virkeligheden ingen effekt er.

Jo lavere p-værdi desto lavere sandsynlighed for, at den påviste effekt skyldes tilfældigheder.

Her er det vigtigt at holde tungen lige i munden.

For p-værdien må nemlig ikke forveksles med sandsynligheden for, at man har fundet noget, som i virkeligheden ikke er korrekt (et såkaldt falsk positivt fund). Forvirret? Det bliver de fleste.

Faktisk vil rigtig mange forskere formentlig falde i, hvis man spurgte dem om at forklare, hvad en p-værdi er.

Tricket ligger i p-værdiens indbyggede antagelse om, at der faktisk ikke er en sammenhæng (f.eks. en behandlingseffekt), en antagelse der ikke nødvendigvis holder.

Så en gang til for Arveprins Knud:

P-værdien er ’sandsynligheden for, at den effekt, du ser, er et tilfælde, hvis vi antager, der ingen reel forskel er’ – og altså ikke ’sandsynligheden for, at den effekt, du har fundet, er forkert.’ 

Begrebet statistisk signifikans er nært knyttet til p-værdien.

Man siger, at et resultat er statistisk signifikant, dvs. ikke en tilfældighed, når p-værdien er lavere end en på forhånd defineret grænse.

I lægevidenskabelig forskning sættes denne typisk til 0,05.

LÆS OGSÅ: Manifest: Få styr på tal og statistik

Grundforskning, lægemidler, medicin, store opdagelser.

Det er ikke helt simpelt at svare på, hvad vi så skal bruge frem for at teste, om noget er ’statistisk signifikant’. (Foto: Shutterstock)

Forandring på vej efter mange års debat?

Der er et tiltagende momentum bag bevægelsen væk fra en fortolkningspraksis baseret på p-værdier.

Diskussionen er langt fra ny. For eksempel er problemerne med p-værdier glimrende beskrevet i denne næsten 20 år gamle uddannelsesartikel fra The BMJ.

Debatten har dog for alvor taget fart de seneste år.

Dette skyldes først og fremmest den meget omdiskuterede udmelding fra the American Statistical Association i 2016 omkring brug og misbrug af p-værdier, hvor de i meget klare vendinger forklarede, hvad en p-værdi kan og ikke kan bruges til.

Netop nu er debatten blusset op igen, da tidsskriftet The American Statistician har udgivet et helt særnummer med 43 artikler samlet under titlen ’Statistical Inference in the 21st Century: A World Beyond p<0.05.’

Det er udgivelsen af dette særnummer, der er anledningen til kommentaren i Nature.

Således ser det ud til, at der faktisk kan være forandring på vej.

Hvad er der så galt med den der p-værdi?  

Det grundlæggende problem er, at p-værdien ikke rigtigt giver os den information, vi er interesserede i.

Vi vil gerne kende sandsynligheden for, at et givet forskningsresultat er sandt/falsk positivt. Og det kan man ikke aflæse af p-værdien.

At man helt definerer signifikans ud fra p-værdier indebærer en risiko for, at man fejlagtigt enten godtager, at der er en reel effekt (såkaldt type 1-fejl) eller afviser, at der er en reel effekt (såkaldt type 2-fejl).

Men hvordan ser sådan nogle type 1- og type 2-fejl så ud i praksis?

LÆS OGSÅ: Korrelation eller kausalitet: Hvornår er der en årsagssammenhæng?

Type 2-fejl: Når p-værdien bruges til at afvise noget vigtigt…

En snæver fortolkning af p-værdier kan altså føre til, at man afviser en effekt, hvis blot p-værdien er større end de famøse 0,05.

Dette sker desværre ofte til trods for, at den observerede effekt er af en størrelse, som ganske klart indikerer, at den nye behandling, man har testet, faktisk giver en meningsfuld gevinst.

Lad os tage et eksempel: I et nyligt (og virkelig stort og grundigt!) studie publiceret i tidsskriftet JAMA testede man, om aggressiv blodtryksbehandling beskytter mod demens.

Ved studiets ophør finder man, at den aggressive blodtryksbehandling reducerer forekomsten af demens med 17 procent sammenlignet med almindelig blodtryksbehandling.

Denne forskel er dog ikke statistisk signifikant, da p-værdien lige akkurat ikke når ned under 0,05.  

Derfor konkluderer forfatterne, at den aggressive blodtryksbehandling ’ikke resulterede i en signifikant reduktion i risikoen for demens’ (vores oversættelse).

Bemærk her hvordan ’statistisk signifikans’ blot omtales som ’signifikans’, et ord man på dansk normalt ville erstatte med ’betydelig’.

De fleste vil derfor læse dette studie, som om den ekstra blodtryksbehandling ikke påvirker risikoen for demens i ’betydelig grad’.

Dette er dog tydeligvis noget vrøvl, når nu det mest sandsynlige scenarie er, at der er tale om en 17 procents reduktion.

P-værdi-tyranni af værste skuffe

For at gøre ondt værre konkluderer samme studie, at der observeres en effekt på forekomsten af ’den kombinerede forekomst af let nedsat kognitiv funktion og demens’ (vores oversættelse).

Her er der ganske vist tale om en lidt mindre effekt med en 15 procent nedsat forekomst, men fordi p-værdien her lige akkurat sniger sig ned under 0,05, bliver konklusionen kvalitativt helt anderledes.

Dermed har vi, trods spændende og ganske overbevisende fund, pludselig fået talt os væk fra, at der er en behandlingsgevinst at hente.

P-værdi-tyranni af værste skuffe. Og dette er desværre ikke en enlig signifikant svale.

For eksempel konkluderede et nyligt studie i New England Journal of Medicine, at ’forebyggende antibiotika før operationer ifm. aborter ikke medførte en ’signifikant’ nedsat risiko for infektioner’, da p-værdien var 0,09 – trods en 23 procent relativ reduktion i forekomsten af infektioner.

Og et tidligere studie i JAMA konkluderede at en imponerende 30 procent reduceret forekomst af cancer ikke var ’betydelig’, da p-værdien var 0,06.

LÆS OGSÅ: Guide: Bliv en kritisk læser af nyheder om forskning

Har p-værdien ikke en berettigelse?

Man kan med en vis rimelighed indvende, at det jo er vigtigt at være kritiske overfor nye fund.

Forestiller man sig, at ovenstående eksempler i stedet havde været industri-sponsorerede studier af nye lægemidler, ville man formentlig i højere grad påskønne et prædefineret cut-off som de 0,05, der vil forhindre utilstrækkeligt dokumenterede påstande om en effekt.

Tilsvarende kan den konservative fortolkning dæmme op for tilfældige fund og dermed spare, at ressourcer kastes efter ufrugtbare forskningsspørgsmål.

På den baggrund har nogle forskere for nylig argumenteret for en decideret stramning af p-værdi-konceptet til i stedet at anvende en cut-off på 0,005.

Samme forskere forholder sig også yderst kritisk til Nature-kommentaren.

Vi mener bestemt også, at det er vigtigt at være konservativ i vurderingen af nye fund.

Dette er dog ikke i sig selv noget argument for at bruge p-værdien som cut-off.

I stedet bør man tilstræbe at opstille mål for klinisk meningsfyldte effektstørrelser og en mere gradueret forståelse for evidens.

Før vi kaster os over alternativer til p-værdier, skal vi dog paradoksalt nok først forholde os til et andet og diametralt modsat problem, nemlig misbrug af p-værdien til at understøtte påstande om sammenhænge.

Type 1-fejl: Når p-værdien bruges til at holde liv i noget vrøvl…

Forskerzonen

Denne artikel er en del af Forskerzonen, som er stedet, hvor forskerne selv kommer direkte til orde.

Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.

Forskerzonen er støttet af Lundbeckfonden.

Lige så vel som p-værdien kan bruges til at afvise i øvrigt meningsfyldte sammenhænge, ser man desværre også ofte, at p-værdien kan bruges som argument for at understøtte påstande, der i øvrigt fremstår ubegrundede, når man tager den samlede vidensmængde i betragtning.

Også dette illustreres lettest med et eksempel:

I 2014 rapporterede et mindre studie en tilsyneladende sammenhæng mellem brug af viagra og risiko for at udvikle modermærkekræft.

Studiet omfattede ganske vist ret få tilfælde af modermærkekræft, men opnåede lige akkurat statistisk signifikans og blev publiceret i det prestigefyldte JAMA Internal Medicine.

Hypotesen om, at viagra-brug skulle give modermærkekræft er faktisk knap så langt ude, som man skulle tro, da sildenafil (indholdsstoffet i viagra) faktisk påvirker en signalvej i cellerne, der er involveret i, hvordan modermærkekræft kan sprede sig.

Flere forskningsgrupper kastede sig derfor over at replicere fundet af en øget risiko.

Dette førte til fire ganske solide studier et svensk, et engelsk, yderligere et engelsk (baseret på samme data) og et dansk.

De fire grupper nåede til stort set enslydende konklusioner: Der ser ud til at være en let øget risiko, men det er ikke en sand sammenhæng.

Forklaringen er snarere at viagra-brugere (i forhold til ikke-brugere) oftere går til lægen (og dermed har større chance for at få deres modermærkekræft opdaget) og nok også har lidt anderledes solvaner.

Det lyder jo glimrende – så er den hypotese vel lagt i graven? Desværre ikke…

Forvrænget evidens

Kort tid efter de fire studier kommer ud udgives en såkaldt meta-analyse, der opsummerer fundene fra de fire artikler.

Til forfatterne af de fire studiers massive frustrationer konkluderer forfatterne af meta-analysen, at der, på tværs af de fire studier, sås en øget relativ risiko for modermærkekræft på cirka 12 procent (mellem 3 og 21 procent). 

Og at dette støtter forståelsen af, at der er en sammenhæng – samt det obligatoriske ’der bør således gennemføres flere studier’.

Her konkluderes altså – stik imod konklusionerne i de fire studier, der er taget udgangspunkt i – at sildenafil og lignende stoffer giver modermærkekræft.

Det primære argument er sådan set ikke de 12 procent (som i øvrigt er en meget lille risikostigning), men at estimatets nedre grænse er tre procent, og da det lige akkurat er større end 0, så bliver p-værdien lige akkurat lavere end 0,05.

Ovenstående er kun ét enkelt eksempel, som dog glimrende demonstrerer, hvordan en p-værdi-baseret fortolkningsramme ender med at medføre, at alle relevante elementer af et fænomen ignoreres, hvorved man når til en konklusion, som er i strid med virkeligheden.

Det er ikke blot et massivt spild af forskningsressourcer, men det er også til skade for patienter, når fremtidens rådgivning baseres på en forvrænget gengivelse af evidensen. 

LÆS OGSÅ: Forsker sår tvivl om videnskabelig metode: 'Vi kan ikke stole på p-værdi'

Ja/nej-tankegangen er for simpel

Komplekse problemer kan sjældent løses med simple tiltag.

Det er således ikke helt simpelt at svare på, hvad vi så skal bruge frem for at teste, om noget er ’statistisk signifikant’.

Det grundlæggende problem med at skelne reel effekt fra ’statistisk støj’ vil nemlig altid bestå.

Derfor kommer man ikke udenom at rapportere statistiske analyser i form af for eksempel p-værdier, konfidensintervaller og styrke.

Ikke desto mindre er den simple ja/nej-tankegang, der ligger i begrebet ’statistisk signifikans’, meningsløs og bør derfor undgås.

Evidens må baseres på en helhedsbetragtning

Men vi mangler stadigvæk at tage højde for plausibiliteten af det undersøgte.

Kender man plausibiliteten – det vil sige sandsynligheden for, at en behandling vil virke – kan man beregne sandsynligheden for, at et givet resultat er falsk positivt, dvs. ikke er sandt.

Problemet med dette er dog naturligvis, at plausibiliteten i næsten alle tilfælde må baseres på et skøn.

En mulighed kunne for eksempel være, at man rapporterede sandsynligheden for et falsk positivt resultat, hvis plausibiliteten eksempelvis er på 50 procent.

Dette er naturligvis også et arbitrært valg. Ikke desto mindre vil det være mere informativt, end et udsagn om et statistisk signifikant/ikke-signifikant resultat på basis af en p-værdi.

Uanset hvad der vil vinde indpas i fremtiden, er det vigtigt at holde fast i, at vi skal vurdere evidensen ud fra en helhedsbetragtning.

Det vil sige under hensyntagen til metodik, plausibilitet m.m. For videnskab er nu engang mere end blot anvendt statistik.

LÆS OGSÅ: Statistiske faldgruber: Derfor er det afgørende at fortælle, hvad man vil undersøge

LÆS OGSÅ: Sådan sjusker forskere med statistik

LÆS OGSÅ: Misbrug af p-værdi fordrejer udgivelse af forskning

LÆS OGSÅ: P-værdien – misbrugt, men ikke forladt

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.