Hvad er P-værdi, og hvad betyder statistisk signifikans?
Du skal ikke skamme dig, hvis du ikke kender de to udtryk 'statistisk signifikans' og 'P-værdi'. En stor del af de forskere, der bruger udtrykkene dagligt, har nemlig heller ikke helt styr på dem.

P-værdi og statistisk signifikans fortæller noget om sandsynligheden af en giver undersøgelse. (Foto: Shutterstock). 

P-værdi og statistisk signifikans fortæller noget om sandsynligheden af en giver undersøgelse. (Foto: Shutterstock). 

Når forskere skal undersøge en given ting, skal de altid foretage et metodevalg.

Du kender det sikkert fra meningsmålingerne, hvor folk bliver spurgt om, hvilket parti de stemmer på til næste valg.

Det er ikke muligt at spørge et helt lands befolkning, så forskerne vælger nogle ud, som repræsenterer det brede udsnit af befolkningen.

Målet er således at skabe et repræsentativt udvalg af borgere, som spejler variationerne i befolkningen.

En forsker, som vil teste en ny smertestillende medicin mod for eksempel hovedpine, kan heller ikke teste en hel befolkning og plukker derfor et udvalg af forsøgspersoner.

Forskere har flere måder at udvælge personer på, og de ønsker naturligvis, at udvælgelsen bliver tilfældig og giver et bredt billede af hele befolkningen, hvad enten det gælder politisk ståsted eller ondt i hovedet.

Og grundige som de er, har forskerne ligeledes metoder for at regne ud, hvor sikre de kan være på diversiteten i deres forsøgsgruppe.

På den måde kan de sikre sig, at resultaterne ikke skyldes tilfældigheder eller skævheder i forsøgsgruppen.

»Vi vil altid gerne vide, hvor meget resultaterne kan variere, derfor foretager vi gerne nøjagtig den samme undersøgelse flere gange,« fortæller matematiker Simen Gaure fra Frischsenteret i Norge.

Artikelserie om statistisk signifikans

Videnskab.dk har i en artikelserie sat fokus på forskernes brug af begreberne statistisk signifikans og p-værdi.

Læs også artiklerne:

Læs mere om emnet i vores tema data og tal.

Held i poker

Hvis du spiller poker og får tildelt tre konger, ud af de fem kort du har på hånden, betyder det ikke, at tre af fem kort i hele kortbunken er konger.

Det betyder bare, at heldet tilsmiler dig.

Selv om du spiller med en almindelig bunke kort, hvor der er fire toere, fire treere m.m., vil det af og til ske, at du får tre konger på hånden. Faktisk vil det, statistisk set, ske 17 ud af 10.000 gange.

Med andre ord meget sjældent.

Ligeså vil en deltager af og til få uddelt en hånd, som kan få modstanderne til at spekulere over, om nogen har kigget i kortbunken.

LÆS OGSÅ: Sådan sjusker forskere med statistik

Kortspil_Poker_Statistik

P-værdi er med til at sige noget om sandsynlighed, hvilket kan anvendes i poker. (Foto: Shutterstock)

Kan fejlagtigt tro, at medicin virker

Sådan kan det også være i forskning.

Forestil dig, at du er en forsker, som skal undersøge et smertestillende præparat, der skal være med til at lindre hovedpine.

Du udvælger nogle forsøgspersoner, som derefter gennemgår en undersøgelse.

Selv om medicinen i realiteten ingen effekt har, vil du i visse tilfælde have et udvalg af personer, hvor det tyder på, at præparatet har en positiv effekt.

Det skyldes imidlertid ikke sjusk eller uredelighed fra forskerens side af. Det er bare sådan, det er her i verden - eller rettere sagt i den statistiske verden.

»Du kan formå at udvælge et fuldstændig tilfældig skare af mennesker, men forsøget kan stadig risikere at blive skævt, og du kan være uheldig,« fortæller Simen Gaure.

Derfor har videnskaben udarbejdet det, som kaldes en P-værdi.

LÆS OGSÅ: Lær statistik og lev længere

Siger ikke noget om sandheden

P’et i p-værdi står egentlig for 'probability', hvilket er det engelske ord for sandsynlighed.

Men p-værdien siger intet om sandsynligheden for, om din hypotese er sand eller ikke.

»P-værdien siger noget om usikkerhed i din trækning af dit udvalg,« siger Simen Gaure.

Man siger normalt, at p-værdien fortæller noget om, hvor sandsynligt det er, at resultatet skyldes tilfældigheder, held eller uheld. Men selv dette er en upræcis forklaring, som vi vender tilbage til senere.

... Eller følg os på Facebook, Twitter eller Instagram.

Skævt udvalg

Det kan ske, at patienterne, som du tilfældigt udvalgte til dit hovedpinestudie, af en eller anden ukendt årsag fik det bedre uafhængigt af den medicin, du gerne vil teste.

Eksempelvis kan tilfældigheder have betydet, alle de udvalgte personer var til fest dagen før, og de derfor har en dundrende hovedpine, der skyldes et højt alkoholindtag i løbet af natten.

Og hvis målet er at teste virkningen på hele befolkningen, vil du heller ikke udelukkende have deltagere med en kraftig migræne.

For så bliver udvalget skævt og kan påvirke resultaterne. Men den usikkerhed kan p-værdien sige noget om.

Den angives i procent fra 0-100, men normalt skrives den med decimaler.

10 procent usikkerhed skrives 0,10 - og 5 procent er det samme som 0,05 og så videre.

eksamen_uddannelse_studie_prøve_test_gymnasium_ungdomsuddannelse_årsprøver_elev

Flere forskere råber op omkring brugen af P-værdi og signifikans. (Foto: Shutterstock)

LÆS OGSÅ: Forskere trues til tavshed: »I skulle smides op mod en mur og likvideres«

Sådan tester forskerne

Det forskerne normalt gør er, at de formulerer en såkaldt nulhypotese.

Den siger oftest bare, at der ikke er nogen effekt af eksempelvis medicinen, som du vil teste. Ellers tager den udgangspunkt i eksisterende forskning.

Derefter opstiller man det, som kaldes en alternativ hypotese, som siger, at medicinen har en effekt, eller at den fremherskende opfattelse ikke nødvendigvis er den rigtige.

Det er egentlig det, de gerne vil teste, men rent metodisk er det nulhypotesen, de tester.

Det kan være lidt vanskeligt at følge med, men forestil dig kortbunken igen.

Nulhypotesen kan være, at vi har en normal kortbunke med fire konger. Den alternative hypotese kan være, at vi har en bunke med mere end fire konger.

Dernæst får du uddelt fem kort, hvor tre er konger.

Det p-værdien så siger noget om er, hvor sandsynligt det er at blive tildelt tre eller flere konge, eftersom det er korrekt, som nulhypotesen klarlægger, at der er fire konger i hele kortbunken.

Med andre ord: Hvis du har en kortbunke med fire konger, hvor sandsynligt er det så, at du får tre eller fire konger i første uddeling af kort?

I medicineksemplet bliver det stillet op således:

Tænk, hvis medicinen ikke har en effekt, hvor sandsynligt er det så, at du med dette udvalg af mennesker alligevel får et resultat, som viser, at medicinen virker mod hovedpine?

LÆS OGSÅ: Forskningsfriheden er truet på danske universiteter

Kan ikke tolke på p-værdien

Som tidligere nævnt er det normalt at omtale p-værdien som sandsynligheden af, om et resultat skyldes tilfældigheder, held eller uheld.

Men vi bliver nødt til at stramme den formulering yderligere ind.

»P-værdien siger kun noget om sandsynligheden for observationerne, givet at nulhypotesen er sand,« forklarer seniorforsker for den norske regnecentral Kristoffer Hellton.

Han fortsætter:

»P-værdien siger ikke noget om, hvorvidt selve hypotesen er sand eller ikke, men måler kun observationerne op imod den specifikke nulhypotese«.

Ord som ‘tilfældigheder’, ‘held’ eller ‘uheld’ kan være med til at forklare, hvorfor og hvordan ting sker.

Men så er vi i gang med at tolke på p-værdien, og det er, når vi tolker på den, at problemerne opstår.

P-værdien er nemlig neutral og følelsesløs.

Enkel og vanskelig at regne ud

P-værdien er egentlig bare et tal, men der ligger selvfølgelig et regnestykke bag.

Det er et regnestykke, som er lidt for kompliceret til at skrive om her, men som automatisk kommer ud af forskernes statistiske værktøjskasse.

Man kan selv finde p-værdien i statistikker, som der laves i et regneark på din computer.

Men det er fortsat bare et tal på usikkerheden i selve undersøgelsen. Den siger altså intet om styrken af de effekter, man ønsker at undersøge.

Den siger heller ikke noget om sandhederne i dine konklusioner.

Alligevel er der mange forskere, som bruger det som en bekræftelse på, at medicinen har en virkning - eller som et bevis på, at den ingen effekt har. En praksis, som mange nu advarer imod.

Der er nemlig en tæt kobling mellem p-værdien, og det som kaldes statistisk signifikans. Et begreb, som kan opfattes som ladet ord, fordi det kan forstås som noget betydningsfuldt.

LÆS OGSÅ: Nye EU-regler truer unik dansk forskning

Statistisk signifikans

Det er blevet normalt at sige, at en p-værdi, som er 0,05 eller lavere, er statistisk signifikant. Og forskere konkluderer da også gerne med, at deres undersøgelse forkaster nulhypotesen og altså påviser en effekt.

På samme måde bliver en p-værdi over 0,05 - som derfor ikke er statistisk signifikant - brugt til at fastslå, at nulhypotesen er sand, og der derfor ingen sammenhæng findes.

Men det siger p-værdien altså intet om. Der er altid en risiko for, at man vil forkaste en nulhypotese, som er sand.

Omvendt er der også altid en risiko for, at man bekræfter en nulhypotese, som er usand.

Og grænsen kunne lige så godt være sat et andet sted. Af og til gange er det også tilfældet, og den bliver eksempelvis sat ved 0,01.

»Problemer opstår, når man blindt fokuserer på p-værdier og tror, at den fortæller, om noget er sandt,« fortæller Kristoffer Hellton.

Han uddyber:

»Signifikant i den statiske betydning skal ikke forstås som vigtig, betydningsfuld, stor eller tydelig. En forskel kan være statistisk signifikant og samtidig være irrelevant i en mere praktisk betydning. Eksempelvis vil enhver ubetydelig forskel mellem to grupper blive signifikant, hvis bare forskeren studerer grupper, der er store nok.«

Falske sammenhænge

P-værdien bliver automatisk lavere, når udvalget bliver større, og det giver store muligheder i vor tid, hvor forskere kan sidde på enorme mængder data.

De kan uden store problemer hive informationer ud om eksempelvis en million Facebook-brugere. Antallet giver dermed lave p-værdier, uden at det siger noget om sandheden af datamaterialet.

Når mængden af data er stor nok, vil det nemlig altid være muligt at finde sammenhænge, når man begynder at lede - også selv om sammenhængen er falsk.

»Hvis du leder i store datamængder, vil du finde ting, som åbenlyst ikke har noget hinanden at gøre, men som alligevel ser ud til at have en sammenhæng,« fortæller matematikprofessor Jan Terje Kvaløy fra Univerisitetet i Stavanger.

Hjemmesiden tylervigen.com har eksempelvis fundet sammenhæng mellem ting, som vi kan være rimelig sikre på, ikke har noget med hinanden at gøre.

Eksempler på dette er sammenhængen mellem amerikansk import af råolie fra Norge, og hvor mange bilister som bliver dræbt i togulykker i USA.

Eller sammenhængen mellem hvor mange amerikanere, der drukner efter at være faldet i et svømmebassin, og antallet af film som Nicolas Cage spiller med i.

Sammenfald_togulykker_P-værdi

Graf over norsk olie og togulykker i USA. (http://tylervigen.com/spurious-correlations)

LÆS OGSÅ: Guide: Bliv en kritisk læser af nyheder om forskning

P-værdi i forandring

P-værdien ændrer sig ligeledes, hvis du ændrer din nulhypotese. Og den er samtidig afhængig af, hvilken statistisk model du anvender.

Der ligger mange antagelser til grund for p-værdien i en omfattende videnskabelig undersøgelse.

Regnestykkerne bliver ganske kompliceret sammenlignet med det mere enkle pokereksempel.

»Men udfører du regnestykker korrekt, får du et fint anslag,« fortæller Simen Gaure.

Resultater, som er signifikante, bliver oftere publiceret

0,05-kulturen har indtaget store dele af forskningsverdenen. I et opråb i tidsskriftet Nature advarer forskerne mod, hvad der kan ske, hvis forskere og videnskabelige tidsskrifter bruger tallet som en grænse for, om et nye fund er interessant eller ej.

Og man kan i værste fald komme galt afsted.

»Man risikerer, at ting forsvinder,« fortæller Simen Gaure og fortsætter:

»Hvis man får en effekt, som ikke er signifikant, kan man ikke slå fast, at den ikke er der. Man kan ikke bevise nulhypotesen«.

En P-værdi på 0,05 som et resultat, der viser, at en medicin har en effekt, fortæller egentlig, at der er fem procent sandsynlighed for at få et præcist resultatet - og så selv om medicinen ikke har en effekt.

Værdien på 0,05 kan tolkes, som at resultatet er korrekt og vigtigt, og døren kan derfor blive åbnet til videnskabelige tidsskrifter og til store og små medier.

I videnskabelige tidsskrifter er der flest artikler, som konkluderer med en sammenhæng. Det er mere sjældent at læse om studier, hvor forskerne ikke har fundet en sammenhæng overhovedet.

19 ud af 20 studier kan vise noget andet

Hvis du gentager det samme eksperiment 20 gange, kan du risikere, at 19 af dem viser, at medicinen ikke har en effekt.

Og hvis disse 19 har en p-værdi over 0,05, er det langt fra sikkert, at de bliver publiceret.

»Hvis du tester noget, som ikke har en effekt 20 gange, vil du alligevel får en undersøgelse, som viser en effekt, og den bliver publiceret, mens de andre 19 ikke bliver publiceret,« hævder Simen Gaure.

Hvis de 19 ikke bliver publiceret, får vi heller aldrig kendskab til dem. Hverken forskere, politikere eller sundhedsmyndighederne, som ellers skal vurdere medicinbrug mod den aktuelle sygdom.

I disse tilfælde vil alle gå rundt og tro, at medicinen virker, selv om der er foretaget 19 forsøg, der egentlig peger i den modsatte retning.

LÆS OGSÅ: Hvor meget forskning bliver publiceret?

LÆS OGSÅ: Få lande bruger flere penge på forskning end Danmark

© Forskning.no. Oversat af Niklas Nielsen 

... Eller følg os på Facebook, Twitter eller Instagram.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.