Misbrug af p-værdi fordrejer udgivelse af forskning
Forskere og tidsskrifter er modvillige til at udgive resultater med høje p-værdier. I fremtiden kan andre metoder overtage p-værdiens rolle som mål for troværdigheden af videnskabelige konklusioner.
p-værdi udregning forsøg data statistik studier forskere research kritik

Forskningsmiljøet er bevidst om, at p-værdien nogle gange spiller for stor en rolle. Derfor har tidsskriftet Basic and Applied Social Psychology helt forbudt rapportering af p-værdier. (Foto: Shutterstock)

Forskningsmiljøet er bevidst om, at p-værdien nogle gange spiller for stor en rolle. Derfor har tidsskriftet Basic and Applied Social Psychology helt forbudt rapportering af p-værdier. (Foto: Shutterstock)

I første artikel om sandsynlighedsberegningen p-værdi, probability value på engelsk, forklarede jeg p-værdiens oprindelse og teoretiske grundlag. I denne anden og sidste artikel ser vi nærmere på, hvilke konsekvenser p-værdien har for forskningen.

Historien kort
  • Når forskere tester ideer eller hypoteser er der typisk inkluderet en såkaldt nulhypotese – en konservativ antagelse om, at der ikke er nogen sammenhæng mellem forsøget og resultaterne.
  • P-værdien udtrykker sandsynligheden for, at man ville få det observerede forsøgsresultat, hvis nulhypotesen er sand.
  • Forskeres iver efter at få lave p-værdier gør blandt andet, at megen forskning ikke bliver udgivet, fordi p-værdien tillægges for stor vægt.

Det er velkendt, at der sker en underrapportering af de forsøgsresultater, hvor forskerne ikke har opnået signifikans, enten fordi forskerne selv fortier dem, eller fordi de videnskabelige tidsskrifter foretrækker signifikante resultater og er kølige over for 'negative' udfald – såkaldt publication bias.

Brug af p-værdien til signifikanstest medfører også, at størrelsen af de fundne effekter overvurderes, fordi kun de effekter, der som følge af tilfældige udsving er særligt kraftige, passerer signifikansgrænsen.

Som en analogi kan man forestille sig en sømand, der kun kalder havet uroligt, når bølgerne skvupler ind over dækket (signifikansgrænsen overskrides).

Han vil generelt overvurdere, hvor kraftigt havet bringes i oprør af storme, fordi han misser de typiske tilfælde, hvor havet er mere uroligt, end det plejer, men ikke uroligt nok til, at bølgerne når op over dækket.

Denne inflation i effektstørrelsen kaldes ’vinderens forbandelse’ – et udtryk fra auktionsverdenen, hvor den højestbydende risikerer at betale for meget i forhold til den reelle markedsværdi af den købte vare.

Man kan vise, at dette problem yderligere forværres, hvis forsøgets styrke er lav, hvilket har stor praktisk betydning.

Konsekvensen af vinderens forbandelse er, at når andre forskningsgrupper gentager de samme forsøg, finder de ofte en skuffende svag eller slet ingen effekt.

Denne manglende evne til at gentage (replikere) tidligere opnåede forsøgsresultater er udråbt som en 'replication crisis' med særligt fokus på adfærdspsykologi og lægevidenskab.

Opgør med signifikanstesten

Årsagerne til 'krisen' er mange, men et centralt problem er altså den måde, hvorpå man anvender p-værdien – med fem procent-sandsynligheden (eller en anden procentsats) som et sort/hvidt kriterium for, om der er effekt eller ej.

Der er præsenteret flere forskellige løsninger. En af de mere rabiate er helt at forbyde rapportering af p-værdier i indsendte manuskripter, som hos det videnskabelige tidsskrift Basic and Applied Social Psychology.

Et andet tiltag er nedadforskydning af den konventionelle signifikansgrænse på fem procent til for eksempel 0.005 procent. I nogle videnskabsgrene er dette allerede normen – for eksempel astrofysik, der opererer med meget lave p-værdier.

Denne løsning vanskeliggør blandt andet p-hacking, men er ikke uden problemer. Inden for biovidenskaben vil den kræve brug af flere forsøgsdyr og i medicinafprøvninger flere forsøgspersoner – en stor etisk og økonomisk udfordring.

p-værdi udregning forsøg data statistik studier forskere research kritik

Der bliver ofte lagt mange kræfter i at præsentere p-værdien i et studie på den rigtige måde. (Foto: Shutterstock)

En fundamental indvending mod signifikanstests foretaget på grundlag af p-værdier er, at de ikke forholder sig til det, som vi forskere egentlig helst vil vide. Med Ronald Fishers tankegang spørger vi: Hvis en bestemt hypotese er sand, hvad er da sandsynligheden for den gjorte observation?

Men det virkeligt interessante er jo det omvendte: Hvad er sandsynligheden for en given hypotese, når vi har gjort observationen (dette kaldes hypotesens a posteriori sandsynlighed)? En fraktion af statistikere, der kaldes bayesianere, arbejder ud fra denne tankegang.

Problemet for dem er, at for at beregne hypotesens a posteriori-sandsynlighed, må man ifølge lovene for sandsynlighedsregning kende sandsynligheden for hypotesen, allerede inden man har gjort sin observation.

Denne a priori-sandsynlighed kendes kun præcist i særlige tilfælde for eksempel ved screeninger for en sygdom, hvor sygdommens hyppighed i befolkningen er kendt på forhånd.

Stadig håb for p-værdien

Læseren har måske nu fået indtryk af, at kvantitativ videnskab nærmest famler i blinde. Så slem er sagen ikke – vi bliver faktisk klogere på verden, ny og bedre medicin bliver faktisk udviklet og så videre. Men opmærksomheden på de skitserede problemstillinger er øget i de senere år – ikke mindst fordi der udføres flere signifikanstest med p-værdier end nogensinde før.

ForskerZonen

Denne artikel er en del af ForskerZonen, som er stedet, hvor forskerne selv kommer direkte til orde. Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
ForskerZonen er støttet af Lundbeckfonden.

Udover at rette større opmærksomhed mod vigtigheden af effektstørrelsen, har fagstatistikere blandt andet fremhævet behovet for at øge forsøgsstyrken (også et stigende krav fra de videnskabelige tidsskrifter).

Bayesianske metoder vil formentlig med tiden få en større plads; de kan være beregningstunge, men det problem reduceres af den stadige øgning i computerkraft.

Det er også foreslået, at førstegangsforsøg bør gentages mere systematisk, og at disse 'kedelige' gentagelsesforsøg får en større videnskabelig status, end de har nu.

I det hele taget er der et behov for at bekæmpe en forskningskultur, hvor den dominerende konkurrenceparameter er forceret (baseret på for lav forsøgsstyrke) publikation af 'signifikante' førstegangsresultater i prestigiøse videnskabelige tidsskrifter, der drives som forretning.

Hvad angår p-værdien, er der fremsat gode argumenter for, at den bør frigøres fra signifikanstests og i stedet vurderes selvstændigt som det, den i realiteten er: Et gradueret mål for evidens imod nulhypotesen. Bare p-værdien ikke misbruges, behøver den heller ikke forlades.

Podcasten Brainstorm

Lyt til Videnskab.dk's podcast om hjernen, Brainstorm, herunder. Du kan også finde flere podcasts fra Videnskab.dk i din podcast-app under navnet 'Videnskab.dk Podcast'.

Videnskabsbilleder

Se de flotteste forskningsfotos på vores Instagram-profil, og læs om det betagende billede af nordlys taget over Limfjorden her.

Ny video fra Tjek

Tjek er en YouTube-kanal om videnskab henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's videojournalister med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.

Hej! Vi vil gerne fortælle dig lidt om os selv

Nu hvor du er nået helt herned på vores hjemmeside, er det vist på tide, at vi introducerer os.

Vi hedder Videnskab.dk, kom til verden i 2008 og er siden vokset til at blive Danmarks største videnskabsmedie med omkring en million brugere om måneden.

Vores uafhængige redaktion leverer dagligt gratis forskningsnyheder og andet prisvindende indhold, der med solidt afsæt i videnskabens verden forsøger at give dig aha-oplevelser og væbne dig mod misinformation.

Vores journalister fortæller historier om både kultur, astronomi, sundhed, klima, filosofi og al anden god videnskab indimellem - i form af artikler, podcasts, YouTube-videoer og indhold på sociale medier.

Vi stiller meget høje krav til, hvordan vi finder og laver vores historier. Vi har lavet et manifest med gode råd til at finde troværdig information, og vi modtog i 2021 en fornem pris for vores guide til god, kritisk videnskabsjournalistik.

Vores redaktion gør en dyd ud af at få uafhængige forskere til at bedømme betydningen af nye studier, og alle interviewede forskere citat- og faktatjekker vores artikler før publicering.

Hvis du går rundt og undrer dig over stort eller småt, vil vi elske at høre fra dig og forsøge at give dig svar med forskernes hjælp. Send bare dit spørgsmål til vores brevkasse Spørg Videnskaben.

Vi håber, at du vil følge med i forskningens forunderlige opdagelser her på Videnskab.dk.

Få et af vores gratis nyhedsbreve sendt til din indbakke. Du kan også følge os på sociale medier: Facebook, Twitter, Instagram, YouTube eller LinkedIn.

Med venlig hilsen

Videnskab.dk