I første artikel om sandsynlighedsberegningen p-værdi, probability value på engelsk, forklarede jeg p-værdiens oprindelse og teoretiske grundlag. I denne anden og sidste artikel ser vi nærmere på, hvilke konsekvenser p-værdien har for forskningen.
- Når forskere tester ideer eller hypoteser er der typisk inkluderet en såkaldt nulhypotese – en konservativ antagelse om, at der ikke er nogen sammenhæng mellem forsøget og resultaterne.
- P-værdien udtrykker sandsynligheden for, at man ville få det observerede forsøgsresultat, hvis nulhypotesen er sand.
- Forskeres iver efter at få lave p-værdier gør blandt andet, at megen forskning ikke bliver udgivet, fordi p-værdien tillægges for stor vægt.
Det er velkendt, at der sker en underrapportering af de forsøgsresultater, hvor forskerne ikke har opnået signifikans, enten fordi forskerne selv fortier dem, eller fordi de videnskabelige tidsskrifter foretrækker signifikante resultater og er kølige over for 'negative' udfald – såkaldt publication bias.
Brug af p-værdien til signifikanstest medfører også, at størrelsen af de fundne effekter overvurderes, fordi kun de effekter, der som følge af tilfældige udsving er særligt kraftige, passerer signifikansgrænsen.
Som en analogi kan man forestille sig en sømand, der kun kalder havet uroligt, når bølgerne skvupler ind over dækket (signifikansgrænsen overskrides).
Han vil generelt overvurdere, hvor kraftigt havet bringes i oprør af storme, fordi han misser de typiske tilfælde, hvor havet er mere uroligt, end det plejer, men ikke uroligt nok til, at bølgerne når op over dækket.
Denne inflation i effektstørrelsen kaldes ’vinderens forbandelse’ – et udtryk fra auktionsverdenen, hvor den højestbydende risikerer at betale for meget i forhold til den reelle markedsværdi af den købte vare.
Man kan vise, at dette problem yderligere forværres, hvis forsøgets styrke er lav, hvilket har stor praktisk betydning.
Konsekvensen af vinderens forbandelse er, at når andre forskningsgrupper gentager de samme forsøg, finder de ofte en skuffende svag eller slet ingen effekt.
Denne manglende evne til at gentage (replikere) tidligere opnåede forsøgsresultater er udråbt som en 'replication crisis' med særligt fokus på adfærdspsykologi og lægevidenskab.
Opgør med signifikanstesten
Årsagerne til 'krisen' er mange, men et centralt problem er altså den måde, hvorpå man anvender p-værdien – med fem procent-sandsynligheden (eller en anden procentsats) som et sort/hvidt kriterium for, om der er effekt eller ej.
Der er præsenteret flere forskellige løsninger. En af de mere rabiate er helt at forbyde rapportering af p-værdier i indsendte manuskripter, som hos det videnskabelige tidsskrift Basic and Applied Social Psychology.
Et andet tiltag er nedadforskydning af den konventionelle signifikansgrænse på fem procent til for eksempel 0.005 procent. I nogle videnskabsgrene er dette allerede normen – for eksempel astrofysik, der opererer med meget lave p-værdier.
Denne løsning vanskeliggør blandt andet p-hacking, men er ikke uden problemer. Inden for biovidenskaben vil den kræve brug af flere forsøgsdyr og i medicinafprøvninger flere forsøgspersoner – en stor etisk og økonomisk udfordring.
En fundamental indvending mod signifikanstests foretaget på grundlag af p-værdier er, at de ikke forholder sig til det, som vi forskere egentlig helst vil vide. Med Ronald Fishers tankegang spørger vi: Hvis en bestemt hypotese er sand, hvad er da sandsynligheden for den gjorte observation?
Men det virkeligt interessante er jo det omvendte: Hvad er sandsynligheden for en given hypotese, når vi har gjort observationen (dette kaldes hypotesens a posteriori sandsynlighed)? En fraktion af statistikere, der kaldes bayesianere, arbejder ud fra denne tankegang.
Problemet for dem er, at for at beregne hypotesens a posteriori-sandsynlighed, må man ifølge lovene for sandsynlighedsregning kende sandsynligheden for hypotesen, allerede inden man har gjort sin observation.
Denne a priori-sandsynlighed kendes kun præcist i særlige tilfælde for eksempel ved screeninger for en sygdom, hvor sygdommens hyppighed i befolkningen er kendt på forhånd.
Stadig håb for p-værdien
Læseren har måske nu fået indtryk af, at kvantitativ videnskab nærmest famler i blinde. Så slem er sagen ikke – vi bliver faktisk klogere på verden, ny og bedre medicin bliver faktisk udviklet og så videre. Men opmærksomheden på de skitserede problemstillinger er øget i de senere år – ikke mindst fordi der udføres flere signifikanstest med p-værdier end nogensinde før.
Denne artikel er en del af ForskerZonen, som er stedet, hvor forskerne selv kommer direkte til orde. Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
ForskerZonen er støttet af Lundbeckfonden.
Udover at rette større opmærksomhed mod vigtigheden af effektstørrelsen, har fagstatistikere blandt andet fremhævet behovet for at øge forsøgsstyrken (også et stigende krav fra de videnskabelige tidsskrifter).
Bayesianske metoder vil formentlig med tiden få en større plads; de kan være beregningstunge, men det problem reduceres af den stadige øgning i computerkraft.
Det er også foreslået, at førstegangsforsøg bør gentages mere systematisk, og at disse 'kedelige' gentagelsesforsøg får en større videnskabelig status, end de har nu.
I det hele taget er der et behov for at bekæmpe en forskningskultur, hvor den dominerende konkurrenceparameter er forceret (baseret på for lav forsøgsstyrke) publikation af 'signifikante' førstegangsresultater i prestigiøse videnskabelige tidsskrifter, der drives som forretning.
Hvad angår p-værdien, er der fremsat gode argumenter for, at den bør frigøres fra signifikanstests og i stedet vurderes selvstændigt som det, den i realiteten er: Et gradueret mål for evidens imod nulhypotesen. Bare p-værdien ikke misbruges, behøver den heller ikke forlades.