Økonomer: For lidt gennemsigtighed i forskningen
Kan økonomisk forskning klare en efterprøvning? Ja, i 61 procent af tilfældene, viser nyt studie. Men resultatet burde være højere, og det er nødvendigt at se arbejdsmetoder efter i sømmene, vurderer forsker.

P-værdi er et statistisk udtryk, som dækker over, hvor statistisk sikkert et resultat er. En p-værdi på 0,05 betyder, at der er fem procent risiko for at godtage et resultat, selvom det ikke er korrekt. Det vil sige: jo lavere p-værdi, jo mere sikkert er resultatet. (Foto: <a href="http://www.shutterstock.com/da/pic-347239628/stock-photo-businesswoman-i... target="_blank">Shutterstock</a>)

Hvor holdbar er den forskning, som kommer ud af fagfællebedømte videnskabelige tidsskrifter, egentlig?

Det er et spørgsmål, som mange forskere stiller sig selv for tiden. Heriblandt økonomer.

Et kriterium for god forskning er, at det kan tåle at blive efterprøvet.

Det er nøjagtig, hvad et stort team af forskere har gjort. I et metastudie, der netop er udgivet i tidsskriftet Science, efterprøver holdet 18 laboratorieeksperimenter udgivet i to af de mest prestigefyldte økonomiske tidskrifter, American Economic Review og Quarterly Journal of Economics, fra 2011 til 2014.

Hvis et nyt forskerhold sætter sig for at efterprøve et gammelt forskningsresultat med præcis de samme metoder, skulle resultatet gerne blive det samme.

»Det lykkedes at få det samme resultat i 11 ud af de 18 studier, hvilket svarer til 61 procent. Det er ikke et elendigt niveau, men det burde være højere, og der er brug for forbedringer og mere gennemsigtighed,« siger Magnus Johannesson, der er professor ved Stockholm School of Economics og en af forskerne bag studiet.

»Jeg havde gerne set, at succesraten var på mindst 80 procent. Selvom vi har at gøre med en ikke-eksakt videnskab, er 61 procent stadig for lavt,« vurderer lektor ved Københavns Universitets økonomiske institut Alexander Christopher Sebald, som ikke selv er med i studiet.

Originale resultater kan være falske positiver

Men hvad er så årsagen til, at det ikke lykkedes at efterprøve resultaterne i 39 procent af tilfældene?

»De originale resultater kan være falske positiver. Det vil sige, at man har fundet en sammenhæng, som ikke er der. Vi kan se, at de studier, som ikke kunne efterprøves, ofte bygger på små samples eller har en p-værdi tæt på 0,05, hvilket øger risikoen for falske positiver,« siger Magnus Johannesson.

P-værdi er et statistisk udtryk, som dækker over, hvor statistisk sikkert et resultat er. En p-værdi på 0,05 betyder, at der er fem procent risiko for at godtage et resultat, selvom det ikke er korrekt. Det vil sige: jo lavere p-værdi, jo mere sikkert er resultatet.

Fakta

Forskergruppen består af fire internationale hold, som udvalgte de 18 originale studiers vigtigste resultater til efterprøvning.

Inden de gik i gang, offentliggjorde gruppen deres efterprøvnings- og analyseplaner og sendte det til de oprindelige forfattere, som godkendte planerne.

P-værdien knytter sig til det såkaldte signifikansniveau, som fastsætter, hvornår et resultat er signifikant. Inden for mange forskningsfelter, herunder økonomi, er niveauet ofte fastsat til 5 procent.

Udgivelsesbias og p-hacking kan være synderne

Resultater med en p-værdi på 0,05 eller derunder har større chance for at blive udgivet end resultater med mindre signifikans. Det kaldes udgivelsesbias, og det kan skabe et incitament for forskere til at opnå det efterstræbte signifikansniveau, så de kan få deres forskning udgivet.

»Problemet med udgivelsesbias er, at signifikans bliver et mål i sig selv. Det gør, at nogle forskere, bevidst eller ubevidst, vælger metoder, som kan give et signifikant resultat,« siger Magnus Johannesson.

Den tendens har Videnskab.dk fornylig berettet om i forbindelse med udgivelsen af et stort studie, som fandt, at økonomiske forskere masserer data for at opnå markante resultater.

»Vi kalder det p-hacking, når forskere på denne måde ændrer metoden undervejs for at opnå signifikans. Det er generelt et stort problem i forskningsverdenen – også i økonomi,« siger Magnus Johannesson.

Om det er det, der gør sig gældende for de 39 procent af studierne, som ikke kunne efterprøves, står hen i det uvisse, da forskerne bag efterprøvningen ikke vil udtale sig om de enkelte studier.

»Det er også vigtigt at sige, at en mislykket efterprøvning ikke nødvendigvis betyder, at der er noget galt med det originale studie. Som i alle statistiske undersøgelser er der også i vores efterprøvning en lille risiko for at ramme ved siden af på grund af statistisk usikkerhed. Der er brug for flere efterprøvninger for at øge den statistiske sikkerhed.«

Efterprøvning er en udbredt tendens

Studiet lægger sig i slipstrømmen af en række lignende studier, som har haft til formål at efterprøve resultater i andre forskningsfelter.

Økonomerne har især været inspireret af et studie fra psykologien, som blev udgivet i 2015, ligeledes i tidsskriftet Science.

Her forsøgte en masse forskellige forskerhold at efterprøve 100 udvalgte eksperimenter udgivet i tre højtprofilerede tidsskrifter. Resultatet var imidlertid betydeligt mere alarmerende end økonomernes ditto. Kun 36 procent kunne efterprøves.

Der blev udvalgt 18 originale studiers vigtigste resultater, der skulle efterprøves. Inden gruppen gik i gang, offentliggjorde de deres efterprøvnings- og analyseplaner som blev godkendt af de oprindelige forfattere.
(Foto: <a>Shutterstock&lt;/a&gt;)

Resultatet af psykologi-efterprøvningsprojektet bliver dog udfordret i den seneste udgave af Science af et andet hold af psykologer, som mener, at efterprøvningen er fejlbehæftet, og at succesraten i virkeligheden er højere. Det er der dog delte meninger om.

Forskere bør registrere analysemetoder inden studiet

På baggrund af efterprøvningsstudierne ser det umiddelbart ud til, at økonomerne klarer sig bedre end psykologerne, men der er stadig lang vej til 100 procent, og det kalder på nye måder at gå til forskningen på, mener Magnus Johannesson:

»En mulighed er at oprette enheder, som udelukkende beskæftiger sig med efterprøvning. De kunne så udvælge tilfældige studier til efterprøvning. Når man som forsker ved, at der er chance for, at ens studie bliver efterprøvet, vil det mindske incitamentet til p-hacking.«

Magnus Johannesson foreslår også, at det bliver ny praksis, at forskere registrerer deres analysemetoder, før de går i gang med studiet. En metode, som flere tidsskrifter i forskellige forskningsfelter allerede forsøger sig med.

»Hvis alle kan se, hvordan man har tænkt sig at udføre et eksperiment, så er det svært at afvige fra det, når eksperimentet står på. Det gør det også nemmere for andre at efterprøve og kontrollere resultaterne. Generelt er der brug for mere datadeling og gennemsigtighed.«

Danske laboratorier arbejder på at øge gennemsigtigheden

Forslaget om at for-registrere analyseplaner falder i god jord hos Alexander Christopher Sebald fra Københavns Universitet:

»Resultatet af studiet her viser, at økonomer bør være mere åbne omkring deres studier. Her er for-registrering en god løsning.«

Han fortæller, at der på danske universiteter faktisk foregår et forsøg på at opbygge et netværk mellem samfundsvidenskabelige laboratorier, som skal øge gennemsigtigheden.

»Vi har søgt penge hos Forskningsministeriet til at etablere et netværk, hvor et af formålene er at oprette et system, hvor vi kan registrere vores eksperimenter, inden vi går i gang, så det hele bliver mere transparent,« fortæller Alexander Christopher Sebald, som er glad for at se, at der er kommet fokus på efterprøvning:

»Jeg håber, det bliver muligt at lave flere af denne slags efterprøvningsstudier. Jeg tror desværre, det bliver svært, fordi der ikke er en vilje til at bruge de nødvendige ressourcer. Som i alle andre discipliner er der meget fokus på ny viden og nye resultater, og efterprøvninger passer i sagens natur ikke godt i det dogme. Men et studie som dette understreger vigtigheden af, at vi får kigget os selv og hinanden efter i sømmene.«