Økonomer masserer data for at opnå markante resultater
Ifølge nyt studie har økonomer en tendens til at skrue på deres forskningsmetoder for at opnå mere markante resultater. Det er ikke snyd, men der er brug for mere åbenhed, mener dansk professor.

Økonomiforskere retter på metoden, hvis deres resultater ikke er signifikante nok. (Foto: <a href="http://www.shutterstock.com/pic-379932850/stock-photo-stock-market-infor....)

Der er grund til at hæve øjenbrynene over arbejdsmetoderne i det økonomiske forskningsmiljø, hvis man skal tro et nyt studie, som netop er udgivet i American Economic Journal: Applied Economics.

Ifølge studiets forfattere ’masserer’ forskere data for at gøre deres statistiske tests mere udgivelsesegnede.

Det vil sige, at hvis resultatet af en test ikke er signifikant nok, er der blandt økonomer en tendens til at justere metoden for at gøre resultatet mere signifikant og dermed mere interessant for tidsskrifterne.

Forfatterne bag studiet anklager deres kollegaer for at pumpe signifikansen af deres tests ved at vælge signifikante testspecifikationer.

»Det hænger sammen med, at økonomer er under et kæmpe pres for at blive udgivet. Det er ekstremt vigtigt for karrieren at blive udgivet i de respekterede tidsskrifter, men konkurrencen er benhård, og derfor står forskere i det dilemma, at de skal vælge, om de vil justere metoden for at få mere signifikante resultater,« siger en af forfatterne bag studiet, ph.d. og lektor Yanos Zylberberg fra University of Bristol.

Han påpeger, at blot én enkelt udgivelse i et af de prestigefyldte tidsskrifter kan give adgang til et permanent forskerjob på et amerikansk top 100-universitet.

Informations-asymmetri formindsker gennemsigtigheden

Der er ifølge Yanos Zylberberg noget særligt ved det økonomiske forskningsfelt, som besværliggør kontrollerede eksperimenter, hvilket gør det nemmere for forskere at ’massere’ data.

»Problemet er, at vi har nogle statistiske metoder, som giver en stor grad af frihed. Når man kører en test på sine data, er der en masse muligheder for at ændre lidt på specifikationerne, så resultatet bliver signifikant. For eksempel kan man udelade observationer, der virker ekstreme, selvom de kan være sande observationer. Desuden er der meget informations-asymmetri, fordi forskeren har adgang til data, som tidsskriftsreviewerne ikke har, hvilket formindsker gennemsigtigheden,« siger Yanos Zylberberg.

Studiet rejser spørgsmålet om, hvor meget vægt man kan lægge på resultater, udgivet i selv de mest respekterede tidsskrifter. Skal politikere, medier og meningsdannere være mere skeptiske over for tidsskriftsudgivet forskning, som ellers ofte bliver brugt til at legitimere politiske holdninger og ændringer af samfundets indretning?

»Der er et klart problem med, at offentligheden opfatter hver enkelt resultat som udtryk for en entydig sandhed. For forskere forholder det sig helt anderledes; for os er sandheden en akkumulering af de mange resultater, der siger noget om et bestemt emne. Når der så samtidig udgives ting, hvor resultatet er pumpet op, så understreger det vigtigheden af, at medier og politikere holder igen med at fremhæve enkelte resultater som endegyldige sandheder,« mener Yanos Zylberberg. 

Unaturligt lavt antal udgivelser med insignifikans

Studiet undersøger 50.000 tests udgivet i tre af de mest respekterede økonomiske tidsskrifter: American Economic Review, Quarterly Journal of Economics og Journal of Political Economy fra 2005 til 2011.

Når man ser på grafen over fordelingen af de publicerede tests, kan man se en lille dal mellem to pukler. Dalen repræsenterer, hvad forfatterne kalder ’manglende’ resultater, hvilket betyder, at der er et unaturligt lavt antal publicerede tests med resultater i det interval.

»Det er bemærkelsesværdigt, fordi ’dalen’ befinder sig lige før grænsen for, hvornår et resultat har statistisk signifikans. Det indikerer, at hvis forskere får et resultat, der er lige på grænsen til at være signifikant, så ændrer de lidt på metoden, så resultatet bliver signifikant og dermed udgivelsesegnet,« forklarer Yanos Zylberberg.

Ifølge studiet er 10-20 procent af de resultater, som ikke helt har nået det magiske signifikansniveau, blevet pumpet op. Studiet rejser spørgsmålet om, hvor meget vægt man kan lægge på resultater, udgivet i selv de mest respekterede tidsskrifter.
(Foto: <a>Shutterstock&lt;/a&gt;.)

I statistik arbejder man med udgangspunkt i en såkaldt nulhypotese, som fastholdes, indtil en alternativ hypotese kan accepteres. Nulhypotesen er, at der ingen forbindelse er mellem to fænomener.

Et tænkt eksempel

Lad os eksemplificere med et tænkt eksempel: En forsker vil undersøge, om en 10-procents prisstigning på en liter mælk vil påvirke salget. I det tilfælde er nulhypotesen, at prisstigningen ikke vil påvirke salget.

Før undersøgelsen fastsætter man et signifikansniveau, det vil sige en grænse for, hvornår nulhypotesen kan forkastes. Resultatet skal have en signifikans, som gør, at det ikke bare kan forklares som en ren tilfældighed. I økonomi sætter man ofte grænsen ved fem procent.

I prisstigningseksemplet vil forskeren måske spørge 1.500 tilfældige borgere, hvordan en prisstigning på 10 procent vil påvirke deres indkøb af mælk. Derudover vil han måske spørge ind til borgernes nuværende indkøbsvaner, demografiske forhold og så videre.

Når han har indsamlet sin data, kan han foretage en række statistiske tests. For at kunne forkaste nulhypotesen og dermed bevise, at en prisstigning vil påvirke salget, skal testresultatet have et signifikansniveau på fem procent eller derunder. Det vil sige, at der skal være fem procent eller mindre chance for, at resultatet er tilfældigt, før nulhypotesen kan forkastes.

Lad os sige, at han i sin første test opnår et insignifikant resultat, som dog er meget tæt på at være signifikant. Han er altså tæt på at kunne bevise med statistisk signifikans, at en prisstigning på 10 procent påvirker salget af mælk. For at opnå signifikans kan han vælge at ændre lidt i metoden. Måske ser han i sin næste test bort fra ekstreme observationer i datasættet, selvom observationerne kan være sande.

10-20 procent af resultaterne er pumpet op

Ovenstående er et forsimplet eksempel, men det kan i grove træk illustrere, hvordan man ganske nemt kan ændre lidt på specifikationerne for at opnå signifikans.

Ifølge Yanos Zylberberg indikerer dalen med de ’manglende’ resultater lige før signifikansgrænsen, at nogle forskere, hvis tests er lige på grænsen til at være signifikante, netop ændrer metoden, indtil de opnår et signifikant resultat, hvorefter de sender det til udgivelse. Ifølge studiet er 10-20 procent af de resultater, som ikke helt har nået det magiske signifikansniveau, blevet pumpet op.

»Signifikansniveauet opfattes som en parameter for, hvor interessant et studie er. Hvis resultatet er signifikant, er der større chance for udgivelse, end hvis det er lige på grænsen til at være signifikant. Derfor har forskere et incitament til at forsøge at frembringe signifikante resultater. Og det viser sig, at en del forskere vælger at gøre det,« forklarer Yanos Zylberberg.

Ældre forskere ’masserer’ mindre

Studiet har også registreret informationer om de forskere, der står bag de undersøgte studier, og her tegner sig et bestemt mønster:

Ældre forskere og forskere med fastansættelser er mindre tilbøjelige til at ’massere’ data end yngre forskere. For denne gruppe forskere er dalen lige inden signifikansniveauet på fem procent mindre tydelig.

Hvorfor forholder det sig sådan?

»Det er spekulation, men en årsag kan være, at når en tidsskriftsreviewer skal gennemgå et studie af en garvet, respekteret forsker, så er der større sandsynlighed for, at han vil godkende studiet, selvom resultatet er insignifikant. Simpelthen fordi man har tiltro til, at forskeren er dygtig og i stand til at udføre god forskning.

Ældre forskere og forskere med fastansættelser er mindre tilbøjelige til at ’massere’ data end yngre forskere. Måske skyldes det, at når en tidsskriftsreviewer skal gennemgå et studie af en garvet, respekteret forsker, så er der større sandsynlighed for, at han vil godkende studiet, selvom resultatet er insignifikant. (Foto: <a>Shutterstock&lt;/a&gt;.)

Det er derimod sværere for uprøvede, unge forskere at komme igennem nøglehullet, og derfor er det vigtigt for deres chancer, at resultaterne er signifikante,« siger Yanos Zylberberg, som understreger, at problemets rod skal findes i to lejre:

»Tidsskrifterne har en udvælgelsesbias, idet de har mere fokus på signifikans end kvaliteten af metoden. Derudover er der på grund af den hårde konkurrence og vigtigheden af at blive publiceret en udpræget lukkethed blandt forskerne. Det betyder, at den rå data sjældent bliver delt med offentligheden, hvilket forværrer gennemsigtigheden.«

Ikke særlig overraskende

Er der så tale om snyd, eller er forskerne i god tro, når de forsøger at opnå signifikante resultater ved løbende at ændre metoden?

Videnskab.dk har spurgt professor Svend Hylleberg fra Institut for Økonomi på Aarhus Universitet:

»Jeg er sikker på, at der er noget om det, forfatterne kommer frem til her, men det er ikke særlig overraskende, og der er efter min opfattelse ikke tale om snyd.«

Ifølge Svend Hylleberg er der en mere uskyldig forklaring på de ’manglende’ resultater:

»Der er og vil altid ske en udvælgelse. Både fra tidsskriftets side og fra forfatterens. Der publiceres næsten kun resultater, som på en eller anden måde er nye. Det kan være en forkastelse af en tidligere teori eller det modsatte. Studier, hvis resultater ligger midt i mellem, sendes ikke til tidsskrifterne, og hvis de gør, bliver de som regel afvist,« siger Svend Hylleberg, som dog er enig med forskerne i en del af deres kritik:

»Der er brug for mere åbenhed, herunder adgang til data. Det gælder for økonomi og for andre videnskaber.«

Forskere bør dele data

Svend Hylleberg berører dermed spørgsmålet om, hvorvidt der skal ske ændringer i økonomernes videnskabelige praksis. Forfatterne bag studiet har flere anbefalinger:

»For det første skal tidsskrifterne fokusere mindre på signifikans. De skal være mindre forhippede på kontroversielle resultater. Heldigvis går det også i den retning. For eksempel har flere af tidsskrifterne skilt sig af med deres stjernesystem,« siger Yanos Zylberberg.

Stjernesystemet er en af tidsskrifternes metoder til at kategorisere signifikansen af studier. Typisk tildeles studier en til tre stjerner, alt efter hvor signifikant resultatet er. Systemet, som flere tidsskrifter altså nu har skilt sig af med, skabte ifølge Yanos Zylberberg en usund favorisering af signifikante resultater.

»Dernæst bør forskere begynde at dele deres rå data med kollegaer og offentligheden, så alle har mulighed for at efterprøve resultaterne. Det er som sagt svært på grund af konkurrencen blandt forskere, og vi har ingen svar på, hvordan det skal kunne lade sig gøre, men det er den eneste måde at komme problemet til livs på,« mener Yanos Zylberberg.