Resultaterne af hvert tredje samfundsvidenskabelige forsøg kan ikke genskabes
Resultaterne var endda udgivet i verdens fineste tidsskrifter. Problemet lægger sig i slipstrømmen af en større reproduktionskrise.
Reproduktion af forskning

Det gik slet ikke som første gang, da forskere gentog eksperimenter inden for felter som psykologi, sociologi og økonomi. (Foto: Shutterstock)

En af videnskabens grundpiller er, at forsøg skal kunne gentages med samme resultat for at være troværdige.

Reproducerbarhed, som det hedder, højner studiets troværdighed, men det er et udbredt problem, at mange eksperimentelle studier på det samfundsvidenskabelige område, herunder psykologi, økonomi og sociologi, ikke kan reproduceres.

Denne problematik underbygges nu i et nyt studie i tidsskriftet Nature Human Behaviour.

Her har forskergruppen forsøgt at reproducere resultater af 21 samfundsvidenskabelige studier, bragt i nogle af verdens førende videnskabelige tidsskrifter over en årrække, men kun 62 procent af resultaterne kan gengives.

»Det indikerer, at der er meget plads til forbedring,« siger Magnus Johannesson, som er ph.d. i økonomi ved Handelshögskolan i Stockholm og medforfatter på studiet.

»Hvis vi ønsker høj troværdighed, er en 62 procents reproduktionsrate for lav til, at vi kan tale om solid forskning.«

Førende tidsskrifter dumper eftersyn

Det er Torben Tranæs, som er ph.d. i økonomi, økonomisk vismand og forskningsdirektør for VIVE - Det Nationale Forsknings- og Analysecenter for Velfærd, helt enig i.

Han har vurderet det nye studie som udenforstående fagfælle og mener, at de nye resultater viser, at forskersamfundet skal have en ambition om at øge fokus på reproduktionsraten:

»Det er bemærkelsesværdigt, at forskergruppen ikke kan repetere 40 procent af nogle af de mest omhyggelige studier fra de absolut bedste tidsskrifter i verden. Så kan man frygte, at en endnu større andel resultater ikke kan gentages i lavere rangerende tidsskrifter.«

Videnskab.dk har tidligere skrevet om, at kvaliteten af indholdet ikke altid er højere i de meget prestigefulde tidsskrifter som Nature og Science. Det kan du læse i artiklen 'Nature og Science: Prestige ikke lig med troværdigt indhold'.

Studiet kort fortalt

Forskergruppen har forsøgt at reproducere resultaterne af 21 samfundsvidenskabelige studier, udvalgt efter disse kriterier:

  • De er udgivet i enten tidsskriftet Nature eller Science mellem 2010 og 2015.
  • Det er eksperimentelle studier, altså kontrollerede forsøg, hvor man udsætter en gruppe for en påvirkning, og tester, hvordan den har indflydelse på deres adfærd, ved at sammenligne gruppen med en kontrolgruppe, der ikke er blevet udsat for påvirkningen. Man kan også udsætte den samme gruppe for flere forskellige påvirkninger og måle, hvor forskellige deres reaktioner er på dem.

Forskergruppen kom frem til, at:

  • 8 ud af 21 resultater kunne ikke reproduceres.
  • Effekten målt i de 13 studier, som kan reproduceres, var stadig kun halvt så stor som oprindeligt målt.

Under reproduktionen brugte forskerne i gennemsnit fem gange så mange forsøgspersoner som i de oprindelige studier, fordi det giver en mere nøjagtig måling af påvirkningens effekt.

Et problem på kryds og tværs af videnskabelige områder

Det nye resultat lægger sig i slipstrømmen af de seneste års forsøg på reproduktioner af studier fra forskellige områder indenfor samfundsvidenskaberne.

Ifølge Ingo Zettler, professor MSO ved Institut for Psykologi på Københavns Universitet, stemmer det nye studies reproduktionsrate på 62 procent nogenlunde overens med de tidligere studier:

»I tidligere reproduktionsstudier har reproduktionsraten varieret en del, men det lader til, at man har kunnet gengive omkring 40 til 60 procent af resultaterne. Jeg vil dog samtidig pointere, at der er kommet mere fokus på den lave reproduktionsrate siden 2015,« siger han. (Mere om øget fokus på reproduktion senere i artiklen)

Magnus Johannesson har været medforfatter på flere af de seneste års forsøg på reproduktioner, og mener ikke bare, at de ringe resultater er fremherskende i samfundsvidenskaberne. Han ser det som et generelt problem.

Især psykologiforskningen er blevet kritiseret for at udgive resultater, der ikke kan reproduceres, men ifølge Magnus Johannesson er psykologiforskningen ikke værre end andre videnskabelige felter.

»Problemet med reproduktion er bare blevet undersøgt langt mere inden for psykologiforskning end inden for andre videnskaber, så psykologien er nok det område, hvor man har indført flest tiltag for at forbedre repeterbarheden,« fortæller han.


Tidsskrifter genudgiver ikke kopiresultater

»Reproduktionsforskning fylder ganske lidt, og det er svært at få den type forskning finansieret og publiceret. Hvis ny forskning siger det samme som tidligere, er det ikke så interessant for tidsskrifterne. De, som skal finansiere det, vil sige: ’Det er jo lavet før’, så derfor laves der relativt lidt af den type forskning,« fortæller Torben Tranæs.

Det han beskriver, er et såkaldt publication bias, som er et veldokumenteret fænomen indenfor videnskaben i al almindelighed.

Begrebet dækker over, at det er lettest at få udgivet forskningsresultater, der finder, at et eller andet har en effekt, imens forskningsresultater med nul-fund, det vil sige som ikke giver et entydigt svar på, hvorvidt der er en effekt, har anderledes trange kår.

Ifølge Tranæs understreger publication biaset vigtigheden af at have mange observationer med i sine studier, så man kan finde selv små eller nul-effekter.

Men han mener ikke altid, at forskerne har mulighed for at have mange forsøgspersoner med i deres undersøgelser.

Store forsøg koster

Forsøgspersoner skal ifølge Torben Tranæs ofte betales, og store mængder af forsøgspersoner kræver mere organisering og rekruttering af flere forskere.

»For få forsøgspersoner svækker resultatets troværdighed, fordi for få forsøgspersoner gør det svært at måle effekter (hvor meget forsøgspersonen påvirkes) nøjagtigt,« siger Torben Tranæs fra VIVE.

»Derfor mener jeg, at opdragsgivere, forskningsråd og forskere, der bevilliger forskningsmidler, bør gøre det lettere at få midler til eksperimenter med mange observationer. De skal generelt interessere sig mere for præcisionen i eksperimenterne,« siger han.

Et problem i forskningsmiljøet

Torben Tranæs mener desuden, at problemet med for få observationer er strukturelt. Derfor skal man ikke pege fingre ad de enkelte forskere bag resultaterne, der er forsøgt gentaget i det nye studie:

»Studierne her er lavet efter alle kunstens regler, men de kan have manglet midler til skaffe et stort nok antal forsøgspersoner,« siger han, og fortsætter:

»Er man så så heldig, at ens studie tilfældigvis viser en stor effekt, vil man få mulighed for at få udgivet resultatet, og den tendens kan den enkelte forsker ikke sætte en stopper for. Det er noget, vi skal arbejde med som profession.«

Ingo Zettler fra KU påpeger dog, at »enhver forsker kan analysere sig frem til, hvor mange forsøgspersoner der skal til for at få et troværdigt resultat, før han går i gang med sin undersøgelse.«

Rod i redeligheden

Magnus Johannesson, medforfatter på det nye studie, peger på, at de strukturelle problemer i forskningsmiljøet kan få forskerne til bevidst eller ubevidst at manipulere deres forskning.

»Manipulationen bliver kaldt p-hacking, og det er et vigtigt problem at adressere,« siger han.

P-hacking er at analysere sine data på mange forskellige måder, indtil man får det resultat, man leder efter.

En måde at undgå det på er at forskere forhåndsregistrerer deres analysemetoder i en åben forskningsdatabase, før de samler og analyserer deres data, fortæller Johannesson. Den udvikling mener han allerede er begyndt, især indenfor psykologien.

»På den måde binder forskeren sine hænder på ryggen i forhold til p-hacking. Metoden er ligetil i eksperimentelle studier (kontrollerede studier hvor man påvirker forsøgspersoner), men den er desværre mindre brugbar, når der er tale om observationelle data-studier (hvor man trækker data fra et register), som også er almindelige indenfor samfundsvidenskaberne,« siger Magnus Johannesson og fortsætter:

»Her bruger man allerede tilgængelige data, og så kan det være svært at bevise, at forskeren ikke allerede har analyseret på dem, før han offentliggør sine metoder.«  

En anden ting, forskere ifølge Johannesson kan gøre for at højne den videnskabelige troværdighed, er at sætte p-værdien ned i deres analyser.

P-værdien er grænsen for, hvor statistisk sikkert resultatet er. Jo lavere p-værdien sænkes, jo mere nøjagtigt og troværdigt et resultat for forskerne.

Samfundsvidenskab

I samfundsvidenskabelige studier er det svært bevise sammenhængen mellem menneskers ændrede adfærd og en bestemt påvirkning, som forskerne prøver at teste effekten af. Alle mennesker er nemlig så forskellige, at forskerne må tage mange forbehold i deres konklusioner. (Foto: Shutterstock) 

Flere reproduktionsstudier indenfor samfundsvidenskaberne

Ingo Zettler peger på, at der er sket positiv en udvikling indenfor antallet af reproduktionsstudier i samfundsvidenskaberne indenfor de sidste 3 år.

»Siden 2015 er der kommet et stigende fokus på reproduktionsstudier, særligt indenfor psykologien, men også indenfor andre felter som økonomi og sundhed. I betragtning af at forskningskulturen bevæger sig langsomt, synes jeg, at der er sket ændringer siden 2015, men der er stadig lang vej igen,« siger han.

Reproduktionskrisen

I 2015 udkom den første store empiriske undersøgelse af repeterbarhed indenfor psykologi.

Undersøgelsen hed The Reproducibility Project og forstærkede ’reproduktionskrisen’ indenfor videnskabelig metode.

Undersøgelsen involverede forskere fra hele verden, deriblandt Brian Nosek, der er en af forfatterne bag det nye studie.

Forskerne samarbejdede for at genskabe 100 empiriske studier fra førende psykologiske tidsskrifter. Resultatet? Under halvdelen af de oprindelige udfald kunne reproduceres.

(Kilde: Ingo Zettler, professor MSO ved Institut for Psykologi, Københavns Universitet)

»Der er blevet taget adskillige initiativer, der adresserer reproduktionsspørgsmål. Reproducerbarhed bliver diskuteret på konferencer, og stadig flere tidsskrifter er åbne overfor at udgive reproduktionsstudier,« fortæller han.

Men Ingo Zettler mener også, at forskernes egne holdninger til spørgsmål om videnskabelig redelighed er en vigtig faktor, hvis resultaterne af reproduktionsstudierne skal blive mere opmuntrende

»Mit indtryk er, at der er fire forskellige forskertyper. Den ene går meget op i selve princippet om at have en åben videnskabelig praksis, den anden er åbenlyst ligeglad med princippet, men vil gerne selv lave solid forskning,« fortæller han.

»Den tredje type er ikke tilstrækkeligt oplyst om reproduktionskrisen, og bruger derfor utilsigtet tvivlsomme forskningsmetoder, og endelig bruger den sidste type tvivlsomme forskningsmetoder med vilje. Den første gruppe vokser, men tvivlsomme forskningsmetoder er bestemt stadig et problem i samfundsvidenskaberne.«

Sådan sikrede forskerne, at reproduktionsstudiet blev retvisende

Forskergruppen bag det nye studie har været nødt til at begrænse sig i deres reproduktionsforsøg. 

I de oprindelige studier, der indeholder mere end ét forsøg, har forskerne valgt kun at gentage det, der er nævnt først, i de videnskabelige artikler. 

De har også kun valgt det resultat, der fremstår som det vigtigste i de originale studier, hvis der er flere resultater.

Forskergruppen har brugt samme fremgangsmåde, som beskrevet i de oprindelige studier, for at reproducere eksperimenterne.
De har også bedt forskerne bag de oprindelige studier om feedback på deres metode, for at sikre sig, at de gentog forsøgene nøjagtig på samme måde som første gang.

En forskel fra de oprindelige forsøg og reproduktionsforsøget er, at forskergruppen har brugt cirka fem gange så mange forsøgspersoner som i de oprindelige studier, fordi det giver mere nøjagtige statistiske resultater.

De har ikke kun valgt de studier, som de ikke troede, kunne reproduceres, men tog alle studier, der opfyldte deres andre kriterier med.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.