Forskning baseret på nationale test kan være smittet med fejl
Nyere uddannelsesforskning bygger ofte på resultater fra folkeskolens nationale test. Men testen kan være fyldt med fejl, konkluderer en ny rapport.
nationale test uddannelsesforskning folkeskole testresultater elever

Forskere har fundet fejl i de nationale læsetest, danske 8. klasseelever tog i 2017. Det kan få konsekvenser for gyldigheden af de senere års uddannelsesforskning. (Foto: Shutterstock)

Alle elever i den danske folkeskole har siden 2006 skullet tage i alt 10 obligatoriske test i læsning, matematik, engelsk og fysik-kemi i løbet af deres skolegang.

På den måde har skoler og kommuner kunnet følge med i, hvordan eleverne udvikler sig fagligt, og om de undervisningsmetoder, der bliver brugt, har en effekt på elevernes resultater.

Testresultaterne er også blevet brugt som datagrundlag i videnskabelige undersøgelser af, hvordan danske børn udvikler sig fagligt, fra de går i 2. klasse, til de går i 9. - for eksempel til at teste, om særlige pædagogiske tiltag hæver eller sænker elevernes niveau.

Men en ny rapport afdækker fejl i elevers testresultater og rejser dermed tvivl om gyldigheden af de mange studier, der bygger på nationale test.

Forskning bør »tages op til fornyet undersøgelse«

Forskerne bag rapporten finder fejl i de algoritmer, der afstemmer sværhedsgraden af testens læse-opgaver til de enkelte elevers niveau.

Adaptive test

Nationale test er adaptive. Det vil sige, at testspørgsmålene tilpasser sig elevens faglige niveau ved hjælp af en algoritme:

Hvis en elev svarer forkert på et spørgsmål, bliver det næste spørgsmål nemmere og omvendt. 

I den nye rapport fandt forskerne, at algoritmen ikke tilpassede testen korrekt, da 8. klasser i 2017 blev testet i læsning.

Konsekvensen er, at nogle børn er blevet vurderet forkert, konkluderer rapporten, som er lavet af professor Jeppe Bundsgaard og professor emeritus Svend Kreiner fra DPU, Danmarks Institut for Pædagogik og Uddannelse, Aarhus Universitet.

Forskning, der tager udgangspunkt i testresultaterne, bør derfor »tages op til fornyet undersøgelse,« konkluderer de to professorer.

»Meget forskning indenfor en bestemt type uddannelsesforskning hviler på nationale test, men jeg ville være forsigtig med at stole på resultaterne, fordi det har vist sig, at det instrument (nationale test; red.), vi har brugt til at måle med, ikke har den kvalitet, vi troede,« siger Jeppe Bundsgaard til Videnskab.dk.

»Forskere, som bygger deres undersøgelser på nationale test, bruger ofte testresultaterne som det eneste mål for elevernes dygtighed, men det er et fejlbehæftet mål,« fortsætter han.

LÆS OGSÅ: Forskere: Folkeskolen bør teste elevernes personlighed

Studier er publiceret i anerkendt tidsskrift

Videnskab.dk har forelagt kritikken for nogle af de forskere, der har lavet studier, som bygger på resultater fra nationale test. Ingen af forskerne har endnu nået at læse rapporten, som har fået intensiv mediedækning, blandt andet i Politiken.

I det følgende forholder forskerne sig til Jeppe Bundsgaards kritik, som den er videreformidlet af Videnskab.dk.

Simon Calmar Andersen, der er professor og forskningsleder på TrygFondens Børneforskningscenter ved Aarhus Universitet, har flere gange brugt resultater fra nationale test i sine studier.  

Flere er publiceret i det meget anerkendte videnskabelige tidsskrift PNAS. Det gælder for eksempel studier, der undersøger, om:

Usikre testresultater er et vilkår

Jeppe Bundsgaards udmelding om, at der er fejl i studiernes datagrundlag, får ikke umiddelbart Simon Calmar Andersen til at tvivle på forskningens holdbarhed.

»Det er en meget diffus kritik, som jeg har svært ved at forholde mig til. Vi har hele tiden været klar over, at der er usikkerheder i resultaterne af de nationale test - det er der i alle typer test. Vi tager højde for usikkerhederne i vores forskning,« siger Simon Calmar Andersen.

Forskning, der bygger på nationale test, er ofte statistiske analyser af, hvordan tusindvis af børn klarer testen år efter år. I den type undersøgelser tager forskerne forbehold for, at der er usikkerhed i de data, resultaterne bygger på.

Usikkerhederne kan skyldes alt muligt, som er umuligt at styre: For eksempel kan nogle børn være bedre forberedte end andre, eller testresultaterne kan være upræcise.     

»Jeg kender ingen i det her land, som laver statistisk forskning ud fra en forudsætning om, at der ikke er usikkerheder i de mål, man bruger. Det gælder både i nationale test og i alle mulige andre mål,« siger Simon Calmar Andersen.

LÆS OGSÅ: Revolutionen af folkeskolen: Sådan blev test og karakterer indført

Om nationale test

Nationale test blev indført i den danske folkeskole i 2006. 

Formålet er »at styrke evalueringskulturen i folkeskolen og at have et ensartet værktøj, der – ligesom folkeskolens prøver – kan evaluere på tværs af landet,« skriver Undervisningsministeriet

Jeppe Bundsgaard har tidligere publiceret en analyse, der konkluderer, at de pædagogiske test ikke er anvendelige som pædagogisk redskab. 

»Godt, hvis beregningsalgoritme bliver bedre«

Når forskere laver store statistiske undersøgelser, kigger de på gennemsnittet for de mål, de undersøger.

Hvis de eksempelvis bruger resultater fra nationale test til at undersøge, om en særlig pædagogisk indsats forbedrer børns læsefærdigheder, ser de på, hvordan børnene klarer sig i gennemsnit.

Så sammenligner de med gennemsnittet for børn, der ikke har modtaget den pædagogiske indsats.   

I deres analyser medregner forskerne, at der kan være usikkerheder i målene ved at bruge en fejlmargen - et såkaldt konfidensinterval.

»Alle ønsker sig så præcise målinger som muligt, og det er selvfølgelig fantastisk godt, hvis de nationale tests beregningsalgoritme bliver forbedret, så vi kan fjerne noget af måleusikkerheden, men vi kommer aldrig nogensinde til at ramme helt præcis,« siger Simon Calmar Andersen.

Test er ikke nødvendigvis ubrugelig

Selv om nogle børn ifølge Jeppe Bundsgaards analyse er blevet vurderet forkert, fordi der er fejl i den algoritme, der tilpasser opgavernes sværhedsgrad til den enkelte elevs niveau, betyder det ikke nødvendigvis, at testresultaterne er ubrugelige i forskningen, vurderer også Hans Sievertsen, der er adjunkt på University of Bristol i Storbritannien.  

»Forskning, som anvender nationale test, sammenligner resultater på tværs af mange børn, hvilket medfører, at usystematiske usikkerheder i målingerne udlignes, så vi kan drage meningsfulde konklusioner,« siger Hans Sievertsen til Videnskab.dk.

Hans Sievertsen har også brugt resultater fra nationale test i flere studier - blandt andet til at undersøge, hvordan fødselsvægt og andre forhold i børnenes allerførste tid er relateret til deres faglige resultater i løbet af skoleårene. 

»Hvis vi ikke havde de nationale test, skulle vi vente, til børnene tager folkeskolens afgangsprøve, når de er 15-16 år. Med de nationale test har vi noget at måle på, allerede når børnene er 8-9 år,« siger Hans Sievertsen.

»Vi har længe været klar over, at der er støj i målingerne, og jeg er enig med Jeppe Bundsgaard i, at de kunne være mere præcise. Men fordi vi har så mange observationer (testresultater fra hundredtusinder børn; red), kan vi udligne støjen,« fortsætter han og tilføjer, at han ikke kan udtale sig om, hvorvidt testene er brugbare som pædagogisk redskab for lærere og elever.

LÆS OGSÅ: Ny analyse: Folkeskolen bør arbejde med elevernes optimisme

Fejl i testresultater er uforudsigelige

Ifølge Jeppe Bundsgaard er det dog ikke usikkerhed i testresultaterne, der er problemet med at bruge testresultaterne som datagrundlag i forskning. Usikkerhederne kan man - som Simon Calmar Andersen påpeger - tage højde for.

»Problemet er, at vi har fundet systematiske, men uforudsigelige fejl i målingerne. Dem kan forskerne ikke se bort fra, for de har ikke nogen mulighed for at sætte et mål for, hvad disse fejl betyder,« siger Jeppe Bundsgaard.

På nuværende tidspunkt ved ingen, hvilken betydning de fundne fejl får for forskning, der bygger på nationale test, medgiver Lars Qvortrup, der er professor i pædagogisk sociologi på DPU.

»Spørgsmålet er, om de usikkerheder og fejlmålinger, de finder i testresultaterne, både gør sig gældende på individniveau og på systemniveau,« siger Lars Qvortrup, som har brugt resultater af nationale test til at måle effekter af folkeskolereformen fra 2014.

LÆS OGSÅ: En særlig form for evaluering gør elever markant bedre til matematik

Forskning søger løsninger

Videnskab.dk sætter i en artikelserie fokus på forskning, der skal gavne velfærdssamfundet. Interventionsforskning kaldes det. Følg med i temaet her.

Støtte fra TrygFonden har muliggjort temaet. TrygFonden har dog ikke indflydelse på, hvilken forskning vi skriver om, og hvordan artiklerne skrives. Læs om aftalen her.

Mellemregninger mangler

Jeppe Bundsgaard og Svend Kreiner finder i deres analyse, at nogle 8. klasseselever, der blev testet i læsning i 2017, er blevet vurderet forkert på grund af fejl i test-algoritmen.

Især fagligt stærke og fagligt svage elever er blevet vurderet til at ligge under eller over deres reelle niveau, viser forskernes analyse.

Resultatet har selvfølgelig betydning for de enkelte elever, der er blevet vurderet forkert. Men det står endnu ikke klart, om det har konsekvenser for det overordnede billede af, hvordan danske elever generelt klarer sig - det er det, Lars Qvortrup kalder systemniveau:

»Hvis det viser sig, at der er statistiske usikkerheder og systematiske skævheder, kan det for alvor være problematisk, for så betyder det, at man ikke kan sammenligne resultater fra år til år. Så kan det have konsekvenser for målinger af skolereformen og for andet, som bygger på nationale test,« siger Lars Qvortrup.

I en kronik i Politiken skriver Jeppe Bundsgaard og Svend Kreimer, at forskning baseret på resultater fra de nationale test muligvis ikke giver »et dækkende billede af den faktiske virkelighed i skolen.«

»Der mangler med andre ord stadig nogle mellemregninger, før vi kan sige, hvad rapporten betyder for al den forskning og de evalueringer, der er lavet. Men det er klart, at det er noget, vi skal følge op på,« siger Lars Qvortrup.

LÆS OGSÅ: De nationale test er ikke objektive

Rapport er »imponerende arbejde«

Ingen af de forskere, Videnskab.dk har talt med, har som sagt nærlæst Jeppe Bundsgaards og Svend Kreiners godt 100-siders lange rapport med statistiske analyser af testresultater og opgavernes sværhedsgrad.

Forskerne udtaler sig udelukkende på baggrund af forfatternes tidligere kritik af nationale test og kronikken, som de to professorer for nyligt udgav i Politiken.

Efter hurtigt at have kigget i rapporten vurderer Hans Sievertsen dog, at det er »et imponerende stykke arbejde.«

Da Videnskab.dk har ikke kunnet finde en uvildig forsker, der har haft tid til at nærlæse Jeppe Bundsgaards og Svend Kreiners rapport, har vi ikke kunnet vurdere, hvor valide deres analyser og fund er.

Jeppe Bundsgaard og Simon Calmar Andersen sidder begge i en arbejdsgruppe, som i øjeblikket evaluerer de nationale test for Undervisningsministeriet.

LÆS OGSÅ: Forsker: Derfor favoriserer PISA-testen nogle lande

LÆS OGSÅ: Forskere slår fast: Frisk luft forbedrer elevers præstationer

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs nyt om fusionsenergi, som DTU med forsøgsreaktoren på billedet nedenfor - en såkaldt tokamak - nu er kommet lidt nærmere.