Forsker: Derfor favoriserer PISA-testen nogle lande
En anerkendt dansk statistiker har i de seneste uger sået tvivl om PISA-undersøgelserne, der måler skoleelevers færdigheder. I denne artikel kaster han lys over, hvad hans studie gik ud på, og hvori problemerne ligger.

PISA-testen skal sammenligne elevers færdigheder i alverdens lande, men giver i kraft af sin udformning fordele til nogle elever frem for andre - det mener en dansk statistiker på baggrund af et nyt studie. (Foto:Colourbox).

PISA-testen skal sammenligne elevers færdigheder i alverdens lande, men giver i kraft af sin udformning fordele til nogle elever frem for andre - det mener en dansk statistiker på baggrund af et nyt studie. (Foto:Colourbox).

PISA-undersøgelsen, der er en international elevtest i folkeskolen, er ikke det papir værd, det er skrevet på.

Man kan slet ikke stole på dens rangliste over, i hvilke lande eleverne er dygtigst.

Den konklusion nåede professor Svend Kreiner fra Institut for Biostatistik på Københavns Universitet for nyligt frem til efter at have studeret testen nærmere.

»Jeg kan demonstrere, at man med testen kan rykke rundt på landenes indbyrdes placering efter forgodtbefindende. Danmark kan være nummer 3 og nummer 40 med udgangspunkt i de samme testresultater og i fuld overensstemmelse med de regler, som folkene bag PISA selv stiller op,« pointerer Svend Kreiner.

Hans konklusion har kickstartet en heftig debat i medierne om, hvor troværdig PISA-undersøgelsen er.

Den debat vil Svend Kreiner gerne støtte op om, så i denne artikel løfter han sløret for, hvad hans undersøgelse helt konkret gik ud på.

Gennemgik data for 380.000 elever

Fakta

PISA-undersøgelserne gennemføres for OECD og har det formål at undersøge og rangordne lande med hensyn til elevernes præstationer på tre områder, nemlig læsning, matematik og videnskab ved hjælp af pædagogiske test.

PISA-undersøgelsen gennemføres for OECD og skal undersøge, hvor dygtige eleverne i 70 forskellige lande er til læsning, regning og naturvidenskab.

Det sker ved hjælp af pædagogiske test, der stiller eleverne over for forskellige opgaver.

Testen munder bl.a. ud i en liste, der viser en rangordning over landenes performance. Det land, der klarer sig bedst, bliver nummer ét – det land, der klarer sig dårligst, bliver sidst.

Arbejdsgruppen bag PISA-undersøgelsen har beskrevet testen i rapporter på tusindvis af sider.

Af den fremgår det, at elevernes besvarelser bliver analyseret ved hjælp af en såkaldt ’Rasch-model’, der beskriver, hvordan sandsynligheden for, at der bliver svaret rigtigt på en opgave afhænger af elevernes dygtighed på den ene side, og opgavernes sværhedsgrad på den anden.

Lige dygtige elever skal have samme chance

En forudsætning for overhovedet at kunne bruge Rasch-modellen er, at lige dygtige elever har lige stor chance for at besvare opgaverne rigtigt – det vil sige, at hver opgave skal have nøjagtigt det samme niveau i alle lande. Hvis denne betingelse er opfyldt, så burde man i princippet opnå samme rangordning af landene - uanset hvilken testopgave eleverne udsættes for.

»Statistiskere er generelt vilde med at bruge Raschmodeller, fordi man kan argumentere for, at pædagogiske test, der passer til Raschmodellen, har alle de egenskaber, som pædagogiske test skal have,« pointerer Svend Kreiner.

En kapacitet på området

Fakta

Rasch-modellen er udviklet af den danske statistiker Georg Rasch. ACER (Australian Council for Educational Research), der står for analysen af data fra PISA, har valgt at basere deres analyser på denne model.

Raschmodeller ved Svend Kreiner en del om – han regnes for at være blandt de mest kyndige inden for feltet i Danmark, fordi han tidligere igennem en årrække har forsket i modellen som statistiker på Danmarks Pædagogiske Institut. Han har spillet en central rolle i udviklingen af mange af de nationale læsetest, som bruges i folkeskolen, der alle er baseret på Raschmodeller.

»Selv om jeg nu sidder på et andet universitet, så er elevtest stadig noget, der interesserer mig voldsomt. PISA-testen har jeg altid været skeptisk over for, da jeg ikke mener, at forskerne bag testen har dokumenteret, at det er i orden at bruge Raschmodellen til at analysere testens opgaver. Jeg gjorde mig derfor den ulejlighed at tjekke deres tekniske rapporter, og min granskning har desværre bestyrket min mistanke om, at der er noget helt galt,« siger han.  

Statistiske modeller afslører fejl

Én af de ting, som Svend Kreiner har undersøgt, er, om testens opgaver i de forskellige lande har samme niveau, det vil sige, at opgavernes rækkefølge, hvis de sorteres efter sværhed, er de samme i alle lande.

De letteste opgaver i ét land skal også være de letteste i alle andre lande og ditto for de mellemsvære og svære opgaver.

Selve opgaveformuleringerne har Svend Kreiner ikke haft adgang til, og derfor har det været umuligt for ham direkte at sammenligne opgaver fra forskellige lande.

Men han har alligevel kunne tjekke, om en opgave har samme sværhedsgrad på alle sprog ved netop at bruge Raschmodellen på elevernes svar.

Raschmodellen er nemlig ikke alene et værktøj til at sammenligne elevers perfomance, men også som en målestok til at vurdere, om elever i forskellige lande har lige nemt eller svært ved at besvare en opgave. 

Fakta

Den vigtigste betingelse for at bruge Rasch-modellen er, at en opgave skal have samme sværhedsgrad i alle lande. Dette krav omtaler statistikerne som, at der ikke må være DIF (differentiel itemfunktion). Oversat til dansk betyder det, at lige dygtige elever skal have lige stor chance for at svare rigtigt.

Den kan bruges til at beregne, hvor stor en procentdel af eleverne, der har svaret rigtigt på testens svære og lette opgaver, givet at de har opnået et bestemt antal point.  

Problemer med mange opgaver

Hvis Raschmodellen frembringer samme tal for en opgave uanset sprog, så er en opgave lige svær i alle lande. Hvis Raschmodellen frembringer forskellige tal, så favoriserer opgaven eleverne i nogle lande frem for andre.

Svend Kreiner giver et eksempel:

Man kan f.eks. bruge Rasch-modellen til at regne ud, at 75 procent af alle de elever, der har opnået 17 point i testen, burde have svare rigtigt på den sværeste opgave, uanset hvilket land, de kom fra.

Hvis det så viser sig, at det kun er 50 procent af eleverne i Danmark, der kan besvare den opgave, mens eleverne i alle andre lande lever op til kravet, så er der et eller andet galt. Så er opgaven sværere for de danske elever end for eleverne i andre lande.

»Jeg fandt frem til ni opgaver, hvor danske elever tilsyneladende svarer meget bedre end de gør i andre lande. Omvendt er der seks opgaver, hvor danskerne svarer meget dårligere,« pointerer Svend Kreiner.

Hvis man sender en artikel ind til et videnskabeligt tidsskrift, så skal du kunne underbygge dine konklusioner med målinger eller på anden vis dokumentere, at du har ret. Ellers er der ingen, der vil tro dig. Hvis ikke PISA-forskerne kan lægge dokumentation frem om, at deres rangordning er rigtig, så har de ingen troværdighed.

Svend Kreiner

Han undersøgte, om han ved at vælge bestemte opgaver kunne flytte rundt på landenes placering – hvis alle opgaver var lige svære, burde det være ligegyldigt, hvilke opgaver, han valgte.

Men valget af opgaver viste sig at have stor betydning.

»Hvis jeg bruger de opgaver, hvor Danmark klarer sig bedst, så rykker Danmark op til en tredjeplads. Bruger man i stedet udelukkende de opgaver, hvor Danmark klarer sig dårligst, rykker vi ned på en 42. plads,« fortæller han.

Sprog, kultur og religion spiller en rolle

Svend Kreiner er ikke i tvivl om, at forskerne bag PISA har gjort sig umage med at få oversat opgaverne rigtigt, så betragter man en opgave fra testen i forskellige lande, forventer han, at ordlyden formentlig er fuldstændigt den samme. Men opgaven kan alligevel have meget forskellig sværhedsgrad, fordi de henvender sig til elever med hver deres sprog og grammatik samt vidt forskellige religion og kultur.

En opgave om mælk vil efter alt at dømme være lettere at besvare for de elever, der lever i et samfund, hvor mælk indgår som en naturlig del af kosten, end den er for elever fra andre dele af verden.

Også religion kan skabe store problemer.

»Der er f.eks. pædagoger, der har påpeget, at det er en dårlig idé at bruge ordet ’gris’ i elevtest, fordi man har et forskelligt forhold til dyret i forskellige lande. I Danmark er svinekød noget man spiser, mens det i muslimske lande er noget, som man skal holde sig fra,« siger Svend Kreiner.

Finnere og kinesere har det svært

Den almindelige læser har ikke skyggen af chance for at arbejde sig igennem den tekniske rapport. Når de læser deres forklaringer på, hvordan man så kontrollerer modellen, så skulle man tro, at det så er en kontrol, de selvfølgelig har gennemført, men det ser ikke sådan ud. Dokumentationen mangler.

Svend Kreiner

Landets sprog og grammatik kan også spille ind.

Finsk rummer f.eks. mange meget lange ord i forhold til dansk, mens en kinesisk elev skal kunne tyde mange komplicerede skrifttegn for at forstå pointen i en opgave.

»Jeg har fået lovning om, at jeg gerne må se opgaverne, men jeg har endnu ikke haft mulighed for det. Jeg glæder mig til at sætte mig ned og gennemgå opgaverne sammen med én, der har forstand på læsning. Da jeg snakkede med de danske PISA-forskere på DPU, bad de mig om at sende en liste over de spørgsmål, hvor danske elevers svar afviger fra de andre landes. Det var jeg overrasket over, for det viser med al tydelighed, at de ikke har styr på, hvilket niveau opgaverne reelt har i de forskellige lande,« siger han.

Testen er svær at redde

Hans studie har gjort ham endnu mere skeptisk overfor PISA-undersøgelsen, og personligt tror han ikke på, at det kan lade sig gøre at lave en sammenligning på tværs af alle lande. Landene er alt for forskellige til, at det giver mening.

Han foreslår, at man nøjes med at sammenligne lande, der har samme kultur og som bruger nogenlunde samme alfabet, som f.eks. Danmark og England.

Det lykkedes ham at finde otte opgaver i sættet, hvor man faktisk godt kunne tillade sig at bruge Raschmodellen i de to lande, samt en statistisk måde at korrigere for en del af fejlene i de andre opgaver.

»Når det kan lade sig gøre for England og Danmark, så giver det håb om, at man på sigt også kan gøre det for en stribe andre lande, men testen holder på ingen måde i sin nuværende form. Enten må de sørge for, at opgaverne bliver mere ensartede i de forskellige lande, eller også må de bruge et andet analyseværktøj end Raschmodellen,« slutter han.

... Eller følg os på Facebook, Twitter eller Instagram.

Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab, klima og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.