Jeg husker en særlig episode fra metodeundervisningen på medievidenskab.
Vi var stødt ind i formlen for den statistiske usikkerhed, men bedst som jeg forberedte mig på at vække min gymnasiematematik fra dvalen, beroligede underviseren os med, at den behøvede vi selvfølgelig slet ikke at forstå. Det var den sidste formel, vi fik at se på den bacheloruddannelse.
Udover oldtidsmatematik, lidt Einstein og lidt Newton på videnskabshistorie, så har jeg gennemført min femårige universitetsuddannelse uden nogensinde at skulle bruge en lommeregner.
Men altså, jeg har haft rigeligt med muligheder for at tage ansvar for egen læring og tilmelde mig valgfag i statistik. Så at jeg som ph.d.-studerende en halv time før lukketid må sætte mig ind i p-værdier, chi-squared-tests og konfidensintervaller er vel nok min egen skyld.
Ta’ det kursus!
Som en del af min forskning skal jeg sammenligne videnskabsnyheder fra 1999 og 2012. Dem er der mange af, så den kvalitative metode, vi har lært på medievidenskab, rækker ikke. Jeg må sætte mig ind i den kvantitative. Jeg udsætter dog den statistiske del, for mange af de videnskabelige artikler, jeg læner mig op ad, indeholder ikke så meget en enkel lille standardafvigelse.
De store tidsskrifter i videnskabskommunikation er dog begyndt at vægte statistikken højt, så efterhånden må man lære at tæmme formlerne, hvis man vil have størst mulig chance for at publicere i dem.
En af mine to vejledere har dog en temmelig pragmatisk tilgang til brugen af statistik i den slags humanistiske studier, jeg udfører. Han mener, det er unødvendigt ekstra lir, der ikke gør fra eller til, men han siger alligevel:
”Hvis du nu får en eller anden krakilsk professor til dit forsvar, så skal du kunne argumentere for, hvorfor du ikke har brugt statistikken. Du skal kende ordene, så jeg synes, du skal tage et kursus i deskriptiv statistik”.
En uge med statistik
Sådan et kursus finder jeg på Københavns Universitet. ‘Quantitative Methods in Humanistic studies’, hed det. Det kan anbefales. Selvom jeg gik ind til kurset med en forventning om blot at lære statistik-lingo, så endte jeg med at overmale min første videnskabelige artikel med alt det blærede statistik, jeg kunne presse ned over data.
At min anden vejleder så slettede halvdelen igen, da det faktisk blev for meget bling-bling, er en anden sag.
Jeg lærte at sige uafhængige og afhængige variabler, standardafvigelse, ANOVA, t-tests, signifikansniveau og en helt masse andre fine ord, som jeg nu kan jonglere med til forsvaret. Jeg lærte om p-værdier og chi-squared-tests, og at studerende frygter p-værdier over 0,05 som byldepesten.
Pludselig åbenbarede en hel ny relativistisk gren af videnskaben sig for mig. Jeg lærte, at den satans p-værdi findes i alt fra molekylærbiologi til psykologi, men at den kan bedrage selv den mest redelige forsker.
Jeg lærte, at der er statistikere, der mener, at en meget stor del af forskningslitteraturen er forkert, fordi mange artikler udelukkende klamrer sig til de spinkle p-værdier.
På fisketur efter lave p-værdier
Sørme om jeg ikke også tog mig selv i en statistisk dødssynd i en af de sidste øvelser. Jeg kunne ikke få min t-test af videnskabsnyhedernes ordlængde i 1999 og 2012 til at give en p-værdi under 0,05.
Det betød, at jeg ikke kunne afvise, at det var en ren statistisk tilfældighed, at artiklerne i 1999 i gennemsnit var lidt længere end artiklerne i 2012. En p-værdi over 0,05 er med andre ord, hvad journalister kalder for en ikke-historie.
Så prøvede jeg at trække Weekendavisens artikler ud, for videnskabstillægget Idéer var først kommet til efter 1999, og artiklerne deri var jo meget længere end gennemsnittet. Altså kunne det trække gennemsnittet ned i 2012, hvis jeg fjernede dem. Det virkede ikke. P-værdien var stadig over 0,05 og dermed havde jeg intet statistisk signifikant resultat.
Så smed jeg også Videnskab.dk-artiklerne ud af 2012-bunken, for de var også lidt lange, og der var jo alligevel ikke noget Videnskab.dk i 1999. Stadig ikke nok.
Den eneste forskel, jeg kunne få til at blive statistisk signifikant, var længden af printartiklerne i 1999 og onlineartiklerne i 2012, men den går slet ikke. Så sammenligner man nemlig pære og æbler, lød det fra underviseren. Den slags fisketure efter lave p-værdier i data er i øvrigt udbredte, lærte vi, men absolut forbudte.
Derfor skal humanister lære statistik
Her efter kurset undrer jeg mig over, at mange humanister ikke lærer en så essentiel del af videnskaben som statistik på deres bacheloruddannelse.
Alle har godt af at vide, hvad en p-værdi er, ligesom alle lærer i videnskabsteori, hvad falsificérbarhed og et paradigmeskifte er. Det er en grundviden, som uanset dens matematiske sværhedsgrad bør indgå i alle videregående uddannelser. Det behøver kun tage en uge.
Den tidligere britiske premierminister Benjamin Disraeli er berømt for at have sagt, at der findes tre slags løgne: løgne, forbandede løgne og statistik. Mark Twain mente, at »fakta er en stædig ting, men statistik er føjeligt.«
I nutiden har jeg overhørt en statistikprofessor sige, at enhver påstand – uanset hvor rabiat – kan bevises statistisk.
Det skal humanisterne da vide! Ellers bliver vi jo bare bedraget. Og endnu vigtigere. Ligesom naturvidenskaberne og samfundsvidenskaberne så vil vi da lære, hvordan man bedrager masserne med et par saftige søjlediagrammer. Den sorte magi skal de eksakte videnskaber da ikke have for sig selv.
Denne artikel er oprindeligt publiceret som et blogindlæg.