Mørketal: Hvordan måler man tal, man ikke kan tælle?
Når vi for eksempel skal følge udviklingen i antallet af stofbrugere i Danmark, hvor vi ved, der er et betydeligt mørketal, så kan statistikerne komme på noget, der lyder som en umulig opgave: Hvordan skal man skønne et antal personer, som man ikke kan tælle?
Mørketal corona COVID-19 Danmark teststrategi

Ved hjælp af statistisk metode har man i Danmark udregnet skøn til blandt andet antallet af trafikulykker, illegale indvandrere og stofbrugere. (Foto: Shutterstock)

Ved hjælp af statistisk metode har man i Danmark udregnet skøn til blandt andet antallet af trafikulykker, illegale indvandrere og stofbrugere. (Foto: Shutterstock)

Hvor mange personer i Danmark bruger stoffer?

Dét spørgsmål ville Sundhedsstyrelsen gerne have svar på sidste år, og derfor kontaktede de mig og mine statistiker-kollegaer på Biostatistisk Afdeling på Institut for Folkesundhedsvidenskab ved Københavns Universitet.

Sundhedsstyrelsen kunne godt tænke sig at få et skøn over, hvor mange højrisiko stofbrugere der var i landet, så man kunne sørge for, at der er nok behandlingspladser, og så vi i fremtiden kan holde øje med, om tallet pludseligt begynder at stige.

Og efter en del arbejde regnede vi os frem til, at der nok var omtrent 20.412 personer i Danmark i 2016, som havde et problematisk brug af såkaldte opioider, som er en familie af narkotika, der indeholder heroin og lignende stoffer. 

Men hvordan kommer man egentlig frem til sådan et skøn, hvor der indgår et betydeligt mørketal?

Det vil jeg i denne artikel forsøge at forklare ved at tage udgangspunkt i vores udregning af antallet af stofbrugere i Danmark. Og på vejen kommer vi både til at snakke om stikprøver, fisk og styrken i de danske registre.

Fakta
Forskerzonen

Denne artikel er en del af Forskerzonen, som er stedet, hvor forskerne selv kommer direkte til orde.

Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.

Forskerzonen er støttet af Lundbeckfonden.

Stikprøver er dårlige til udsatte grupper

Når vi skal skønne, hvor mange der for eksempel har været smittet med COVID-19, så bruger vi en klassisk, statistisk metode: stikprøven.

Vi trækker lod blandt alle danskere om, hvem der skal være med i stikprøven, og undersøger om de udvalgte personer har antistoffer i blodet - hvis de ellers har tid og lyst til at være med i undersøgelsen. 

Det leder os til første potentielle udfordring ved at bruge stikprøver til at undersøge udsatte grupper: Man kan kun udvælge en stikprøve, hvis man har en liste over alle dem, der skal trækkes lod i mellem.

Så først og fremmest skal populationen være velkendt.

Det kan vi godt klare med stofbrugerne, hvis vi holder os til at skønne, hvor mange personer der bor i Danmark, som har et problematisk stofbrug.

Så kan vi for eksempel lave en liste over alle personer, som har et CPR-nummer og som bor i Danmark. Og den kan vi godt udtrække en stikprøve af. 

Men hvis vi så begynder at ringe rundt til alle dem, der er med i stikprøven, og spørger dem til deres stofbrug, kan vi hurtigt få nye problemer. Det er nemlig et stort problem, hvis de tilfældigt udvalgte personer i en stikprøve ikke har tid eller lyst til at være med i undersøgelsen.

For så snart folk begynder at takke nej, kan stikprøven ikke længere sige noget om alle menneskerne på listen (det vil sige hele befolkningen).

I et sådan tilfælde fortæller stikprøven nemlig kun noget om dem, der er med, og det er sjældent et helt tilfældigt udsnit af befolkningen.

Udsatte grupper kan blive underrepræsenteret

Især udsatte grupper kan have mangel på overskud i forhold til at deltage i undersøgelser, og derfor kan vi frygte, at de bliver underrepræsenteret i sådan en stikprøve-baseret undersøgelse. Og så får vi ikke et godt skøn over antallet af stofbrugere.

Så når det kommer til udsatte befolkningsgrupper, kan vi få problemer med stikprøver, fordi vi ikke ved, hvem der skal stå på listen, som vi trækker lod fra, og fordi vi har svært ved at få alle, der bliver udtrukket til at være med i undersøgelsen. Desuden skulle stikprøven være rigtig stor, hvis dét, vi skal lave et skøn over, er sjældent - for eksempel, som vi vil forvente det med stofbrugere.

Så alt i alt må vi gå andre veje, hvis vi skal skønne antallet af stofbrugere.

Kan vi ikke bare slå det op i et register?

I Danmark har vi nogle rigtig gode registre, hvor vi noterer alt fra hospitalsindlæggelser til indkomst og kriminalitet.

Vi kan derfor let slå op, hvor mange der fik kræft sidste år, hvor mange der bor i Ringsted, eller hvor mange der tjener færre penge end fattigdomsgrænsen.

Kan man så ikke også bare slå op, hvor mange personer der i den ene eller anden situation har fået noteret, at de var stofbrugere?

Det står for eksempel i registrene, hvis en person er blevet indlagt på et hospital, og lægerne har noteret, at vedkommende var stofbruger. Vi kan også se i registrene, hvor mange der har søgt behandling i landets misbrugsbehandlingscentre, eller hvor mange nyindsatte i fængslerne der har problemer med stoffer, de nu skal vænne sig af. 

Der er altså mange nyttige oplysninger, som vi kan slå op og finde i registrene. Og det er også en vigtig ingrediens i at skønne, hvor mange stofbrugere der er i alt.

Men hvis vi bare ser på, hvor mange der står i hvert af registrene, så får vi jo ikke fat i alle stofbrugere. Der er jo også nogen, der ikke bliver syge, eller søger behandling, eller lander i fængsel.

Og hvordan tæller man så, hvor mange man ikke har tal på?

kartotek_registre

De danske registre indeholder mange nyttige oplysninger, som man kan bruge til udregningen af diverse mørketal. (Foto: Shutterstock)

Der går fisk i statistikken

Det leder os til noget, der godt kan lyde som lidt af et sidespor: fisk.

I 1896 var der nemlig en dansk fiskeribiolog, Carl Georg Johannes Petersen, som gerne ville finde ud af, hvor mange rødspætter der var i Limfjorden.

Det blev en af de ældste videnskabelige beskrivelser af en statistisk metode, som sidenhen har fået navnet fangst-genfangst-metoden, og som er blevet brugt til at skønne alt fra antallet af trafikulykker til illegale indvandrere og altså også stofbrugere i Danmark.

For at forklare hvordan den virker, kan vi forestille os, at vi gerne vil skønne, hvor mange fisk der er i en sø. Fangst-genfangst-metoden består så af tre trin:

  1. Fang nogle fisk. Det er ikke så vigtigt hvor mange, men antallet skal noteres og gemmes til senere.
  2. Markér de fisk, du har fanget, for eksempel med et bånd eller en chip, og sæt dem ud igen. Det er vigtigt, at markeringen ikke generer fiskene, så de for eksempel bliver lettere at fange fremover. Der skal være lige vilkår for alle fisk, både dem vi har fanget, og dem vi ikke har fanget.
  3. Fang nu igen nogle fisk og tæl, hvor mange der kom ind. Tæl også, hvor mange af disse nyfangede fisk der allerede var markerede fra sidste fangst.

Nu har vi alle ingredienserne til et fangst-genfangst-skøn for det samlede antal fisk i søen. For hvis ikke vi har plaget fiskene ved at fange og markere dem, vil der nemlig være samme sandsynlighed for, at en fisk bliver fanget første gang og anden gang.

Formel til at udregne antal fisk

Hvis alle fisk har lige stor sandsynlighed for at blive trukket op af vandet ved begge fangster, så vil der gælde at:

antal fisk fanget første gang
antal fisk i søen i alt
=
antal markerede fisk fanget anden gang
antal fisk fanget anden gang

Ved hjælp af lidt hurtig matematik giver det os en formel for at udregne, hvor mange fisk der så må være i søen i alt:

Antal fisk i søen alt = antal fisk fanget første gang • antal fisk fanget anden gang
antal markerede fisk fanget anden gang

Det betyder, at andelen af fisk, som bliver fanget begge gange - altså de markerede fisk vi hiver op af vandet ved anden fangst - vil være lige så stor som andelen af fisk ud af alle fisk, der bliver fanget første gang. Og dermed har vi faktisk en matematisk opskrift på at finde det samlede antal fisk (se faktaboks).

Det var netop denne opskrift, som Petersen kom frem til i 1896, og det er essentielt set samme metode, vi i dag bruger til at finde frem til mørketal.

Fiskere fanger fisk, registre fanger mennesker

Selvom den statistiske metode faktisk er den samme, når vi skønner, hvor mange stofbrugere der er i Danmark, er der også nogle fundamentale forskelle i forhold til fiske-eksemplet.

Først og fremmest fanger og markerer vi naturligvis ikke mennesker!

I stedet kan vi gøre brug af nogle af de danske registre. Hvis man er stofbruger, er der nemlig nogle forskellige registre, hvor man så at sige kan blive 'fanget'.

Hvis man lander på hospitalet af den eller anden årsag, og lægerne noterer, at man er stofbruger, så står det i Landspatientregisteret.

Hvis man går i behandling for sit stofbrug i et af de offentlige behandlingstilbud, så står det i Register over Stofbrugere i Behandling.

Og hvis man bliver indsat i et dansk fængsel, og personalet er bekymret for, om man har været stofbruger og måske skal have hjælp med afvænning, så bliver det også afklaret og noteret i et i et register over indsatte i kriminalforsorgen.

Alle disse notater er selvfølgelig meget fortrolige, så den enkeltes privatliv bliver beskyttet. Men faktisk behøver vi slet ikke at vide noget om hver enkelt person for at skønne, hvor mange stofbrugere der er i alt.

Alt vi skal vide er, hvor mange personer der bliver 'fanget' i hvert register - og hvor mange der bliver 'genfanget' ved at optræde i mere end et register.

Og det sidste spørgsmål kan vi let svare på, fordi registrene kan kobles sammen ved hjælp af vores personlige CPR-numre. Sådan er det ikke i mange andre lande, og blandt andet derfor har vi i Danmark nogle af verdens bedste muligheder for at skabe ny viden ved hjælp af registre.

En gang fanget, altid fanget?

Hvis vi kort vender tilbage til fiskene, så bed vi mærke i, at det var enormt vigtigt, at markeringen af fisk ikke ændrede på deres risiko for at blive fanget igen.

Så ville hele metoden nemlig falde på gulvet, for vi ville ikke længere kunne udnytte, at der er lige stor sandsynlighed for at være blandt de indfangede fisk i første fangst som for at være de markerede fisk i anden fangst. Og så ville markerede fisk jo blive lettere ofre.

For stofbrugerne har vi et lignende problem.

Hvis vi ser, at en person har været indlagt på et hospital med en stofbrugsdiagnose, så er det mere sandsynligt, at vedkommende også dukker op i misbrugsbehandlingen. Lægerne vil nemlig sommetider vejlede stofbrugeren i at få hjælp til at få styr på stofferne.

Det svarer lidt til at en markering fra Landspatientregisteret øger 'fangstrisikoen' i Register over Stofbrugere i Behandling. Og så duer metoden jo ikke. Men der er heldigvis en løsning.

Tre registre er meget bedre end to

Hvis vi ikke bare har to, men tre registre, kan vi faktisk tage højde for, at der kan være samspil mellem to registre ad gangen og stadig komme med et skøn på, hvor mange stofbrugere der er i alt. Det eneste vi da skal håbe er, at der ikke er samspil mellem alle tre registre på én gang.

Men vi kan ikke undersøge, om den teori holder vand, medmindre vi har fire registre til rådighed. Og da ville vi ikke kunne undersøge, om der var samspil mellem alle fire registre på en gang uden et femte register, og så videre.

Man skal altså altid have ét register mere end den største grad af samspil, man vil undersøge.

Samspil mellem registre

Hvis vi har tre forskellige registre - eller fangstmuligheder - og vi kalder dem for A, B og C, så er der otte forskellige muligheder for hvordan der kan være samspil mellem dem:

  1. Ingen registre samspiller: A, B og C er alle tre uafhængige af hinanden.
  2. A og B samspiller, mens C er uafhængigt af de andre.
  3. A og C samspiller, mens B er uafhængigt af de andre.
  4. B og C samspiller, mens A er uafhængigt af de andre.
  5. A og B samspiller, A og C samspiller, men B og C samspiller ikke.
  6. A og B samspiller, B og C samspiller, men A og C samspiller ikke.
  7. A og C samspiller, B og C samspiller, men A og B samspiller ikke.
  8. Der er parvis samspil mellem alle tre registre: A og B samspiller, B og C samspiller, og A og C samspiller.

I vores stofbrugerskøn måtte vi stoppe ved de tre registre, fordi vi simpelthen ikke har flere nationale registre, hvor stofbrugere i stor stil bliver noteret. Det var altså den bedste løsning, vi kunne komme frem til. De kloge sundhedsfaglige hoveder, vi vendte modellerne med, syntes heldigvis heller ikke, at det lød helt håbløst.

Så nu var vi næsten i mål: Det eneste, vi manglede, var at beslutte præcis, hvordan vi så skulle modellere samspillet mellem registrene. For det kan man faktisk gøre på en del forskellige måder.

Alle modeller hjælper lidt til at nå i mål

Hvis vi kun havde haft de to registre, havde der kun været én måde at modellere samspil: Vi ville blive nødt til at antage, at der ikke var noget. Men når vi har tre registre, er antallet af muligheder hurtigt blevet meget større.

Faktisk er der otte forskelle muligheder for at modellere samspillet: Det er nemlig antallet af måder, man kan udvælge op til tre parvise samspil mellem registre (se faktaboks).

Heldigvis var det ikke strengt taget nødvendigt at vælge én model. I stedet kunne vi regne på alle otte scenarier og komme med et samlet skøn, som bruger lidt information fra dem allesammen - og som bruger mest information fra de modeller, der ser ud til at passe bedst på virkeligheden.

Og det var sådan, vi nåede frem til, at der nok var omtrent 20.412 personer i Danmark i 2016, som havde et problematisk forbrug af opioider. Blandt dette antal personer stod 7.908, dvs. cirka 40 procent, i mindst et af de tre registre, mens de resterende 12.504 personer udgør det såkaldte mørketal, som vi kunne skønne med lidt hjælp fra en fiskeribiolog fra slutningen af forrige århundrede.

Og det er da ik' så ringe endda!

Alle må bruge og viderebringe Forskerzonens artikler

På Forskerzonen skriver forskere selv om deres forskning. Vi mener, det er vigtigt, at alle får mulighed for at læse om forskning fra forskerens egen hånd.

Alle må derfor bruge, kopiere og viderebringe Forskerzonens artikler udfra følgende enkle krav:

  • Det skal krediteres: 'Artiklen er oprindelig bragt på Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler'. Hvis artiklen bringes på web, skal der linkes til artiklen på Forskerzonen.
  • Artiklen må ikke redigeres og skal bringes i fuld længde (medmindre andet aftales med forskeren).
  • Du skal give forskeren besked om, at du genpublicerer.
  • Artikler, som er oversat fra The Conversation, skal have indsat en HTML-kode til indsamling af statistik i bunden. HTML-koden finder du i den originale artikel på The Conversations hjemmeside ved at klikke på knappen "Republish this article" ude til højre, derefter klikke på 'Advanced' og kopiere koden. Du finder linket til artiklen på The Conversation i bunden af Forskerzonens oversatte artikel. 

Det er ikke et krav, men vi sætter pris på, at du giver os besked, hvis du publicerer vores indhold (undtaget indhold fra The Conversation). Skriv til redaktør Anders Høeg Lammers på ahl@videnskab.dk.

Læs mere om Forskerzonen i Forskerzonens redaktionelle retningslinjer.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab, klima og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs her om, hvordan den danske fotograf tog det prisvindende billede af næseaben herunder.