Professor advarer: 'Big Data' kan føre til overdiagnosticering
Mere sundhedsdata har et kæmpe potentiale for bedre behandling i fremtiden. Men udviklingen kan paradoksalt nok også øge mængden af fejldiagnosticeringer, advarer statistiker.
statistik diagnose sundhed big data

Vi ved mere og mere om, hvad enkelte gener betyder for vores sundhed, men ved vi nok til at kunne diagnosticere? ikke ifølge biostatistiker Claus Thorn Ekstrøm. (Illustration: Shutterstock)

Vi ved mere og mere om, hvad enkelte gener betyder for vores sundhed, men ved vi nok til at kunne diagnosticere? ikke ifølge biostatistiker Claus Thorn Ekstrøm. (Illustration: Shutterstock)

I dag er det svært at foretage sig noget, der ikke bliver registreret. Din telefon fortæller, hvor du befinder dig. Din netbank afslører, hvad du bruger dine penge på, og lige om lidt har du også adgang til din genetiske profil.

Umiddelbart virker det som en god udvikling. GPS’en i din telefon fortæller dig, hvor du skal hen, netbanken giver dig et overblik over, hvor mange penge du har, og den genetiske profil kan hjælpe lægen med at opklare, hvad du fejler.

Men den store mængde data gør samtidig tingene sværere, fortæller Claus Thorn Ekstrøm, der er professor på Biostatistisk afdeling, Institut for folkesundhedsvidenskab ved Københavns Universitet.

»Flere informationer gør det muligt at se mønstre, man ellers ikke ville have set. Problemet er bare, at de mange data også betyder, at der kommer mere støj med, og så bliver det endnu sværere at finde ud af, hvad de reelle sammenhænge er. Derfor kan patienter blive behandlet på forkert grundlag.«

Han frygter, at når vi løbende opdager og agerer på egenskaber ved enkelte gener, uden at forstå den større sammenhæng, så risikerer vi også at sygeliggøre og behandle mennesker unødvendigt.

»Derfor er det meget vigtigt, at vi forsker videre og finder en stor mængde samlet evidens, før vi begynder at handle på de store mængder data,« siger han.

Claus Thorn Ekstrøm holdt for nyligt oplæg ved konferencen 'Preventing overdiagnosis 2018' i København.

Hvad er Big Data?
  • Big Data er blevet en populær betegnelse for, hvad der virkeligheden blot er store datasæt.
  • Typisk defineres Big Data dog også som datamængder, der ikke blot er store, men også varierede. Dvs. at de stammer fra flere forskellige kilder, og er hurtige at indhente – de såkaldte tre V’er: Volume, Variety og Velocity. 
  • I takt med at verden digitaliseres, gemmes og ophobes mere information om borgere, og den information kan blandt andet bruges til at undersøge for sygdom.
  • I denne artikel fokuserer vi særligt på information om livsstil og genetik.

Kilde: Claus Thorn Ekstrøm

Big Data har stort potentiale – men også store faldgruber

De store mængder data åbner en masse døre.

Med informationer om livsstil og genetik i hånden vil en læge, en statistiker eller sågar en computer kunne finde mønstre, der afslører din risiko for eksempelvis diabetes, hjertekarsygdomme og kræft.

Ifølge Claus Thorn Ekstrøm risikerer vi dog at gøre mere skade end gavn, da vi endnu ikke forstår sammenhængene i de store datasæt.

»Lige nu er der en debat om, hvorvidt det er okay at samle de her data ind. Men jeg savner, at der sættes lige så stort fokus på, hvordan vi rent faktisk kan udvikle nye metoder til at analysere data, for lige nu er det slet ikke sikkert, vi har værktøjerne,« fortæller Claus Thorn Ekstrøm.

Vi kan endnu ikke være sikre på sammenhænge

Sammenhænge kan være svære at forstå, hvis man ikke kender mekanismerne bag.

Et klassisk eksempel er sammenhængen mellem salget af is og antallet af hajangreb. Kigger man blot på de to variabler, så ligner det, at folk køber flere is, når der er flere hajangreb – eller omvendt, men i virkeligheden er det en tredje faktor, der har betydning: Nemlig årstiden.

I store mængder data kan der findes mange sammenhænge, hvor man ikke ved, hvad der påvirker hvad. De kaldes korrelationer.

En korrelation kan for eksempel være, at mange personer, der har forhøjet blodtryk har et bestemt gen, uden at vi med sikkerhed ved, om personen har forhøjet blodtryk på grund af genet.

»Vi kan sagtens finde en masse mønstre i patienters livsstil, genetik og deres risiko for en given sygdom. Men vi kan måske ikke forklare, hvorfor mønstrene er der, og om det er en reel sammenhæng eller en tilfældighed, og det kan føre til overdiagnosticering,« advarer Claus Thorn Ekstrøm.

Derfor efterlyser han, at vi forsker videre, så vi kan finde årsagssammenhænge frem for korrelationer.

En årsagssammenhæng kunne for eksempel være, når en patient har en mutation i et gen, som vi med sikkerhed ved øger blodtrykket gennem en proces, vi kan forklare.

Computere kan godt lide korrelationer

Computere har vist sig at være meget effektive, når det kommer til at forudsige sygdomme hos patienter.

For eksempel er det på Oxford Universitet lykkedes forskere at udvikle en kunstig intelligens, som kan diagnosticere hjertefejl med større succesrate end hjertelægerne.

Når et computersystem skal vurdere en persons risiko for en given sygdom, skal den blot bruge en række indikatorer, som enten peger på et ja eller nej.

Her kan korrelationer være gode indikatorer, selvom de måske ikke relaterer sig direkte til sygdommen.

I 2016 lærte tre studerende en computer at kende forskel på hunde og ulve. Men da de undersøgte, hvad der lå til grund for dens vurdering, fandt de ud af, at den hovedsageligt kiggede efter, om der var sne på billedet.

Selv om sådan et system er nøjagtigt i sine forudsigelser, kan det ikke nødvendigvis svare på, hvorfor billedet forestiller en hund eller en ulv.

På samme måde kan en computer, der forudsiger en patients risiko, ikke nødvendigvis forklare, hvorfor patienten har den angivne risiko. Og derfor kan vi komme til at fejldiagnosticere, fortæller Claus Thorn Ekstrøm.

»Store datasæt gør det nemmere at finde mange mønstre, men det gør det ikke nødvendigvis lettere at finde frem til, hvilken mekanisme der gør patienten syg, og hvis vi ikke kan det, så kan vi måske heller ikke udvikle den rigtige behandling,« siger han.

statistik diagnose sundhed big data

Computere er eksperter i at opdage mønstre – men knap så gode til at vurdere sammenhængen. En kunstig intelligens lærte i 2016 at kende forskel på ulve og hunde. Sådan da. Det viste sig, at den vurderede, at der var tale om en ulv, når der var sne i billedet. (Foto: Shutterstock)

Sådan kan Big Data føre til overdiagnosticering
  • At overdiagnosticere er at give en sygdomsdiagnose, selvom symptomerne ikke er tilstrækkelige.
  • Hvis der findes genmutationer, som er forbundet med øget risiko for en sygdom, hos en patient, og man ikke er bevidst om de større sammenhænge, risikerer man ifølge Claus Thorn Ekstrøm at overdiagnosticere.
  • Mens de enkelte genmutationer kan tyde på, at patientens risiko for sygdom er store, kan der være andre genmutationer, som beskytter mod risikoen, og som man ikke kender endnu.
  • Derudover nævner Claus Thorn Eriksen, at en forøget risiko ikke nødvendigvis betyder, at sygdommen udvikles.
  • Derfor kan en større mængde data, hvor man ikke forstår alle elementerne, bidrage til overdiagnosticering.

Flere screeninger øger risiko for overdiagnosticering

At vi ikke endnu har den nødvendige viden kræver, at vi forsker mere i sammenhængen mellem gener, livsstilsfaktorer og nye analysemetoder til store datasæt, mener Claus Thorn Ekstrøm.

Men han er bekymret for, at det store potentiale i Big Data vil gøre, at vi kommer til at bruge de mange fundne sammenhænge, førend der er nok evidens på området til at vise, at det rent faktisk hjælper patienterne.

Derudover frygter han også, at store mængder data vil forstærke den nuværende tendens til at forsøge at fange sygdomme i opløbet ved hjælp af screeninger.

»Ved enhver screening er der en lille risiko for at overdiagnosticere. Hvis vi pludselig begynder at screene hele befolkningen for alt muligt forskelligt, vil risikoen mangedobles,« siger han.

Hvis vi for eksempel siger, at hver screening har 5 procents risiko for at overdiagnosticere en patient, og patienten bliver udsat for 20 forskellige screeninger med samme risiko, vil risikoen, for at patienten bliver overdiagnosticeret mindst én gang, stige til hele 64 procent.

»Og 20 screeninger lyder endda som lavt sat, hvis man tænker på, hvor mange sygdomme man vil kunne tjekke for indenfor nærmeste fremtid,« siger Claus Thorn Ekstrøm.

Professor: Big Data kan også afhjælpe overdiagnosticering

Torben Falck Ørntoft, der er overlæge og professor i molekylærbiologi og genetik ved Institut for Klinisk Medicin – Molekylær Medicinsk afdeling (MOMA) på Aarhus universitet, er både enig og uenig.

»Det er fuldstændig rigtigt, at vi endnu ikke ved nok om sammenhængene til at kunne bruge Big Data til diagnosticering. Men vi bruger det heller ikke på nuværende tidspunkt, og jeg tror bestemt heller ikke, vi kommer til det, før vi har opbygget en solid evidens,« siger han.

Han er dog ikke enig i, at Big Data nødvendigvis vil føre til overdiagnosticering. Faktisk kan Big Data i visse tilfælde afhjælpe overdiagnosticering.

»Der er for eksempel en stor debat indenfor rygoperationer i øjeblikket. En stor del af patienterne har rygsmerter selv efter operation, og her viser forskning, at hvis man laver en psykologisk test inden, så kan man frasortere nogle af de personer, som ville have smerter, uanset om de får operationen eller ej,« siger han.

På samme måde forestiller Torben Falck Ørntoft sig, at mere data også kan føre til færre behandlinger.

Vi skal ikke screene alle

Torben Falck Ørntoft er enig med Claus Thorn Ekstrøm i, at vi ikke skal have mere screening. Han mener i stedet, at vi skal have bedre screening. Og her giver flere data nogle muligheder på de områder, hvor man allerede kender sammenhængen.

Han nævner blandt andet et stort engelsk studie udgivet i Nature Genetics for nylig, hvor forskerne har brugt blodprøver fra 400.000 britiske bloddonorer til at finde frem til en række genmutationer, der øger risikoen for sygdomme markant.

Her viste det sig, at otte procent af de testede havde en genmutation, som øgede deres risiko for koronararteriesygdom tredobbelt i forhold til den øvrige befolkning.

»Det er meget få mennesker, der har de her mutationer, som blandt andet øger risikoen hjertekarsygdomme markant. De skal screenes og holdes øje med. Men den generelle befolkning skal ikke screenes for alt muligt,« siger Torben Falck Ørntoft.

»Lige netop den her lille gruppe af mennesker, der har en større risiko end andre, vil have godt af at få at vide, at det er ekstra vigtigt for dem at motionere, at de ikke må ryge og så videre,« siger han.

Professor: Kun information, hvis der kan gøres noget

Ifølge Torben Falck Ørntoft peger det engelske studie på, at det er muligt at finde frem til højrisikogrupper, allerede før man begynder at screene.

Men hvad så med de personer, der har en mindre forøget risiko – eller personer som har en høj risiko, men hvor der ikke findes en behandling endnu?

Torben Falck Ørntoft er enig i, at det giver et dilemma, men for ham er svaret klart:

»Man fortæller ikke folk, at de har en risiko, medmindre man har et tilbud, der kan hjælpe dem,« siger Torben Falck Ørntoft.

Sådan kan Big Data afhjælpe overdiagnosticering
  • Er man til gengæld bevidst om de større sammenhænge, kan Big Data føre til mere præcis diagnosticering.
  • Indenfor sygdomme, hvor man kender både de risiko-øgende genmutationer samt de beskyttende, kan man finde frem til de mennesker, der reelt har større risiko end andre og screene dem for den specifikke sygdom.
  • Det betyder, at det antal mennesker der deltager i screeninger, kan blive mindre og mere målrettet, og det sænker risikoen for fejldiagnosticeringer generelt.

Kilde: Torben Falck Ørntoft

Få din genprofil på nettet – og bliv bekymret

Det danske sundhedssystem bruger altså ikke big data endnu, og Torben Falck Ørntoft er overbevist om, at det først sker, når evidensen er der.

Claus Thorn Ekstrøm nævner dog, at private virksomheder allerede er gået i gang.

På hjemmesiden 23andMe.com kan man for eksempel købe sig adgang til information om sit genetiske ophav. Man sender en spytprøve med posten, de analyserer den genetiske profil, og på den baggrund får man en oversigt over ens risici for forskellige sygdomme.

»Den her samling af varianter med forskellige risici tilknyttet – hvad betyder de for en patient? Hvis du ikke kan gøre noget ved det, vil du så virkelig gerne vide det?« spørger Claus Thorn Ekstrøm.

Derudover fortæller Torben Falck Ørntoft, at der slet ikke er videnskabeligt belæg for at komme med alle de forudsigelser, som hjemmesiden lover.

»Det er snyd og bedrag. Man kan ikke se den slags generelle risici endnu. Der er en masse variationer og usikkerheder, som de ikke tager højde for,« siger han.

Blandt andet forholder det sig sådan, at visse genmutationer ganske rigtigt øger risikoen for sygdomme, men derudover kan der i personens øvrige genetiske materiale også gemme sig varianter, som beskytter mod samme sygdom – og det er dem, vi ikke kender endnu, fortæller Torben Falck Ørntoft.

»Én ting er, hvor meget en bestemt mutation øger risikoen for en sygdom, men noget andet er penetransen – altså, hvor mange der rent faktisk bliver syge. Her er der en masse beskyttende forhold, som vi ikke kender endnu,« siger Torben Falck Ørntoft.

Han frygter dog ikke, at der kommer flere private virksomheder som 23andMe.

»Folk kan jo opføre sig lige så tosset, som de vil. Men det er ikke noget nyt. De har været her i 15 år.«

... Eller følg os på Facebook, Twitter eller Instagram.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.