Open Data: Fantastisk ide eller bureaukratisk mareridt?
Open Data-bevægelsen kæmper for, at forskere frit skal dele deres data. Men den smukke ide rummer en række store udfordringer.
Open data datadeling grundforskningsfonden

Alle videnskaber er baseret på guldminer af data, som forskerne ikke kommer sovende til - bør den deles med andre? (Foto: Shutterstock)

»Forskningen skal åbne sig for omverdenen.«

Sådan lød det for nogle år tilbage i en artikel på Videnskab.dk, hvor en række forskere opfordrede forskningsverdenen til at samarbejde og kommunikere mere – både med hinanden og samfundet.

Videnskaben har nemlig længe haft problemer med, at forskningsresultater drukner i støv og internt fagsprog. Som reaktion startede den såkaldte Open Science-bevægelse, som vil sprede videnskaben uden for laboratoriernes vægge.

Ud af Open Science-bevægelsen voksede Open Data-bevægelsen, som i øjeblikket får forskerne til at dele deres forskningsdata med hinanden og offentligheden.

Ifølge Open Data-bevægelsen skal forskerne altså ikke bare dele deres resultater med omverdenen – de skal også dele de data, som ligger bag resultaterne.

»Det, at videnskab i princippet skal være fair og åben, er et gammelt ideal, men de seneste 10-15 år har vi fået kraftige internetforbindelser på universiteterne, som gør det nemmere at dele data rent teknisk,« siger Birger Larsen, som er professor ved Institut for Kommunikation og Psykologi på Aalborg Universitet.

Tænk, før data slippes fri

Open Data var netop hovedtema på sidste uges årsmøde i Danmarks Grundforskningsfond.

Her påpegede forskningsminister Søren Pind (V), at åben adgang til data både kan give større gennemsigtighed i forskningen og spare tid og ressourcer, fordi de samme data ikke skal indsamles flere gange.

»Som vi siger i Danmark: Der er ingen grund til at opfinde den dybe tallerken to gange,« sagde Søren Pind på årsmødet.

Open Data-bevægelsen kæmper netop for, at man skal kunne genbruge forskningsdata, uden at der står mure af copyright og betaling i vejen.

Men selvom det lyder som en god og smuk tanke, er der en række udfordringer ved Open Data, påpeger Grundforskningsfonden.

»Man skal både have infrastrukturen til det, store datacentraler, en politik for kvaliteten af data og nogle gulerødder til de forskere, der gør det, fordi det ikke figurerer på deres CV,« siger Søren-Peter Olesen, som er direktør for Danmarks Grundforskningsfond.

Open Data kræver masser af serverplads

Grundforskningsfonden har netop lavet en rundspørge blandt 447 danske og udenlandske forskere, og resultatet viser, at listen over udfordringer er dobbelt så lang som listen over fordele ved Open Data.

I spørgeskemaet udtrykker forskerne blandt andet bekymring for, at deres data kan blive fejlfortolket, eller at det vil tage for meget af deres tid og ressourcer.

Det er nemlig ikke bare en computer og et museklik væk at uploade de ofte meget store datasæt, som kræver masser af serverplads. Hvem der skal stille sådanne servere til rådighed og vedligeholde dem, er blandt forskernes spørgsmål omkring Open Data.

Database open data open science

Data flyver ikke rundt 'i skyen', men lagres i store datacentre, som har brug for strøm, plads og vedligeholdelse. (Foto Shutterstock)

Data giver kun mening for forskeren selv

Et andet problem er, at rå data i sig selv kan være meget meningsløse for andre end forskeren, der har indsamlet dem.

Det har Rubina Raja et eksempel på. Hun er professor i klassisk arkæologi ved Institut for Kultur og Samfund på Aarhus Universitet og leder af Centre for Urban Network Evolutions og rejser spørgsmålet:

»Kan det ikke nogle gange kreere mere forkerte resultater end korrekte, hvis man ikke har hele pakken med data, som giver nøglen til at forstå dem?«

Når hun og hendes kolleger laver en udgravning, hvor blandt andet keramik dukker op, bestemmer de potternes alder ved at se på, hvilket lag i jorden man finder dem i. Men det kan man kun gøre, når man står i jorden og forstår jordlagenes forhold til hinanden.

»I morgen kan jeg lægge billeder af en million potteskår på internettet, men det siger jo ikke ret meget, hvis billederne ikke et annoteret (forsynet med forklarende noter, red.) med lagdelingskontekster,« siger Rubina Raja.

En gylden middelvej er måske løsningen

På hendes forskningscenter har de i stedet forsøgt sig med en gylden mellemvej, hvor de offentliggør data fra arkæologiske udgravninger, som hverken er rå data eller helt færdigfortolkede data, men et sted i midten.

Til gengæld har de taget forbehold for, at måden, man skal forstå data på, kan ændre sig, efterhånden som arbejdet skrider frem.

»Det vil jeg mene, er en forsvarlig og ønskelig måde at gøre det på, så mine kollegaer ikke skal vente seks år, før de kan få resultaterne af de millioner af udgravede potteskår,« siger Rubina Raja.

Keramik arkæologi udgravning open data

Billeder fra arkæologiske udgravninger er et eksempel på data, som kan misforstås af andre end forskeren, der stod med fødderne i jorden. (Foto: Shutterstock)

Sprængfarlig i de forkerte hænder

Ud over at føre til fejlfortolkninger kan Open Data i værste fald også føre til forbrydelser, mener Rubina Raja.

Rubina Raja leder derudover et stort forskningsprojekt om palmyrenske gravportrætter. Udover de humanitære konsekvenser kulturarven led under den syriske borgerkrigen, førte konflikten også til illegale udgravninger og mange objekter blev solgt på antikmarkeder forklædt med falske oprindelseshistorier.

»Jeg blev blandt andet kontaktet af en samler, som sendte mig et billede af et objekt, han mente at have købt helt legalt. Jeg kunne se, at det kom direkte fra væggen af et museum fra Palmyra, og at det skulle tilbage, hvor det kom fra. Hvis data havde været frit tilgængelige, kunne han selv have fundet ud af det og på den måde have brugt mine data til at hvidvaske historien,« siger Rubina Raja.

Personlige data er sikre på Riget

Endnu en udfordring ved Open Data er de strikse regler for persondata, som ikke uden videre må spredes. Og persondata findes der masser af i sundhedsforskningen.

Men det har et projekt på Rigshospitalet garderet sig imod. Programmører og medicinfaglige har i samarbejde udviklet et såkaldt datavarecenter ved navn 'Persimune', hvor læger helt efter loven kan dele patientdata fra sundhedssystemets rutineundersøgelser.

På nuværende tidspunkt har Persimune data på 120.000 patienter, der har gennemgået rutineundersøgelser på Rigshospitalet, men med mulighed for at udvide det til hele Danmarks befolkning.

Sundhedsdata open data

Data på personer i sundhedssystemet er en følsom størrelse og kan per definition ikke være Open Data, fordi de ikke må være offentligt tilgængelige. (Foto: Shutterstock)

Ideen er, at denne guldgrube af informationer skal gøre forskerne og klinikerne klogere på, hvordan man fremover kan give patienterne en mere målrettet behandling, fortæller lederen Jens Lundgren, som er professor ved Institut for Klinisk Medicin på Københavns Universitet.

»I mine øjne er datadeling bare en nødvendig forudsætning for, at det her overhovedet kan fungere. Mit motto er, at vi skal bruge data fra de patienter, vi behandler i dag, til at behandle bedre i morgen. Det modsatte holder dybest set ikke vand,« siger Jens Lundgren.

Persimune er et godt eksempel på, hvordan data kan gøres tilgængeligt i et begrænset omfang, men det har ikke været helt ligetil at oprette.

»Det har været hårdt arbejde, krævet tid og forhandlinger at opbygge en tillid, så ingen føler sig så at sige 'røvet' på deres data,« siger Jens Lundgren.

Hvor er guleroden?

Én ting er desuden at samle data sammen fra rutineundersøgelser, som bliver indsamlet uanset hvad. En anden sag er det, hvis en forsker har arbejdet hårdt og længe med indsamling af data til et forskningsprojekt, som er både forskerens levebrød og hjertebarn.

»Det er jo en følsom diskussion, fordi folk føler, de har et ejerskab over deres data. Men min filosofi er, at når man er færdig med sit projekt, har man førsteret til sine data, men når man er færdig med at bruge det, ville det så ikke give mening at lægge det op i et fælles datavarehus, så andre måske kunne bruge det samme data måske to år senere,« siger Jens Lundgren.

Fra Grundforskningsfondens side fastholder direktør Søren-Peter Olesen, at der er nødt til at være en belønning til forskerne, hvis de giver andre adgang til deres data – for ellers stopper forskerne bare med at indsamle data, mener Søren-Peter Olesen.

»De er nødt til at blive mere berømte eller få flere penge. For at Open Data kan foregå, skal folk kunne få noget ud af det,« siger han.

Han tilføjer, at det kan stoppe en ung forskers karriere at give afkald på sine data for hurtigt.

Kræver nyt belønningssystem

Videnskaben har ifølge Birger Larsen fra Aalborg Universitet en gammel tradition for at belønne forskere for hvert udgivet studie og for såkaldte citationer – det vil sige når andre forskere henviser til studiet. Men ofte er der lang vej fra at indsamle data til at kunne udgive noget som helst.

Hvis idealet om åbne data skal have en bedre chance, kræver det ifølge Birger Larsen en større kulturændring inden for forskningen. Han foreslår derfor, at man kigger nærmere på måden, forskere belønnes på.

»Hvis man kunne opgøre, hvor mange publikationer et datasæt har afstedkommet, så man også kan blive belønnet for dét i sin karriere, ville det være med til at støtte ‘open data’-udviklingen,« siger Birger Larsen.

Et problem ved denne type belønningssystem kan imidlertid være, at der kan være stor forskel på ‘værdien’ af et datasæt afhængigt af, hvilken forskningsdisciplin der er tale om, påpeger han.

»Det kan være, at 10 downloads af et datasæt inden for humaniora svarer til 100 eller 1.000 downloads inden for medicin. Det ved vi ikke så meget om endnu, så der skal mere forskning til at undersøge, hvordan det hænger sammen,« siger Birger Larsen.

Der forskes allerede i, hvordan sådan en belønningsmekanisme kan se ud, men vi er ifølge Birger Larsen endnu langt fra en færdig løsning.

En uundgåelig udvikling

Selvom listen af udfordringer er lang, er Open Data godt på vej til at blive virkelighed ifølge Søren Pind, Søren Peter Olesen, Birger Larsen og Jens Lundgren.

»Jeg tror, det her kommer til at ske, men vi kan diskutere hastigheden i, hvor meget og hvor udbredt det bliver. Nu er det bare et spørgsmål om, hvor smart lommeregneren ser ud, for det er klart, at jo flere penge man putter i, jo bedre og mere professionelt bliver det,« siger Jens Lundgren.

Selvom Rubina Raja repræsenterer den mere skeptiske del af forskerne, bakker også hun grundlæggende op om udviklingen - med forbehold.

»I princippet er jeg enig i, at det er en god ting, men der følger bare nogle meget komplicerede diskussioner med. Man bør ikke kunne kræve af forskere, at de skal lægge deres data ud, uden at der er en etisk praksis omkring det,« siger Rubina Raja.

Også fra de politiske kanter er det en prioritet at ændre belønningskulturen.

»Hvis vi vil have Open Data, skal vi gøre det mere interessant at give adgang til sine data, før forskerne er villige til at dele,« sagde Søren Pind til Grundforskningsfondens Årsmøde.

Lyt på Videnskab.dk!

Hver uge laver vi digital radio, der udkommer i form af en podcast, hvor vi går i dybden med aktuelle emner fra forskningens verden. Du kan lytte til den nyeste podcast i afspilleren herunder eller via en podcast-app på din smartphone.

Har du en iPhone eller iPad, kan du finde vores podcasts i iTunes og afspille dem i Apples podcast app. Bruger du Android, kan du med fordel bruge SoundClouds app.
Du kan se alle vores podcast-artikler her eller se hele playlisten på SoundCloud