Afsløring: Din identitet kan hentes ud af 'anonyme' kreditkort-data
Data i massevis indsamles om os alle fra blandt andet kreditkort - og videregives i anonym form. Men nu viser forskere, hvor let det er at identificere, hvem de anonyme kreditkortbrugere er.
Shutterstock)' >

'Big data' er data som indsamles fra internettet og er med til at beskrive din adfærd og identitet. Oplysningerne kan blandt andet bruges i forskningen på sundhedsområdet. (Foto: Shutterstock)

'Big data' er data som indsamles fra internettet og er med til at beskrive din adfærd og identitet. Oplysningerne kan blandt andet bruges i forskningen på sundhedsområdet. (Foto: Shutterstock)

Gigantiske datasæt, der indsamles fra vores mobiler, browsere og kreditkort – Big Data – har givet læger bedre muligheder for at behandle sygdomme, byplanlæggere for at bygge bedre byer og ikke mindst forskere mulighed for at finde nye svar på livets og forskningens store spørgsmål.

Dataen er som regel anonymiseret, så navne erstattes af et nummer for at beskytte de mennesker, hvis livs intime detaljer er beskrevet.

Men nu har forskere fra Massachusetts Institute of Technology (MIT) og Aarhus Universitet vist, hvor let det er at identificere, hvem de anonyme personer er i et datasæt over handler med kreditkort.

Studiet er beskrevet i en artikel, der netop er udkommet i det ansete tidsskrift Science.

»Resultaterne er overraskende, for vi havde ikke forestillet os, at muligheden for at identificere folk ville være så stor,« siger Laura Radaelli, der er en del af studiet, over telefonen fra Tel Aviv i Israel. Hun er nu postdoc på Tel Aviv Universitet, efter at hun afsluttede sin ph.d. på Aarhus Universitet i oktober 2014.

»Det er data om mennesker - vi skal være sikre på, det ikke udgør en risiko«

På Aarhus Universitet forskede hun i big data på Institut for Datalogi, og det var i forbindelse med et længere besøg på MIT, at forskningen i kreditkort-data kom på plads.

Forskerne på MIT havde allerede forskningsresultater, der viste, at det var let at identificere brugere i mobildatasæt, selvom både navne og telefonnumre var fjernet.

Samtidig begyndte flere og flere videnskabelige tidsskrifter sidste år at kræve, at når videnskabelige artikler byggede på big data, så skulle datasættet offentliggøres, så andre forskere kunne gå resultaterne efter i sømmene.

»Det er blevet lettere at indsamle big data, men det er ikke noget, alle forskere har mulighed for. Ved at dele det, åbner man potentialet for, at mange forskellige forskere kan finde mange forskellige interessante resultater i datasættet. Men det er data om mennesker – for at kunne dele det, er vi nødt til at være sikre på, at det ikke udgør en risiko for folk,« siger Laura Radaelli.

Få køb kan afsløre identitet

Forskerne satte sig derfor for at finde ud af, om anonymiseringen – hvor man normalt fjerner navne, adresser, kontonumre, telefonnumre og andre indikatorer, der kan identificere en person – er nok.

Navnene erstattes ofte med et unikt brugernummer, eksempelvis v1den5kab, så man kan følge personens handlemønster uden at vide, hvem personen er.

Til at teste anonymiteten brugte forskerne et datasæt med 1,1 million menneskers kreditkort-handler i 10.000 butikker over tre måneder.

Formålet var at finde ud af, hvor meget man skulle vide om en person i virkeligheden for at finde ud af, hvem de var i datasættet.

I datasættet var ud over et anonymt brugernummer også data om, hvilken butik handlen var foretaget i, hvilken dato købet havde fundet sted, og hvad prisen var.

»Lad os antage, at jeg ved, at du besøgte fire bestemte butikker på fire bestemte dage,« siger Laura Radaelli. »I 90 procent af tilfældene ville du være den eneste, der havde gjort det,« forklarer hun.

9 ud af 10 personer kunne altså identificeres i datasættet ud fra viden om sted og dato for kun 4 handler.

Lettest at identificere kvinder og folk med høj indkomst

Hvis forskerne også havde en cirkapris på, hvad der var købt, blev det endnu lettere at identificere en person i datasættet.

Hvis forskerne kendte den præcise pris var det naturligvis let at finde folk, da de så blot kunne søge efter køb med præcist dette beløb og se, hvem der havde foretaget det.

I stedet nøjedes de med at se på cirkapriser, som man ville kunne gætte ved at se på, hvad køberen kom ud af butikken med.

»Hvis du foretog et køb i en skobutik, og vi kunne gætte en cirkapris, blev sandsynligheden for identifikation øget med i gennemsnit 22 procent,« siger Laura Radaelli. Forskerne konstaterede også, at det var lettere at identificere kvinder og folk med høje indkomster.

»Vi har ikke set på årsagerne til det. Det var blot en observation, vi mente, det var værd at nævne for at gøre opmærksom på, at nogle individer kan være lettere at identificere end andre,« siger Laura Radaelli.

Tweet kan afsløre dig selv

På Danmarks Tekniske Universitet (DTU) mener lektor Sune Lehmann, at det er en vigtig debat, som forskningsresultatet rejser. Han forsker selv i big data på Institut for Matematik og Computer Science.

»Det peger på et vigtigt problem, og det er en fin analyse,« siger Sune Lehmann om artiklen i Science Magazine.

Fakta

Big data er kæmpe datasæt, som teknologien har gjort det muligt at indsamle i meget stort omfang om et meget stort antal mennesker. Det kunne være placeringer fra mobiltelefoner, kreditkortkøb, hjerterytmer, kalorieindtag eller meget andet. Den store datamængde gør det muligt at se mønstre, forskerne ikke kunne se før.

Byplanlæggere kan for eksempel bruge placeringsdata fra mobiltelefoner til at finde ud af, hvor der ofte opstår bilkø, eller hvor der mangler busruter. Ved at udnytte viden om, hvordan borgere i en by bevæger sig rundt, kan de gøre byen bedre.

I sundhedsvæsnet gør store datamængder om symptomer det muligt at genkende mønstre og forudsige sygdomme, så de kan forebygges.

For virksomheder giver viden om kunders adfærd og køb dem mulighed for at anbefale produkter målrettet den enkelte kunde ved at se på, hvad lignende kunder ellers har købt. Det benytter filmstreamingtjenesten Netflix blandt andet, når den anbefaler film til brugerne.

»Jeg tager det her som endnu en påmindelse om, at det er virkeligt farligt at dele data, hvis du kun har fjernet indikatorerne. Man bør ikke se det som anonymiseret data, men de-identificeret. Det skal man tage ret seriøst. Det kan være virkelig svært at vide på forhånd, hvad der skal til for at re-identificere folk. Som borger skal man til at begynde at kende de her begreber,« siger Sune Lehmann.

»Grunden til, at det er interessant, er, at jeg kunne være gået på Twitter og fortalt, at jeg lige har købt nye løbesko, eller på Amazon kunne jeg have trykket på en knap og delt, at jeg har købt nye joggingbukser. Hvis man offentliggør ting, kan man forbinde nogle få punkter og finde folk i datasæt,« siger Sune Lehmann.

LÆS OGSÅ: Forskere skal afsløre farerne ved big data

Kunne identificeres ud fra Netflix og IMDB

Sune Lehmann peger blandt andet på, at filmstreamingtjenesten Netflix for nogle år siden offentliggjorde anonyme data om hvor mange stjerner, deres brugere havde givet film, og udlovede en præmie på en million dollar til forskere, der kunne forbedre tjenestens algoritme til at anbefale film til brugere.

Men forskere fra University of Texas sammenlignede i stedet anmeldelserne i de anonyme Netflix-data med offentlige anmeldelser på hjemmesiden IMDB (Internet Mobie Database) og kunne identificere folk.

De havde dermed pludselig viden om, hvordan de havde anmeldt film med politiske budskaber, seksuelt indhold eller andet, de ikke havde haft lyst til at dele med andre.

»Selvom de kun havde et id og vidste, hvilke film der var anmeldt, kunne de identificere, hvem folk var med data, der var frit tilgængeligt på internettet. Det ville være ubehageligt, hvis de her kreditkortdata var offentlige, og jeg tweetede om mine nye løbesko, og folk pludselig vidste alt om, hvad jeg har købt det sidste år,« siger Sune Lehmann.

Nemt at få oplysninger om folk

En oplagt løsning for at beskytte folks privatliv kunne være at gemme mindre præcise data om folk.

Men dette testede forskerne også. De ændrede datasættet, så de i stedet for at vide, hvilken dag et køb var foretaget kun vidste, inden for hvilken 15-dages periode, det var foretaget.

Samtidig lagde de butikker sammen i grupper på 350 butikker, så forskerne ikke vidste hvilken butik, der var handlet i, men kun for eksempel hvilket shoppingcenter.

Med viden om fire handler var det nu kun 15 procent af folkene i datasættet, der kunne identificeres.

»Men når man reducerer viden om tid, sted og cirkapris, skal man blot indsamle flere punkter,« siger Laura Radaelli. Med viden om 10 handler kunne mere end 80 procent identificeres.

»Jeg tror, det er oplysninger, det er ret nemt at få fat i. I Danmark bruger folk kreditkort til at købe næsten alt, endda kaffe. Jeg vil ikke sige, at folk skal holde op med at bruge kreditkort, for det er information, bankerne har, og de offentliggør den ikke. Vores pointe er, at det er data, der kan være brugbar for forskere og virksomheder, men hvis banken får lyst til at dele den, skal de være meget forsigtige,« siger Laura Radaelli.

Lovgivning halter bagefter

Både Laura Radaelli og Sune Lehmann peger på, at big data udgør en udfordring, som samfund og lovgivere må forholde sig til.

»Jeg synes, der er en masse ting, der mangler at blive debatteret. Det bliver vigtigere og vigtigere, at vi forholder os til, hvad der sker med vores data. Men det er en svær debat at tage, for det er svært at komme med gode løsninger. Hvis man som borger er bekymret over det her, hvad skal man så forlange? Det er uklart,« siger Sune Lehmann og påpeger, at der forskes i en række metoder til at gøre data anonyme, men at ingen af dem virker perfekt (læs mere i boksen nedenunder denne artikel).

»Der mangler stadig arbejde for at blive klar til big dataens tid,« supplerer Laura Radaelli.

Hun peger sammen med de andre forskere i Science-artiklen blandt andet på lovgivningen om anonymisering af datasæt i USA og EU, hvor man har brugt to vidt forskellige tilgange.

Men begge tilgange er utilstrækkelige, viser resultaterne af studiet af kreditkortdata.

Big data redder liv

I USA er kravet blot, at alle indikatorer, der kan identificere en person, skal fjernes før offentliggørelse. Det vil sige navn, adresse, telefonnummer og så videre.

»Det tager ikke højde for, hvad der kan ske, efter dataen er offentliggjort,« siger Laura Radaelli. Omvendt kræver EU-lovgivningen, at personer ikke må kunne identificeres i offentliggjorte datasæt.

»Det er umuligt at opnå – det kan være, at der i morgen kommer nye oplysninger ud på internettet, som gør det muligt at re-identificere din data. Lovgivningen er ekstremt streng, og det gør, at folk ikke deler noget som helst, og det er heller ikke godt,« siger Laura Radaelli.

»De her data kan bruges til noget virkelig vigtigt. Som forsker vil jeg gerne have adgang til datasæt, men det her handler om meget mere end det,« siger Laura Radaelli og påpeger, at big data blandt andet redder liv i sundhedsvæsenet og spiller en nøglerolle i bekæmpelse af malaria.

»Formålet med studiet er ikke, at folk skal være skræmte, for vi tror virkelig på, at vi har brug for, at data kan deles. Men det er vigtigt, at folk er opmærksomme på, hvad de deler om sig selv,« siger Laura Radaelli.

UPERFEKTE METODER TIL AT ANONYMISERE DATA

Der er en række metoder på tegnebrættet til at sikre anonymisering af data, men ifølge Sune Lehmann er ingen af dem perfekte, og sikring af anonymitet er stadig et forskningsområde i udvikling.

• Simpel anonymisering: Under amerikansk lovgivning er det et krav, at navne, kontonumre, adresser eller andet, der identificerer en person, fjernes før offentliggørelse af et datasæt. I stedet for disse personlige data bruges et tilfældigt brugernummer.

Det sikrer imidlertid ikke mod, at man kan finde ud af, hvilken person der gemmer sig bag et brugernummer i datasættet.

Lykkes det, som det gjorde for forskerne fra MIT og Aarhus Universitet, kan man dermed få alle oplysninger om individet fra databasen blot ved at kende nogle få stykker information.

K-anonymitet: Man offentliggør oplysninger om folk så upræcist, at personen, dataen handler om, kunne være en af mindst k personer. Hvis k=10 skal købet kunne være foretaget af 1 ud af 10 personer.

Køber man ind i Bilka på en dag med lange køer, kan datasættet derfor godt indeholde oplysningen om, at det var i Bilka, købet blev foretaget, for det kan være en af de andre kunder.

Køber man derimod ind i en specialforretning med mindre end 10 kunder i løbet af dagen, så bliver forretningen slået sammen med nabobutikken for at nå over 10 købere – dermed kan man ikke se i dataen, hvilken af de to butikker købet er foretaget i.

Metoden virker i nogen sammenhænge, men ikke i højdimensionelle datasæt som det, forskerne har set på i Science-artiklen - stiller man nok spørgsmål i kombination med hinanden, kan folk stadig identificeres, fortæller Sune Lehmann.

Computation in the encrypted domain: En metode, der krypterer hele datasættet, så ingen har adgang til rådata. Forskere kan stadig trække data ud om, hvor mange der handlede i Bilka en given dag, men beregningerne foretages krypteret uden adgang for forskere og andre interesserede.

Ligesom med k-anonymitet kan man garantere, at metoden er sikker i nogle sammenhænge, men langt fra i alle. 

• Gennemsigtighed: Man giver folk adgang til at se, hvad deres data bliver brugt til. Brugere af mobiltelefoner eller kreditkort får at vide, hvilke datasæt de er en del af, og de kan se, hvem der kigger på deres data.

Hvis man ser, at nogle sender 5.000 forespørgsler om ens data, mens de kun sender 10 forespørgsler om andres, kunne det være anledning til at undersøge, hvem der kigger på ens data og hvorfor.

Kilder: Laura Radaelli og Sune Lehmann.

... Eller følg os på Facebook, Twitter eller Instagram.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.


Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.