Forskere: Big data får i nogle tilfælde baghjul af meget mere simple data
Nyt studie rejser kritiske spørgsmål om værdien af ’big data’ og digital overvågning som en effektiv måde at forudsige menneskelig adfærd.
Big Data samfund overvåge forudse adfærd kritik

Den avancerede big data-metode indebærer ofte øget overvågning af os alle. Nyt studie konkluderer, at mindre indgribende alternativer kan være bedre – både praktisk og principielt. (Foto: Shutterstock)

Den avancerede big data-metode indebærer ofte øget overvågning af os alle. Nyt studie konkluderer, at mindre indgribende alternativer kan være bedre – både praktisk og principielt. (Foto: Shutterstock)

Big Data - informationer om os allesammen, høstet gennem vores brug af eksempelvis Google og sociale medier - er ikke altid bedre end simple og offentlige datasæt, når det kommer til at forudsige vores adfærd.

Big Data har ellers ry for at være en værdifuld kilde til at forudsige adfærdsmønstre, men ulempen ved Big Data er, at der indsamles en masse - og til tider følsom - viden om borgerne, hvilket potentielt kan blive en trussel for vores privatliv.

I et nyt studie har forskere fra Københavns Universitet og Danmarks Tekniske Universitet opstillet et forsøg, hvor de forsøgte at forudsige studerendes eksamenskarakterer med forskellige typer datasæt. 

Resultatet viste altså, at de simple og mindre følsomme datasæt faktisk klarede opgaven bedre end de mere private Big Data.

Hvad er Big Data?

Big Data bliver ofte brugt ret flydende, men generelt dækker betegnelsen over store og diverse mængder information om forbrugere.

Informationen høstes og analyseres af software, der kan finde mønstre i de vældige datasæt.

Dataene kan inkludere alt fra, hvad vi har skrevet på sociale medier og vores seneste skokøb til vores svar på brugerundersøgelser og position på GPS’en.

Firmaer og andre organisationer kan betale eksperter for at gennemgå dataen og nå frem til information om forbrugere, som de kan forbedre deres forretning med.

Kilde: Investopedia

Store datasæt er ikke nødvendigvis bedre

Studiet, der er udgivet i det videnskabelige tidsskrift PNAS, har forsøgt at forudsige over 500 studerendes eksamensresultater ved hjælp af to sæt data:

  1. Simple, administrative data, som man kunne finde hos Danmarks Statistik, samt i form af elevernes karakterer fra skole og gymnasiet
  2. Big Data: Mere nærgående data, indsamlet via de studerendes mobiler

Data fra mobilerne er omfangsrige og inkluderer blandt andet:

  • Hvor eleverne har befundet sig
  • Hvor ofte de er kommet til timerne
  • Hvem de skriver beskeder og ringer til
  • Elevernes telefonbrug i timerne

Ud fra den information har forskerne så forsøgt at forudsige elevernes karakterer ved brug af henholdsvis datasæt 1, datasæt 2 og begge sæt sammenlagt.

»Vi så, at modellerne baseret på de simple administrative data klarede sig langt bedre,« fortæller Andreas Bjerre-Nielsen.

Han er adjunkt i økonomi og social datavidenskab på Københavns Universitet og medforfatter til den videnskabelige artikel.

»Og da vi lagde begge sæt sammen, gav tilføjelsen af sæt 2 ikke bedre resultater end brugen af sæt 1 alene,« forklarer han.

Big Data samfund overvåge forudse adfærd kritik

Grafen viser fordelingen af forudsigelsernes nøjagtighed. I gennemsnit (den hvide prik i hver række) rammer forudsigelser baseret på Big Data kun rigtigt i 43% (0,43) af tilfældene, hvor forudsigelser baseret på administrativ data ligger på 58%. At slå de to sammen gav ikke bedre resultat end den administrative data alene. (Illustration: Andreas Bjerre-Nielsen, Sune Lehmann, Valentin Kasarnig, Davis Dreyer Lassen)

Big data giver ikke altid de bedste forudsigelser

Ifølge Andreas Bjerre-Nielsen minder resultaterne os om, at Big Data ikke altid er det bedste redskab at forudsige med:

»Big Data kan forudsige nogle ting nogle gange; det er for eksempel effektivt til at forhindre kreditkort-svindel,« forklarer han.

»Men studiet minder om, at vi ikke altid behøver at ofre vores privatliv for at få brugbare resultater, når mere relevante, generelle data kan bruges.«'

Sune Lehmann er professor i computer science på Danmarks Tekniske Universitet og medforfatter til den videnskabelige artikel.

På sin blog sammenligner han studiet med det at forudse, hvor hurtigt en person kan løbe 100 meter.

Der vil man nok finde frem til en mere præcis forudsigelse ved at se på løberenses tidligere resultater, i stedet for hvor meget vedkommende kan bænkpresse eller vedkommendes fedtprocent.

I studiet svarer Big Data-modellen netop til at indsamle alt muligt mindre relevant info om eleverne, og så stykke det sammen. Men i virkeligheden kan man bare nøjes med at se på elevernes tidligere karakterer.

Eksempler på brug af Big Data i virkelighedens verden
  • Netflix bruger data indsamlet gennem deres side til at foreslå serier til dig og til at optimere deres streaming og videokvalitet.

  • Organisationen OpenSignal har gennem en app indsamlet data om vejret gennem folks mobiler, hvilket skal bruges til at forudse vejret i fremtiden.

  • Butikskæden Target har forsøgt at forudsige deres kunders fremtidige indkøbsvaner baseret på data om tidligere køb for at forbedre deres reklame.

  • I sundhedssektoren er nogle ivrige efter at bruge store datasæt til at forbedre behandlinger og diagnoser ved at dele information frit mellem hospitaler.

Kilder: Wall Street Journal, Scientific American, New York Times, Forbes

Solidt studie, men kan ikke generaliseres

»Studiet er ganske solidt: De har en problemstilling (hvad bliver elevernes karakterer), bruger 2 datasæt til at løse den og ser, at det ene sæt giver mere præcise svar end det andet,« forklarer Christian S. Jensen.

Han er professor i datalogi på Aalborg Universitet og har læst studiet igennem for Videnskab.dk. Han deklarerer også, at han har siddet i et udvalg, der har givet studiet penge.

»Det er sikkert en god observation, at Big Datas anvendelighed er afhængig af den konkrete situation, selvom nogen måske ville sige, at vi godt kunne have tænkt os til det uden forsøget.«

Netop derfor påpeger han, at der er behov for yderligere forskning for at kunne generalisere studiets resultater til andre situationer, herunder eksisterende anvendelser af Big Data.

»Som studiet viser, er der god grund til, når man vil regne ting ud med data, først at forske i, hvor godt det datasæt, som man vil bruge, passer til ens formål.«

Facebook viser, at en stor mængde data ikke altid rækker

Ifølge Andreas Bjerre-Nielsen er Facebooks køb af brugerinformation fra andre parter et godt eksempel på Big Data, der bare ikke rækker til et specifikt formål.

»Facebook indsamler jo store mængder data på deres brugere, og det kan sikkert godt bruges til at forudsige, hvad du like’er i dit feed næste gang,« forklarer han.

»Men når de vil forudsige brugeres adfærd uden for deres egen platform, må de alligevel købe info om brugeres forbrug, helbred og uddannelse andre steder, for at forbedre deres annonceringsmuligheder.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.

Danske corona-tal

Videnskab.dk går i dybden med den seneste corona-forskning. Læs vores artikler i temaet her.

Hver dag opdaterer vi også de seneste tal.

Dyk ned i grafer om udviklingen i antal smittede, indlagte og døde i Danmark og alle andre lande.

Ny video fra Tjek

Tjek er en YouTube-kanal om videnskab, klima og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs her om påfugleedderkoppen, der er opkaldt efter fisken Nemo.