Forsker vil åbne det skjulte internet
Skjult for de fleste eksisterer et net, som kun består af rådata – det semantiske web. Et nyt forskningsprojekt skal gøre det tilgængeligt for os alle sammen.

Man vil kunne finde mere præcise eller brugbare svar, når man søger på det semantiske web i stedet for Google, der kun kigger efter de specifikke søgeord, man har brugt.
(Foto: Shutterstock)

Man vil kunne finde mere præcise eller brugbare svar, når man søger på det semantiske web i stedet for Google, der kun kigger efter de specifikke søgeord, man har brugt. (Foto: Shutterstock)

Der er det normale internet, som vi alle sammen bruger, når vi går på Google, Facebook og Videnskab.dk. Der er det mørke internet, som bliver brugt af kriminelle og menneskerettighedsforkæmpere, når de skal undgå myndighedernes snagende blikke rundt om i verden.

Og så er der det semantiske web – et idealistisk projekt om at gøre al data let tilgængeligt. Her ligger store mængder data med potentielle svar på forskeres spørgsmål, på skoleelevers undren eller på hvordan den næste forretningsidé kan bringes ud i livet.

Det er bare de færreste, der kan finde ud af at bruge det.

Det skal et nyt forskningsprojekt på Aalborg Universitet lave om på. Katja Hose, der er adjunkt på Institut for Datalogi har fået tildelt 6,5 millioner kroner fra Det Frie Forskningsråd til et forskningsprojekt, der skal gøre det semantiske web tilgængeligt, så det er let for alle at hive svar ud fra disse datakilder.

»Hvis du ikke rigtigt har hørt om det semantiske web, er en af grundene nok, at det er svært tilgængeligt. Du kan godt få adgang til det i en browser, men for at få noget ud af listerne af rådata, skal man bruge et vanskeligt, teknisk spørgesprog. Man skal gøre alting selv og skal kende datasættet for at få ens kode til at fungere. Jeg vil gøre det meget nemt og effektivt for brugere,« siger Katja Hose.

Rent praktisk skal Katja Hose lave et system ved navn QWeb, der gør det muligt nemt at få svar på forespørgsler i de semantiske datakilder. Systemet skal kunne svare effektivt ved at identificere de mest relevante kilder til at svare på forespørgslen og finde ud af, hvilke resultater der er mest relevante for brugeren. QWeb-systemet skal også kunne forklare brugeren, hvordan systemet er kommet frem til et svar.

Idealistisk kategorisering af data

Det semantiske web opstod som en idealistisk tanke om at gøre alle data let tilgængelige. Idémanden bag var Tim Berners-Lee, der også fik idéen til internettet – the world wide web – og skabte verdens første webserver, mens han arbejdede på forskningscentret CERN.

Fakta

Katja Hose har af Det Frie Forskningsråd modtaget ca. 6,5 mio. kr. til sit projekt: QWeb: Querying the Web of Data easily and efficiently.
Der er tale om en bevilling fra Det Frie Forskningsråds YDUN-program for forskertalenter, som har til formål at styrke talentudnyttelsen i dansk forskning ved at fremme en mere ligelig kønssammensætning af forskningsmiljøerne i Danmark.

Mens Tim Berners-Lees idé til internettet byggede på, at tekstdokumenter linkede til hinanden, så var hans idé til det semantiske web, at data linkede direkte til hinanden uden at have en masse tekst omkring sig. Mens det normale internet altså basalt set er et netværk af tekstdokumenter (der i den mere moderne version har fået tilføjet en del grafik og design), som linker til hinanden, eksisterer det semantiske web parallelt som en masse datasæt, der linker til hinanden.

Mens det første altså er nemt at læse for mennesker, der ikke ville få meget ud af at skimme lange lister med rådata, så er det andet nemt at læse for maskiner, der ikke får meget ud af at læse fine indledninger og pædagogiske forklaringer.

»Tim Berners-Lee havde en vision om det semantiske web som en kollektiv bevægelse af folk og af netstandarder, der skulle gøre data tilgængelige for alle,« siger Katja Hose.

Opskriften var enkel: Alle data skulle kategoriseres og beskrives.

'Semantik' er læren om mening, og på det semantiske web bliver meningen skabt af tre ting, som bliver kaldt 'triples' af datalogerne: Subjekt, verbum og objekt. Det kunne være 'Katja – er – en kvinde,' foreslår Katja Hose. Derefter er det nemt for en computer at koble Katja sammen med viden om kvinder fra andre datasæt og konkludere, at Katja er et menneske – noget der ville være nemt for de fleste af Videnskab.dk's læsere, men ikke for computere.

Maskiner skal gøre arbejdet

Når man søger på Google, ved computeren altså ikke, om 'en hund' er et dyr eller slang for hundrede kroner. Men det ved man med det semantiske webs veldefinerede data. Det er det, der gør søgninger på det semantiske web så meget mere præcise, og det er det, Katja Hose vil gøre tilgængeligt med sit QWeb-system.

»Programmer skal hjælpe mennesker med at finde svarene. Når man leder efter noget, bør man ikke skulle have besværet med at læse gennem en artikel, hvor man håber, det står. Man skal bare præsenteres for slutresultatet,« siger Katja Hose.

Tim Berners-Lee, der også fik idéen til internettet, skabte verdens første webserver, mens han arbejdede på forskningscentret CERN.

(Foto: Sir Tim Berners-Lee af Paul Clarke)

Katja Hose fortæller, at data fra Wikipedia for eksempel er blevet udtrukket og gemt i databasen DBpedia, der følger standarderne for det semantiske web. Det gør det muligt at søge semantisk i, hvad brugere rundt om i verden skriver i internetleksikonnet.

Hvis man er interesseret i at finde alle danske byer, behøver man altså ikke læse sig gennem leksikonnets mange artikler om byer – når Katja Hoses QWeb-system til det semantiske web er færdigt, vil det kunne finde navnene på samtlige byer ved automatisk at arbejde sig gennem datalisterne.

»QWeb-systemet skal være tilgængelig for alle, så andre kan få glæde af det og andre forskere kan bygge videre på det. Det er ånden på det semantiske web,« siger Katja Hose.

Sammenligner mange kilder

Men hvorfor ikke bare bruge det normale internet og Google, hvis man skal finde et svar? For det første fordi man kan finde sine svar langt hurtigere, hvis man ikke selv skal læse sig gennem artikler, lyder det fra Katja Hose. Og for det andet fordi QWeb-systemet automatisk vil kunne sammenligne oplysninger fra en lang række forskellige kilder, der linker til hinanden, og ikke stiller sig tilfreds, når svaret er fundet fra én kilde, sådan som et menneske, der læser på internettet, ofte ville gøre.

»Man bruger adskillige kilder for at få det mest komplette resultat. Det er særligt interessant, når de modsiger hinanden. Så skal man automatisk finde ud af, hvilken kilde der har det rigtige svar, og hvilket svar der er relevant for brugeren,« siger Katja Hose. Ofte vil der nemlig være modstridende oplysninger.

»Nogle gange skifter konteksten også. Hvis du søger på, hvem der er Prins Charles' kone, skifter det korrekte svar over tid (først prinsesse Diana og siden hertuginde Camilla, red.),« siger Katja Hose. Hun fortæller, at det bliver en afgørende komponent i QWeb-systemet, at det skal forklare brugeren, hvordan det fandt svaret, og hvordan det vejede de mange kilder op mod hinanden.

Mens det i dag mest er forskere med viden om programmering, der kan bruge det semantiske web, håber Katja Hose, at det kan blive meget bredere tilgængeligt. En stor del af dataen på det semantiske web kommer da også fra regeringer – blandt andet den danske – som gerne vil signalere åbenhed og samtidig håber, at nogen vil kunne udnytte data på et tidspunkt.

Fakta

Det semantiske web fungerer grundlæggende lige som det almindelige internet. Men hvor vi er vant til sider, der linker til hinanden (og dermed binder hinanden sammen i et net), består det semantiske web af datasæt, der linker til hinanden.

Alle data på det semantiske web følger en standard, der hedder RDF (Resource Description Framework). Data er gemt i såkaldte 'triples' og består af tre ting: et subjekt, et verbum og et objekt. Eksempel: 'Katja Hose - er - en kvinde'. Den oplysning kan et program arbejde videre med og ræsonnere logisk: en kvinde er et menneske, så 'Katja Hose - er – et menneske'.

Det semantiske web er opfundet af Tim Berners-Lee, der også opfandt det almindelige internet. Men det semantiske web er trods sit potentiale ikke slået rigtigt igennem. Katja Hose skal i et forskningsprojekt over de næste tre-fire år lave et system – kaldet QWeb – der skal gøre det semantiske web langt mere anvendeligt for alle.

»Håbet er, at der på et eller andet tidspunkt er nogen, der får en god idé til, hvordan man kan udnytte en del af data til at bygge en ny virksomhed,« siger Katja Hose.

Forsker: Et meget vigtigt emne

På Roskilde Universitet mener lektor i datalogi Troels Andreasen, at det semantiske web rummer stort potentiale. Han forsker selv i indholdsbaserede søgninger.

»Der er ingen tvivl om, at semantik vil komme til at spille en større rolle i vores brug af online medier og sociale medier. Det er et skridt videre end den konventionelle måde at bruge internettet på,« siger Troels Andreasen.

Lige som Katja Hose forklarer han, at man vil kunne finde mere præcise eller brugbare svar på sine spørgsmål, hvis man søger på det semantiske web i stedet for at benytte for eksempel Google, der – når man søger – kun kigger efter de specifikke søgeord, man har brugt.

»Der vil være noget, du ikke finder, som du kunne have brugt. Hvis der er en måde at beskrive det, du interesserer dig for, som du ikke er opmærksom på, vil du typisk overse det. Ved at søge på det semantiske niveau søger du i stedet på meningsindholdet, og det kommer først og fremmest til udtryk ved, at dine svar bliver bedre,« siger Troels Andreasen og tilføjer:

»Det er et meget vigtigt emne, og det er uden tvivl den retning, vi bevæger os i.«
 

... Eller følg os på Facebook, Twitter eller Instagram.

Se den nyeste video fra Tjek

Tjek er en YouTube-kanal om videnskab og sundhed henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's Center for Faglig Formidling med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.


Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.