Computer-algoritme afslører videnskabeligt plagiat
Gymnasier, universiteter og videnskabelige tidsskrifter opruster med algoritmer, der skal afsløre efterabere.

Mange falder for fristelsen til at taste copy-paste, når de sidder foran computeren. Videnskabens institutioner opruster nu for at sikre mod plagiering både på gymnasier, universiteter og videnskabelige tidsskrifter.(Foto:Colourbox)

Teknologi skal gøre det sværere at pynte sig med lånte fjer og fuske sig til flotte titler. Fra videnskabens bund til top bliver der oprustet med computer-algoritmer, der skal hjælpe videnskabsfolk og videnskabsfolk in spe af med trangen til at trykke copy-paste.

Flere gymnasier bruger tjenesten Urkund til at finde plagiater. DTU har været i front med indførslen af programmet og i øjeblikket testes det på Handelshøjskolen, Aarhus Universitet.

»Til sommer vil alle de studerendes eksamensopgaver blive tjekket med programmet. Vores foreløbige undersøgelser viser, at Urkund er meget effektivt til at opsnappe plagiater,« siger Torben Dahl, Chefkonsulent i Handelshøjskolens ledelsessekretariatet,  der dog endnu ikke kan løfte sløret for endelige resultater. Men i forvejen opsnapper Handelshøjskolen i Aarhus manuelt 10 til 15 studerende årligt, der har kopieret dele af opgaver med vilje eller simpelthen glemt at angive kilderne.

Også i videnskabens prestigiøse top, i de videnskabelige tidsskrifter hvor forskningen bliver publiceret, har man erkendt behovet for at undersøge for copy-paste tendensen.

Kopister færdes også på bonede gulve

Mange videnskabelige tidsskrifter bruger programmet Crosscheck, som har den store fordel, at programmet er tilknyttet en stor lukket database af videnskabelige artikler fra de udgivere, som har tilmeldt sig programmet.

I 2010 var 83 udgivere af tidsskrifter og videnskabslitteratur tilmeldt databasen, deriblandt Nature Publishing Group, som blandt andet udgiver Nature, samt store udgivere som Elsevier og Springer.

Ifølge en artikel i Nature har plagieringsteknologien vist sig at være tiltrængt. På flere videnskabelige tidsskrifter har redaktørerne efterfølgende afvist 6 til 10 procent artikler på grund af plagiering, som ellers var kommet igennem nåleøjet. Men det er nok værd at bide mærke i, at redaktørerne typisk har afprøvet programmerne, hvor de på forhånd frygtede, der ville være plagiater.

Jesper Wiborg Schneider, der er lektor ved Det Informationsvidenskabelige Akademi i Ålborg og ekspert i optagelses-procedurer på videnskabelige tidsskrifter, var umiddelbart overrasket over, at de videnskabelige tidsskrifter har brug for at undersøge for plagiering.   

»Men det er naturligvis helt afgørende for dem, at deres troværdighed ikke undergraves af pinlige sager om falske publikationer,« siger han.

Forfinet søgeteknik

Computer-algoritmerne, der trækker tæppet væk under fuskerne, kaldes for lighedsalgoritmer.

Lighedsalgoritmerne blev udviklet til søgemaskinen Alta Vista, da man gerne ville kunne identificere kopier for at sikre, at det samme website ikke dukker op gentagende gange i samme søgning. Siden da er systemerne forfinet yderligere.

»Det er nemt at finde ud af, om en tekst ligner en anden tekst fuldstændig. Men når man leder efter plagiater, vil man typisk lede efter noget, der ligner meget, men hvor nogle ord er omformuleret eller sætningerne er brudt op på en ny måde,« forklarer Rasmus Pagh, lektor ved IT-Universitetet, og en af verdens førende eksperter inden for forskning i lighedsalgoritmer.

Urkund og Crosscheck er netop udviklet, så de kan finde delvise omskrivninger.

Wikipedia sikrer sig mod plagiering ved en algoritme, der identificerer hvor på nettet en kopieret tekst kommer fra.(Screendump fra Wikipedia).

Idéen bag denne type af programmer er, at de foretager et udpluk af ord fra artiklen. Nogle ord er så almindelige, at maskinen ikke interesserer sig for dem, mens andre mere specifikke ord får høj prioritet.  

Udplukket vælges tilfældigt men samtidig ud fra et system, der sandsynliggør, at lignende sætninger resulterer i lignende udpluk. Programmet sammenligner udpluk fra en database eller på internettet med hinanden. På den måde kan det sandsynliggøres, om der står en kopist bag.  

Teknikken kaldes for minwise independence eller ’minvis uafhængighed’ (min fra minimal, vis fra parvis).

Crowd-sourcing virker

I sidste ende vil det også kræve en persons faglig vurdering, om der er tale om et plagiat, forklarer Rasmus Pagh.

Derfor inddrager nyeste skud på stammen indenfor plagieringsbekæmpelse netop grupper af mennesker (såkaldt crowd-sourcing), der kan være med til at vurdere, om et materiale faktisk er plagiat.

Da den tidligere forsvarsminister i Tyskland, Karl Theodor zu Guttenberg, for nylig blev afsløret for at have snydt med sin ph.d.- afhandling, blev det dokumenteret ved hjælp af en wiki (en side, der muliggør at brugerne i fællesskab opbygger indholdet).

Ved brug af lighedsalgoritmer fra søgemaskinerne og forskere og studerende, der kunne se materialet på wikien igennem, blev det anslået, at 70 procent af afhandlingen var plagiat.

»Det har altid været sådan, at det var i forskermiljøerne, der var mistanke om kollegaers plagiat. Open source-teknologi gør det nemmere at dokumentere,« siger Thore Husfeldt, der er lektor på IT-Universitetet og Wikipediaredaktør.

Wikipedia hurtig til plagiatsikring

Det åbne leksikon Wikipedia har længe gjort brug af algoritmer til at forhindre plagiering, fortæller Thore Husfeldt.

Han opdagede det selv, da han ville tilføje et CV på Wikipediasitet for Michael Mitzenmacher, en af opfinderne bag den mest kendte lighedsalgoritme. For at sikre, at det var helt korrekt kopierede han fra universitetet Harvards hjemmeside, men da han ville sætte tekstbidden ind på Wikipedia-siden, fik han straks en meddelelse om, at han var ved at ’låne materiale’, der allerede fandtes et andet sted på Internettet.

»Det var ret pudsigt, at Mitzenmachers egen algoritme stillede sig i vejen for, at jeg kunne opdatere hans CV korrekt,« tilføjer Thore Husfeldt.

Stadig muligt at plagiere

Der findes endnu ikke plagieringsteknologi, der kan afsløre tekst, som er oversat manuelt og ordentligt. Og rigtig snedige omskrivninger af tekst, hvor tilstrækkeligt mange ord er erstattet med andre, vil formentlig også stryge igennem programmerne.

»Men jeg tror kun, det er et spørgsmål om tid. Måske kan man også udvikle programmer, der kan forudse de mest brugte omskrivninger af sætninger, og endnu finere oversættelsesprogrammer, der også kan fange manuel oversættelse til andre sprog,« siger Thore Husfeldt.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.