Annonceinfo

Computer genkender dine håndtegninger

Du tegner i hånden og computeren gætter løbende på hvad din tegning forestiller. Lyder der som science fiction? Forskere har netop lykkedes med netop dette.

I mit forrige blog-indlæg sluttede jeg af med at sige lidt om hvorledes det som vi mennesker har til fælles i form af vores krop, sanser, kultur, historie, mm. udgør en fælles referenceramme for vores naturlige, sproglige kommunikation, som er langt mere essentiel end bogstaver og ord. I dette blog-indlæg skal vi se et godt eksempel på at computersimulering af denne mere grundlæggende referenceramme ikke engang behøver at komme til udtryk ved bogstaver og ord, men også kan ses ved andre former for kommunikative udtryksmåder – i dette tilfælde små håndtegnede skitser.

Forskere fra Brown Universitet og Berlins Tekniske Universitet har sammen udviklet et computerprogram som er i stand til at genkende håndtegnede skitser løbende mens de bliver tegnet. Der er vel at mærke ikke tale om skitser af ting som er vellignende i den fotografiske sans, men i stedet tegneserieagtige, karikaturlignende forsøg af utrænede tegnere på at tegne forskellige objekter.

Et simpelt eksempel: Hvis du eller jeg skulle tegne en kanin, så ville vi overdrive visse definerende træk såsom de to midterste fortænder, den pjuskede hale og de store lange ører. Det er træk som vi har tillært os gennem vores opvækst og som vi næsten alle deler, men det interessante er at det er lykkedes at få en computer til at lege med når det kommer til denne meget menneskelige måde at se verden på.

Forskningen er nu offentliggjort på denne adresse, og man kan både se video af hvorledes det fungerer og downloade en App (Kun til iPhone – desværre android-brugere) og prøve selv. Kort sagt benyttes forskellige genkendelses- og maskinlæringsteknikker på en stor database af 20.000 håndtegnede figurer fordelt på 250 kategorier til løbende at lave kvalificerede gæt på hvad det er der bliver tegnet. Med sin 56 procents træfsikkerhed er den ikke helt lige så præcis i sine gæt som sine menneskelige modstykker, som ligger på 73% men det er alligevel en anseelig bedrift, og ifølge forskerne selv er det det første kendte forsøg på denne form for ”semantisk forståelse” af sådanne meget menneskelige og abstrakte skitser.

Teknisk set benytter de sig af såkaldte binære SVMs (Support Vector Machines), som trænes til at besvare spørgsmålet: ”Hører denne tegning til min kategori – eller hører den til en af de 249 andre?” Hver kategori har sin egen SVM som tager stilling hertil. SVMs lader altså til at kunne lidt det samme som de neurale netværk jeg tidligere i min blog har beskæftiget mig en del med, men jeg vil undlade at gå ind i de tekniske detaljer omkring forskellene på de to for nu, og i stedet blot kommentere at brugen af SVMs ser meget lovende ud fra et sprogteknologisk synspunkt, og det er meget muligt at ny forskning fra min hånd vil involvere deres konkrete anvendelse.

Men for at slutte dette indlæg af, så vil jeg gerne fremhæve hvorledes det interessante ved denne forskning især også er at vi kan se hvordan vores kommunikative, fælles referenceramme, som jeg tidligere har vist er afgørende for fremtidens forskning i sprogteknologi, ikke nødvendigvis behøver at udmønte sig ved bogstaver og ord. Det er den samme ontologi der lægger til grund for vores fælles måde at tegne en kanin på, som for vores fælles måde at beskrive en kanin med bogstaver og ord – udtryksformen er bare forskellig.

Kommenter: Hvad kan du forestille dig at denne teknologi kan bruges til? Giv dit bud blandt kommentarerne forneden..
 

Ny supercomputer.
Jeg har svært ved at forestille mig noget det kan bruges til

Jeg har svært ved at forestille mig noget det kan bruges til ud over underholdning og spil...

Men nu jeg tænker mig om, kan man vel forestille sig, at det kan bruges til mønstergenkendelse i data, ruter etc.

Log ind eller opret konto for at skrive kommentarer

Seneste blogindlæg

Udgiv indhold

Erik David Johnson

Blogger om:

Mine indlæg er koncentrerede omkring min egen forskning og aktuelle udviklinger indenfor emneområder som kan relateres hertil. Mit fokus er således den sprogteknologiske side af kunstig intelligens, baseret på en sammenføring af tre forskellige felter: analytisk sprogfilosofi, kognitiv semantik og kunstig intelligens.
Annonceinfo