Forestil dig en verden på størrelse med vores univers. Forestil dig nu, at der overalt i denne verden er døre til nye universer, hvor der er flere døre, som fører dig videre til andre universer.
Spørg nu dig selv: Hvordan pokker finder jeg rundt her?
Netop det spørgsmål spøger i biologien. Hvor søfolk har verdenskort, og astronomer har stjernekort, så mangler biologer nemlig ’protein-kort’.
Antallet af principielt mulige proteiner er astronomisk højt, og resultatet er, at vi mangler overblik over proteinernes verden, således at vi nemmere kan lave nye.
Men hvad er et protein?
De fleste af os kender proteiner som næringsstoffer fra kød, bønner og lignende, men de er så meget mere.
Proteiner er de basale grundsten i vores celler, de udgør de aktive dele af lægemidler, konserveringsmidler, enzymer i vaskepulver og så videre, og så videre.
De udgør et fundamentn af grundstenene for liv, og store dele af den danske biotekindustri fokuserer på at designe nye proteiner.

Antallet er uoverskueligt stort
Kemisk set er et protein en kæde af aminosyrer. I naturen findes 20 forskellige aminosyrer, og alle kombinationer af disse kan – i princippet – komme på tale langs proteinets kæde.
Hvis vi for eksempel begrænser os til at kigge på proteiner med en kædelængde på 100, så findes der 20^100 mulige proteinkæder. Det vil sige 20 opløftet i 100 og betyder, at man skal gange 20 med sig selv 100 gange.
Dette tal er uoverskueligt stort. Mange gange større end antallet af atomer i universet.
Det er derfor en urealistisk opgave at fremstille alle tænkelige proteiner for at afgøre, hvilke der giver den bedst holdbare yoghurt, det mest effektive vaskepulver, eller måske det mest målrettede lægemiddel.

Maskinlæring giver overblik
At designe et nyt protein kræver derfor en høj grad af ekspertise og mange års erfaring for at komme med kvalificerede bud på ændringer i et eksisterende protein, der kan tænkes at forbedre dets egenskaber.
I de seneste par år er kunstig intelligens, og især maskinlæring, begyndt at spille en større rolle i at foreslå relevante ændringer.
Flere forskergrupper er begyndt at danne ’kort’ over proteinernes enorme univers ved hjælp af maskinlæring.
\ Om Forskerzonen
Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.
Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet.
Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.
Kortets ukendte territorium afsøges
Figuren nedenfor viser et eksempel på et sådan kort. Her repræsenterer hver prik forskellige proteiner, og farvekoderne er kendte delgrupper af den studerede protein-familie.
Et sådan kort kan så bruges til at danne et overblik over, hvordan forskellige proteiner er relateret, og håbet er, at vi, ved hjælp af kortet, kan foreslå nye nyttige proteiner ved at placere prikker i ikke-afsøgt territorium.

I praksis er denne tilgang dog problematisk, da den bagvedliggende maskinlæring ikke er robust nok.
Kortet ændrer sig – desværre
Hvis vi forsøger at genskabe et givent kort ved at træne maskinlæring-modellen på ny, vil dette oftest resultere i et nyt kort, hvis struktur ikke matcher tidligere skabte kort.
Figuren nedenfor giver et eksempel på dette. Den samme algoritme anvendes tre gange på den samme data, hvorved tre forskellige kort opbygges.
Derved taber kortet sin nytteværdi. Det vil nemlig svare til, hvis man overfører det til et analogt kort, at kortet ændrer sig, hver gang en sømand sætter sejl.
Denne mangel på robusthed kaldes et ‘identifikationsproblem’ og skyldes i praksis tilfældigheder, der indgår i vores træningsalgoritmer.
Den bagvedliggende statistiske problemstilling har været kendt i mange år. Desværre uden en løsning.

Et godt landkort skal kunne navigeres
For at udvikle en løsning er vi startet med spørgsmålet: Hvad skal vi bruge et kort til?
Det banale svar er naturligvis, at kort bruges til at finde vej.
Hvis vi efterspørger den enkleste vej fra ét protein til et andet, vil denne kunne tegnes ind som en rute på kortet.
Når vi navigerer efter vejkort, vil den enkleste rute som oftest følge vejnettet frem for fugleflugtslinjen.
Tilsvarende tendens ses også i protein-kort, hvor den enkleste vej viser sig at følge den struktur, der skabes af data (se figuren nedenfor).
Skævvridninger i navigationen
Ved at benytte den selv samme matematik, som benyttes til at tegne og navigere verdenskort, har vi udviklet en maskinlæring-metode til at navigere protein-kortet.
Når man tegner kort over Danmark, kan man godt finde ud af at tegne det på et stykke papir, hvor geografien er godt bevaret.
Men hvis man skal tegne hele Jorden, laver man fejl, fordi man strækker jordkloden ud, så Arktis bliver et langt land i stedet for en pol på en kugle. På kortet bliver jordkloden skævvredet.
Samme problemstilling opstår i tegningen af protein-kort, men ved at holde styr på matematikken kan vi tage disse skævvridninger med i betragtning, når vi navigerer.
Dermed kan den enkleste vej findes.
Vi kan genskabe evolutionen
Vi finder ofte proteiner, enten i laboratoriet eller i naturen, som besidder gode egenskaber.
Et sådan protein er et resultat af en lang, evolutionær udvikling, hvor vi kun observerer det nulevende protein, men ikke dets ‘forfædre’.
\ Om projektet
Projektet er en del af et samarbejde mellem DTU Compute og Datalogisk Institut på Københavns Universitet, som blev etableret gennem et nyt center for Machine Learning in Life Science (MLLS), der startede sidste år med støtte fra Novo Nordisk Fonden.
I centret samarbejder forskere i kunstig intelligens fra begge universiteter om at løse fundamentale problemer i maskinlæring, drevet af vigtige problemstillinger inden for biologien.
De udviklede protein-landkort indgår i et større projekt, der spænder fra grundforskning til industriel anvendelse, blandt andet i samarbejde med Novozymes og Novo Nordisk.
Kortet og matematikken bag er for nylig beskrevet i en artikel i Nature Communications.
Sådanne forfædre er relevante at kunne genskabe, da de med stor sandsynlighed har samme gode egenskaber som det nulevende protein, men måske er bedre egnet til industriel produktion.
Et overraskende resultat vi fandt, da vi begyndte at navigere de udviklede protein-kort, er, at enkleste veje i dette kort i høj grad svarer til evolutionens veje.
Det betyder, at når vi navigerer kortet, kan vi ofte genskabe evolutionen.
Et godt kort viser nye veje
Med udgangspunkt i et eksisterende protein, giver protein-kortet os derved mulighed for at afsøge nært beslægtede proteiner for at afgøre, om disse har bedre egenskaber end det eksisterende.
For eksempel, hvis vi allerede har adgang til et protein, som danner grundlag for effektivt vaskepulver, kan kortet hjælpe os til at finde kandidat-proteiner, som muligvis har endnu bedre vaskeegenskaber.
Ligesom landkort har forkortet rejsetiden mellem destinationer, er håbet, at protein-kort kan forkorte udviklingstiden af nye proteiner.
Ved at give virksomheder adgang til mere effektiv navigation i proteinernes verden kan vi forvente, at udviklingstiden, og dermed omkostningerne, falder, hvilket også gør det mere rentabelt at fortsætte udviklingen.
\ Repræsentation af protein
De fleste proteiner folder sig sammen til en kompakt 3-dimensionel struktur.
Denne foldede tilstand giver anledning til de velkendte protein-billeder, hvor man fremhæver de karakteristiske helix-strukturelementer (rød) og de flade beta-sheets (gult).
Man skal dog huske, at man med en sådan repræsentation gemmer mange af detaljerne i proteinet. Dette er illustreret i figuren nedenfor, der viser samme protein med den simplificerede ’tegneserie’-repræsentation (øverst) og en repræsentation, hvor alle atomer er inkluderet (nederst).
En mutation betyder, at en aminosyre i kæden erstattes af en anden. I nogle tilfælde medfører det, at proteiner slet ikke kan folde mere, men oftere har det en mere subtil effekt, såsom at proteinet bliver mere eller mindre stabilt. Mutationer kan også direkte påvirke proteinets funktion, for eksempel hvis det optræder, der hvor proteinet binder til et andet protein.

(Illustration: Pymol (version 2.6.0a0))

(Illustration: Pymol (version 2.6.0a0))