Kunstig intelligens tegner verdenskort for proteiner
Antallet af mulige proteiner er astronomisk højt, og vi mangler et overblik over dem. Med et proteinkort kan vi bedre navigere i og udvikle nye proteiner.
Protein_verdenskort_kortlægning_kort_verden_biologi_enzymer_kød_bønner_vaskemiddel

Proteiner findes praktisk talt over alt - og i et uoverskueligt antal. Forskere bruger nu 'machine learning' til at skabe et protein-verdenskort. (Foto: Shutterstock)

Proteiner findes praktisk talt over alt - og i et uoverskueligt antal. Forskere bruger nu 'machine learning' til at skabe et protein-verdenskort. (Foto: Shutterstock)

Forestil dig en verden på størrelse med vores univers. Forestil dig nu, at der overalt i denne verden er døre til nye universer, hvor der er flere døre, som fører dig videre til andre universer.

Spørg nu dig selv: Hvordan pokker finder jeg rundt her?

Netop det spørgsmål spøger i biologien. Hvor søfolk har verdenskort, og astronomer har stjernekort, så mangler biologer nemlig ’protein-kort’.

Antallet af principielt mulige proteiner er astronomisk højt, og resultatet er, at vi mangler overblik over proteinernes verden, således at vi nemmere kan lave nye.

Men hvad er et protein?

De fleste af os kender proteiner som næringsstoffer fra kød, bønner og lignende, men de er så meget mere.

Proteiner er de basale grundsten i vores celler, de udgør de aktive dele af lægemidler, konserveringsmidler, enzymer i vaskepulver og så videre, og så videre.

De udgør et fundamentn af grundstenene for liv, og store dele af den danske biotekindustri fokuserer på at designe nye proteiner.

machine_learning_genom_struktur_dna_data_protein_data_kortlægning_verden

Et protein består af en kæde (eller flere kæder) af aminosyrer, typisk nogle hundrede aminosyrer langt. (Figur: National Human Genome Research Institute)

Antallet er uoverskueligt stort

Kemisk set er et protein en kæde af aminosyrer. I naturen findes 20 forskellige aminosyrer, og alle kombinationer af disse kan - i princippet - komme på tale langs proteinets kæde.

Hvis vi for eksempel begrænser os til at kigge på proteiner med en kædelængde på 100, så findes der 20^100 mulige proteinkæder. Det vil sige 20 opløftet i 100 og betyder, at man skal gange 20 med sig selv 100 gange.

Dette tal er uoverskueligt stort. Mange gange større end antallet af atomer i universet.

Det er derfor en urealistisk opgave at fremstille alle tænkelige proteiner for at afgøre, hvilke der giver den bedst holdbare yoghurt, det mest effektive vaskepulver, eller måske det mest målrettede lægemiddel.

machine_learning_genom_struktur_dna_data_protein_data_kortlægning_verden

Der er 20 naturligt forekommende aminosyrer. Disse adskiller sig ved at have forskellig størrelse og ladning og ved at være mere eller mindre glade for at være i kontakt med vand. I en vandig opløsning (som i en celle) vil et protein typisk folde sig sammen på en måde, så det begraver de aminosyrer, der er mindst glade for vand. (Figur: Tomixdf / CC0 1.0)

Maskinlæring giver overblik

At designe et nyt protein kræver derfor en høj grad af ekspertise og mange års erfaring for at komme med kvalificerede bud på ændringer i et eksisterende protein, der kan tænkes at forbedre dets egenskaber.

I de seneste par år er kunstig intelligens, og især maskinlæring, begyndt at spille en større rolle i at foreslå relevante ændringer.

Flere forskergrupper er begyndt at danne ’kort’ over proteinernes enorme univers ved hjælp af maskinlæring.

Fakta
Om Forskerzonen

Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.

Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet.

Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.

Kortets ukendte territorium afsøges

Figuren nedenfor viser et eksempel på et sådan kort. Her repræsenterer hver prik forskellige proteiner, og farvekoderne er kendte delgrupper af den studerede protein-familie.

Et sådan kort kan så bruges til at danne et overblik over, hvordan forskellige proteiner er relateret, og håbet er, at vi, ved hjælp af kortet, kan foreslå nye nyttige proteiner ved at placere prikker i ikke-afsøgt territorium.

machine_learning_genom_struktur_dna_data_protein_data_kortlægning_verden

Et protein-kort over protein-familien beta-laktamase. Hver prik svarer til et specifikt protein, mens farvekoderne indikerer medlemskab af delfamilier, der er kendt fra biologien. Kortet giver indsigt i, hvilke proteiner, der er tætbeslægtede (de ligger tæt på hinanden). (Illustration: Wouter Boomsma)

I praksis er denne tilgang dog problematisk, da den bagvedliggende maskinlæring ikke er robust nok.

Kortet ændrer sig - desværre

Hvis vi forsøger at genskabe et givent kort ved at træne maskinlæring-modellen på ny, vil dette oftest resultere i et nyt kort, hvis struktur ikke matcher tidligere skabte kort.

Figuren nedenfor giver et eksempel på dette. Den samme algoritme anvendes tre gange på den samme data, hvorved tre forskellige kort opbygges.

Derved taber kortet sin nytteværdi. Det vil nemlig svare til, hvis man overfører det til et analogt kort, at kortet ændrer sig, hver gang en sømand sætter sejl.

Denne mangel på robusthed kaldes et ‘identifikationsproblem’ og skyldes i praksis tilfældigheder, der indgår i vores træningsalgoritmer.

Den bagvedliggende statistiske problemstilling har været kendt i mange år. Desværre uden en løsning.

machine_learning_genom_struktur_dna_data_protein_data_kortlægning_verden

Hvis vi anvender machine learning-modellen til at lave kort tre gange på samme data, opnås tre forskellige kort. Dette er problematisk for vores forståelse, da det ikke er oplagt, hvilket kort vi skal vælge. Det viser sig, at den matematik, som bruges i forståelsen af traditionelle landkort, løser dette statistiske problem. Det er det, vores metode går ud på. (Illustration: Wouter Boomsma)

Et godt landkort skal kunne navigeres

For at udvikle en løsning er vi startet med spørgsmålet: Hvad skal vi bruge et kort til?

Det banale svar er naturligvis, at kort bruges til at finde vej.

Hvis vi efterspørger den enkleste vej fra ét protein til et andet, vil denne kunne tegnes ind som en rute på kortet.

Når vi navigerer efter vejkort, vil den enkleste rute som oftest følge vejnettet frem for fugleflugtslinjen.

Tilsvarende tendens ses også i protein-kort, hvor den enkleste vej viser sig at følge den struktur, der skabes af data (se figuren nedenfor).

ezgif-com-gif-maker

Skævvridninger i navigationen

Ved at benytte den selv samme matematik, som benyttes til at tegne og navigere verdenskort, har vi udviklet en maskinlæring-metode til at navigere protein-kortet.

Når man tegner kort over Danmark, kan man godt finde ud af at tegne det på et stykke papir, hvor geografien er godt bevaret.

Men hvis man skal tegne hele Jorden, laver man fejl, fordi man strækker jordkloden ud, så Arktis bliver et langt land i stedet for en pol på en kugle. På kortet bliver jordkloden skævvredet.

Samme problemstilling opstår i tegningen af protein-kort, men ved at holde styr på matematikken kan vi tage disse skævvridninger med i betragtning, når vi navigerer.

Dermed kan den enkleste vej findes.

Vi kan genskabe evolutionen

Vi finder ofte proteiner, enten i laboratoriet eller i naturen, som besidder gode egenskaber.

Et sådan protein er et resultat af en lang, evolutionær udvikling, hvor vi kun observerer det nulevende protein, men ikke dets ‘forfædre’.

Om projektet


Projektet er en del af et samarbejde mellem DTU Compute og Datalogisk Institut på Københavns Universitet, som blev etableret gennem et nyt center for Machine Learning in Life Science (MLLS), der startede sidste år med støtte fra Novo Nordisk Fonden.

I centret samarbejder forskere i kunstig intelligens fra begge universiteter om at løse fundamentale problemer i maskinlæring, drevet af vigtige problemstillinger inden for biologien.

De udviklede protein-landkort indgår i et større projekt, der spænder fra grundforskning til industriel anvendelse, blandt andet i samarbejde med Novozymes og Novo Nordisk.

Kortet og matematikken bag er for nylig beskrevet i en artikel i Nature Communications.

Sådanne forfædre er relevante at kunne genskabe, da de med stor sandsynlighed har samme gode egenskaber som det nulevende protein, men måske er bedre egnet til industriel produktion.

Et overraskende resultat vi fandt, da vi begyndte at navigere de udviklede protein-kort, er, at enkleste veje i dette kort i høj grad svarer til evolutionens veje.

Det betyder, at når vi navigerer kortet, kan vi ofte genskabe evolutionen.

Et godt kort viser nye veje

Med udgangspunkt i et eksisterende protein, giver protein-kortet os derved mulighed for at afsøge nært beslægtede proteiner for at afgøre, om disse har bedre egenskaber end det eksisterende.

For eksempel, hvis vi allerede har adgang til et protein, som danner grundlag for effektivt vaskepulver, kan kortet hjælpe os til at finde kandidat-proteiner, som muligvis har endnu bedre vaskeegenskaber.

Ligesom landkort har forkortet rejsetiden mellem destinationer, er håbet, at protein-kort kan forkorte udviklingstiden af nye proteiner.

Ved at give virksomheder adgang til mere effektiv navigation i proteinernes verden kan vi forvente, at udviklingstiden, og dermed omkostningerne, falder, hvilket også gør det mere rentabelt at fortsætte udviklingen.

Repræsentation af protein

De fleste proteiner folder sig sammen til en kompakt 3-dimensionel struktur.

Denne foldede tilstand giver anledning til de velkendte protein-billeder, hvor man fremhæver de karakteristiske helix-strukturelementer (rød) og de flade beta-sheets (gult).

Man skal dog huske, at man med en sådan repræsentation gemmer mange af detaljerne i proteinet. Dette er illustreret i figuren nedenfor, der viser samme protein med den simplificerede ’tegneserie’-repræsentation (øverst) og en repræsentation, hvor alle atomer er inkluderet (nederst).

En mutation betyder, at en aminosyre i kæden erstattes af en anden. I nogle tilfælde medfører det, at proteiner slet ikke kan folde mere, men oftere har det en mere subtil effekt, såsom at proteinet bliver mere eller mindre stabilt. Mutationer kan også direkte påvirke proteinets funktion, for eksempel hvis det optræder, der hvor proteinet binder til et andet protein.

(Illustration: Pymol (version 2.6.0a0))

(Illustration: Pymol (version 2.6.0a0))

Alle må bruge og viderebringe Forskerzonens artikler

På Forskerzonen skriver forskere selv om deres forskning. Vi mener, det er vigtigt, at alle får mulighed for at læse om forskning fra forskerens egen hånd.

Alle må derfor bruge, kopiere og viderebringe Forskerzonens artikler udfra følgende enkle krav:

  • Det skal krediteres: 'Artiklen er oprindelig bragt på Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler'. Hvis artiklen bringes på web, skal der linkes til artiklen på Forskerzonen.
  • Artiklen må ikke redigeres og skal bringes i fuld længde (medmindre andet aftales med forskeren).
  • Du skal give forskeren besked om, at du genpublicerer.
  • Artikler, som er oversat fra The Conversation, skal have indsat en HTML-kode til indsamling af statistik i bunden. HTML-koden finder du i den originale artikel på The Conversations hjemmeside ved at klikke på knappen "Republish this article" ude til højre, derefter klikke på 'Advanced' og kopiere koden. Du finder linket til artiklen på The Conversation i bunden af Forskerzonens oversatte artikel. 

Det er ikke et krav, men vi sætter pris på, at du giver os besked, hvis du publicerer vores indhold (undtaget indhold fra The Conversation). Skriv til redaktør Anders Høeg Lammers på ahl@videnskab.dk.

Læs mere om Forskerzonen i Forskerzonens redaktionelle retningslinjer.

Videnskab.dk Podcast

Lyt til vores seneste podcast herunder eller via en podcast-app på din smartphone.

Ny video fra Tjek

Tjek er en YouTube-kanal om videnskab henvendt til unge.

Indholdet på kanalen bliver produceret af Videnskab.dk's videojournalister med samme journalistiske arbejdsgange, som bliver anvendt på Videnskab.dk.

Ugens videnskabsbillede

Se flere forskningsfotos på Instagram, og læs om, hvorfor denne 'sort hul'-illusion narrer din hjerne.

Hej! Vi vil gerne fortælle dig lidt om os selv

Nu hvor du er nået helt herned på vores hjemmeside, er det vist på tide, at vi introducerer os.

Vi hedder Videnskab.dk, kom til verden i 2008 og er siden vokset til at blive Danmarks største videnskabsmedie med over en halv million brugere om måneden.

Vores uafhængige redaktion leverer dagligt gratis forskningsnyheder og andet prisvindende indhold, der med solidt afsæt i videnskabens verden forsøger at give dig aha-oplevelser og væbne dig mod misinformation.

Vores journalister fortæller historier om både kultur, astronomi, sundhed, klima, filosofi og al anden god videnskab indimellem - i form af artikler, podcasts, YouTube-videoer og indhold på sociale medier.

Vi stiller meget høje krav til, hvordan vi finder og laver vores historier. Vi har lavet et manifest med gode råd til at finde troværdig information, og vi modtog i 2021 en fornem pris for vores guide til god, kritisk videnskabsjournalistik.

Vores redaktion gør en dyd ud af at få uafhængige forskere til at bedømme betydningen af nye studier, og alle interviewede forskere citat- og faktatjekker vores artikler før publicering.

Hvis du går rundt og undrer dig over stort eller småt, vil vi elske at høre fra dig og forsøge at give dig svar med forskernes hjælp. Send bare dit spørgsmål til vores brevkasse Spørg Videnskaben.

Vi håber, at du vil følge med i forskningens forunderlige opdagelser her på Videnskab.dk.

Få et af vores gratis nyhedsbreve sendt til din indbakke. Du kan også følge os på sociale medier: Facebook, Twitter, Instagram, YouTube eller LinkedIn.

Med venlig hilsen

Videnskab.dk