Annonceinfo

Et genom har mange historier

Genomsekvenser er guldminer af information om artsdannelse og naturlig selektion. Men man skal stille de rigtige spørgsmål for at få de interessante svar.

På menneskeabernes artstræ kan man se, at selv om for eksmpel mennesket og chimpansen gik fra hinanden for cirka 4,3 millioner år siden, skal man i gennemsnit 7,1 millioner år tilbage for at finde vore genomers stamfædre - og at vi skal hele 19,2 millioner år tilbage for at finde stamfædrene til alle menneskeabernes genomer.

I Douglas Adams’ romanserie 'The Hitchhiker’s Guide to the Galaxy' blev en gigantisk supercomputer sat til at finde svaret på det ultimative spørgsmål om Livet, Universet og Alting.

Efter 7,5 mio. års arbejde kom computerens svar:

»42«

Når man ikke stiller spørgsmålene præcist nok, risikerer man at få svar, som man ikke bliver klogere af.

Nyt projekt skal forstå vores udvikling

På Aarhus Universitet har vi også en supercomputer. I de kommende år skal den blandt meget andet bearbejde store mængder data, som vi på Bioinformatics Research Centre (BiRC) for nylig fik tilsendt på en harddisk fra universitetet i Barcelona.

Harddisken indeholder data fra i alt 106 genomer (fra 96 individer af fem forskellige arter af menneskeaber og 10 mennesker), som et internationalt hold af forskere i Great Ape Genome Diversity Project har sekventeret.

Projektet har som mål at forstå til fulde, hvordan menneskeaberne og mennesket selv har udviklet sig over de sidste 20 millioner år. Og specielt hvordan de forskellige arter er opstået.

Har adgang til supercomputer

Disken blev ikke sendt til BiRC fordi vi har adgang til en supercomputer. Vi er med, fordi vi ved at kombinere statistiske, matematiske og datalogiske redskaber har udviklet nogle unikke og effektive metoder til både at stille de rigtige spørgsmål, programmere computeren til at lede de rette steder efter svarene og fortolke svarene.

Rygraden i vores metode er 'Coalescent Hidden Markov Models' (CoalHMM), som  kan trække information ud af genom-dataene om artsdannelsestidspunkter for millioner af år siden, artsdannelsesprocesser og betydningen af naturlig selektion – endda fra DNA fra ét enkelt individ.

Med modellen har vi siden 2005 været med til at vise, at mennesket og chimpansen splittede op for 4,5 mio. år siden, at mennesket kun er ca. 1,2 pct. forskellig fra chimpansen og bonoboen, 1,7 pct. forskellig fra gorillaen og 2,5 pct. forskellig fra orangutangen.

Kamilah, en vestlig lavlandsgorilla fra San Diego Zoo, lagde celler til den første sekventering af artens genom. Efter en tur i BiRC's CoalHMM-model afslørede dataene, at vores fælles herkomst er et genetisk kludetæppe. 15 procent af menneskets genom er mere beslægtet med gorillaen end med vores nærmeste slægtning, chimpansen. (Foto: San Diego Zoo)

Vi har vist, at der er dele af vores genom, hvor vi ligner gorillaen mere end chimpansen, og at vores gener i disse områder også mest udtrykkes som gorillaens.

Vi kan se, at naturlig selektion har spillet en overraskende stor rolle i udviklingen af vores genom. Ikke mindst på vores X-kromosom og omkring vores gener - og måske især de gener, der har med immunsystemet at gøre.

Vi kan se, at bonoboen og chimpansen først gik fra hinanden for ca. 1 million år siden, men at der alligevel er områder, hvor chimpansen ligner mennesket mere, end chimpansen ligner bonoboen (ca. 2 pct. af arvemassen).

Desuden kan vi se, at der i menneskets linje helt op til artsdannelsen med orangutang ikke har været perioder med meget få individer. Tværtimod var stamfaderen til mennesket og chimpansen talrig.

En arts oprindelse

Når en art udvikler sig, er der i virkeligheden tale om, at sammensætningen af individer i arten - eller populationen - udvikler sig.

Individer fødes, får unger og dør. Ikke alle individer får lige mange unger, og over tid vil få individer være blevet forfædre til alle levende individer i populationen.

Der er således kun enkelte individer, hvis arvelige træk breder sig til hele arten på bekostning af andre.

Det er denne proces, der giver anledning til, at alle individer i en art er beslægtet gennem et stamtræ.

Sådan foregår det, når en art deler sig i to

Når en art deler sig i to, vil det i det simpleste tilfælde ske ved, at denne population deles op i to nye populationer, som derefter udvikler sig uafhængigt af hinanden.

Når en population deles i to, vil individer i den nye population A være lige så tæt beslægtet med individer i population B, som de er med de andre i population A.

Topologien for slægtskabet mellem individer vil ikke altid passe med deres befolkninger. Hvis befolkningerne er tæt nok beslægtede, vil den største variation i graden af slægtskab ikke findes imellem befolkninger – det vil i stedet være den variation, der var i stambefolkningen. Havde vi f.eks. valgt den røde linje i den midterste befolkning ville vi se at individ 2 er tættere beslægtet med individ 3, selv om befolkning 1 og 2 er tættest beslægtet. Hvis alle individer inden for den samme art har en fælles forfader tættere på i dag end opdelingen af stamarterne, så vil vi ikke kunne se variationen i tiden i stamarten, for lige meget hvilke individer vi kigger på, vil vi se den samme forfader i stamarten.

Man kan sige, at halvdelen af stamtræets grene fortsætter i hver population.

Som tiden går efter opsplitningen, vil individer i de to nye populationer blive mere og mere beslægtede indbyrdes, ind til alle individer i hver population er efterkommere af samme individ.

Kort efter opdelingen vil man ud fra variationen kunne se, hvor langt tilbage i tiden man skal gå for at finde den sidste fælles forfader mellem to individer afhængigt af, hvilke to individer man vælger. (se billede 1).

Ud fra denne variation kan man lære meget om stambefolkningen. For eksempel kan vi se, om stambefolkningen var stor eller lille.

Stor variation i tiden tilbage til den fælles forfader betyder alt andet lige en stor befolkning frem for en lille.

Vi kan også se, om stambefolkningen er gået igennem en flaskehals på noget tidspunkt.

I så fald vil der være usædvanlig mange, der finder deres fælles forfader inde i flaskehalsen.

Statistik fra en enkelt observation

Hvis man statistisk skal afgøre, om én model passer bedre til data end en anden eller bestemme værdien af parametrene i en model, kræver det normalt, at man har flere observationer. Jo flere jo bedre.

Når vi skal lære noget om, hvornår en stambefolkning delte sig i to, vil de relevante observationer f.eks. være dem, der viser variationen i tiden tilbage til den sidste fælles forfader.

Når man ser på tæt beslægtede befolkninger, kan denne variation findes ved at vælge mange forskellige individer, men for meget fjernt beslægtede befolkninger – ultimativt forskellige arter – virker denne tilgang ikke.

Et eksempel på tre befolkninger, hvor to er tættere beslægtet med hinanden end med den tredje. Det brune træ illustrerer befolkningernes forhold og viser hvilke to befolkninger, der er tættest beslægtet (topologien i træet) samt hvor længe befolkningerne har været adskilt (grenlængder i træet). Det blå træ indeni er et eksempel på hvor beslægtede tre individer er. Topologien er den samme som for befolkningstræet: de to individer fra de tættest beslægtede befolkninger er også tættest beslægtede. Grenlængderne er derimod længere, specielt er der langt fra det tredje individ til de to andre i forhold til afstanden mellem befolkningerne. Forskellen skyldes, at ikke alle individer inden for en befolkning er lige tæt beslægtede. Søskende er tættere beslægtede end grandfætre og så videre. Dette gør sig også gældende i forfædrenes befolkninger, så hvis vi kikker på, hvor langt tilbage i tiden vi skal gå for at finde den nærmeste forfader til to individer, skal vi først gå tilbage til det tidspunkt, da de to befolkninger delte sig fra en stambefolkning, og derefter yderligere et stykke tid tilbage, bestemt af, hvor tæt beslægtede de to individers forfædre var på det tidspunkt. Dette er illustreret i figuren øverst til højre, hvor hver prik repræsenterer et individ – levende eller død – og hvor slægtskab er illustreret med kanter. De blå individer svarer til det blå træ til venstre.

Hvis alle individer inden for den første art har en sidste fælles forfader inden for deres egen art, og det samme gør sig gældende i den anden art, vil vi nemlig se præcis den sammen afstand mellem et par af individerne, lige meget hvilket par vi vælger.

Dermed har vi reelt kun én enkel observation fra slægtskabet i stamarten, og ud fra den kan vi intet sige om variationen i stamarten (se billede 3).

Laver statistik på flere forskellige stykker af vores genom.

Her kommer 'rekombination' til hjælp. Rekombination sker, når vores DNA-strenge gennem generationerne bliver ”klippet” i stykker og sat sammen på nye måder.

Det medfører, at forskellige stykker af arvemassen kan betragtes som uafhængige observationer af processen.

I stedet for at lave statistik på flere individer, hvilket ikke fører til flere observationer, kan vi lave statistik på flere forskellige stykker af vores genom.

DNA-stykker er dog kun uafhængige i den tid, hvor en rekombination har afkoblet dem.

Mens de er koblet sammen har de samme forhistorie og er altså ikke uafhængige, og hvis man inddrager dem i analysen, kan man komme til at undervurdere variationens størrelse i tiden tilbage til forfædrene.

Det problem kan løses på to måder:

  1. Man kan kigge på DNA-stykker, der ligger langt fra hinanden i arvemassen.  Sådanne stykker er adskilt af mange rekombinationer og er derfor uafhængige i langt den største del af deres historie, og kan derfor betragtes som stort set uafhængige observationer. Mange statistiske metoder til at undersøge stamarter er baseret på denne idé. Fælles for dem er, at man så kun kan kigge på en lille del af genomet; man skal vælge stykker langt fra hinanden og kan ikke samtidig analysere den DNA, der ligger imellem dem.
  2. Alternativt kan man eksplicit modellere rekombinationsprocessen og hvordan forhistorien for ét DNA stykke afhænger af nabo-DNA. På denne måde kan man teoretisk udnytte den fulde arvemasse. Rekombinationsprocessen er i midlertid meget kompleks, og selv med supercomputere er det ikke muligt at modellere den fulde proces for et helt genom uden at ty til forsimplende antagelser.
'Coalescent skjult Markov model'

Vore analyser af stam-arter bygger på, at vi kan finde segmenter af genomet med den samme historie ved at 'glide' henover genomet og vurdere, om det næste basepar har den samme historie som det foregående.

Her benytter vi os af antagelsen om 'Markov-egenskaben', hvilket her betyder, at sandsynligheden for, at det næste basepar har samme historie som det foregående, kun afhænger af det foregående basepar og ikke af resten af sekvensen. (Se boks under artiklen)

Rekombination er imidlertid udtryk for, at forskellige dele af vores DNA har oplevet forskellige forfædre. Gener langt fra hinanden kan stort set betragtes som uafhængige, så i stedet for at vælge forskellige par af individer for at se variationen i tiden til den fælles forfader, kan man vælge forskellige gener.

Dette er kun en approksimation - tilnærmelse - til den mere komplicerede rekombinationsproces, men det har vist sig at være en meget god approksimation, der betyder, at vi kan nøjes med at modellere afhængigheden mellem nabo-stykker og ikke afhængigheden mellem alle stykker i hele genomet.

Dette gør arbejdet betydeligt mindre kompliceret og gør det muligt at modellere hele genomer hurtigt og effektivt.

På den måde kan vi opstille alternative hypoteser for artsdannelse ved at udregne sandsynlighederne for at observere vores data under de forskellige modeller (se billede 2).

Vores CoalHMM’er er unikke i dels at kunne analysere hele genomer og i at kunne analysere stamarter, der levede millioner af år før nu.

Der eksisterer andre metoder, som kan analysere millioner af år gamle stamarter ved at bruge isolerede DNA-stykker, der antages uafhængige, og andre metoder, der via Markov-model-tilgangen kan analysere hele genomer, men alle andre metoder antager enten uafhængige DNA stykker eller har en approksimation af P(A,B) der fejler, når man går millioner af år tilbage.

Hvordan skilles arter?

Samtidig med, at vi forbereder arbejdet med de 106 genomer, er vi netop nu i gang med at undersøge, på hvilken måde forskellige tæt beslægtede arter er blevet adskilt.

Er det sket som en pludselig opstået barriere for gen-udveksling (dette kaldes allopatrisk artsdannelse)? Eller har det været en gradvis proces, hvor genudvekslingen mellem forskellige populationer er blevet mindre over tid, ind til den helt er ophørt (dette benævnes oftest sympatrisk artsdannelse)?

Vi har undersøgt genomerne for tre par af forskellige beslægtede aber:

  1. Chimpansen og bonoboen
  2. Sumatra og Borneo orangutangen
  3. Den østlige og vestlige gorilla.

Resultaterne viser, at chimpansen og bonoboen pludseligt gik fra hinanden for cirka en million år siden, mens de to gorillaarter og de to orangutangarter langsomt gik fra hinanden og først havde den sidste gen-udveksling for henholdsvis cirka 50.000 og 300.000 år siden.

Nøglen til denne forskel ligger måske i, at bonoboer og chimpanser i dag er adskilt af Congofloden, som muligvis fik sit nuværende leje for cirka en million år siden, og da chimpanser hader vand, vil dette have været en pludselig barriere for gen-udveksling.

Hvordan man udregner sandsynligheder  i en Markov kæde
Problemet bliver i sin enkelhed et spørgsmål om at kunne opskrive den kombinerede sandsynlighed for forhistorien af to nabo-DNA-stykker.

Kalder vi forhistorien for stykkerne for A og B, så skal vi kunne beregne P(A,B) for alle mulige historier af DNA-stykkerne.

Derfra kan vi beregne den betingede sandsynlighed, P(B | A), hvorefter vi med approksimationen kan bruge denne betingede sandsynlighed til at beregne den samlede sandsynlighed for ikke blot A og B, men A, B, C og D (eller hvor mange stykker vi har brug for), da P(A, B, C, D) approksimeres som P(A) P(B | A) P(C | B) P(D | C).

Uden approksimationen ville vi skulle beregne P(A, B, C, D) = P(A) P(B | A) P(C | A, B) P(D | A, B, C), der vokser i kompleksitet med hvert nyt stykke og derfor i praksis kun kan beregnes for få stykker.

Det at beregne den kombinerede sandsynlighed P(A,B), og den afledte sandsynlighed P(B|A) er dog heller ikke lige til, og det meste af vores teoretiske arbejde over de sidste mange år har fokuseret på effektive måder at beregne denne sandsynlighed på.

Sandsynligheden P(A,B) afhænger af flere modelparametre, inklusiv tiden hvor arterne delte sig, og det er ved at maksimere P(A,B) mht. disse parametre, at vi kan estimere parametrene og derved lære om arternes opdeling og udvikling.

Problemet er dog ikke helt løst ved at kunne beregne P(A,B). A og B er forhistorien bag to DNA stykker, men blot ud fra to DNA-stykker kan vi ikke direkte afgøre hvad deres forhistorie er.

Vi bliver derfor nødt til at integrere over alle mulige forhistorier for den observerede DNA, vægtet med sandsynligheden for, at disse historier ligger til grund for den observerede DNA.

Dette klarer vi ved at bruge en statistisk teknologi, der hedder 'skjulte Markov-modeller', og vores analysemetode kalder vi 'CoalHMM’er' (Coalescence Hidden Markov Models; coalescence henviser til den populationsgenetiske model af forhistorier og hidden Markov models henviser til skjulte Markov modeller).

Det er ved kombinationen af skjulte Markov modeller og metoder til at beregne den kombinerede sandsynligheder for forhistorier, P(A,B), at vi over de sidste fem til ti år har udviklet statistiske kraftfulde metoder til genetisk analyse af stamarter ud fra DNA fra nulevende arter.

Partnerartikel

Artiklen bringes i samarbejde med: Aktuel Naturvidenskab

Aktuel Naturvidenskab

Aktuel Naturvidenskab Ny Munkegade 120, Bygn. 1520 8000 Århus C Tlf.: 8942 5555

Aktuel Naturvidenskab er et landsdækkende tidsskrift med nyheder og baggrund fra den naturvidenskabelige verden. Aktuel Naturvidenskab har til formål at synliggøre naturvidenskab i det danske samfund. Bladet udgives i et samarbejde mellem 10 danske forskningsinstitutioner.

Artiklerne er primært skrevet af fagfolk og henvender sig til læsere med en bred interesse for naturvidenskab. Det faglige niveau svarer til en "studentereksamen".

I Aktuel Naturvidenskab finder du artikler om:

  • nye forskningsprojekter og resultater  
  • videnskabshistorie og naturfilosofi
  • synspunkter og kommentarer
  • boganmeldelser

Videnskab.dk bringer udvalgte artikler fra Aktuel Naturvidenskab.

Seneste artikler fra Aktuel Naturvidenskab

  • Da kvinderne indtog ingeniørstudierne

    Det var først i 1892, at den første kvinde startede på en ingeniøruddannelse i Danmark. Vi kaster her et blik på den tid, hvor de første standhaftige kvinder brød isen til de naturvidenskabelige og tekniske uddannelser.
  • Må man fange en fisk, før den bliver voksen?

    Ny forskning viser, at vores fiskeri i højere grad bør rettes mod små, umodne fisk. Det vil give større fangst for fiskerne og mindre forstyrrelser af fiskebestandenes struktur. Men det kan koste på økonomien.
  • Mikrochips mod madforgiftning

    Ny teknik baseret på såkaldt lab-on-a-chip-teknologi kan hjælpe med at finde skadelige bakterier i vores fødevarer både hurtigt og billigt.
Tak til Mailund

Tak for det du skrev om på en anden måde. Jeg havde misforstået hvad du gjorde; men dette indlæg satte det på plads

Video

Her er en video hvor jeg for et års tid siden forsøgte at forklare idéen: http://vimeo.com/20015108

Jeg prøver lige på en anden måde...

Jeg vil lige forsøge endnu engang at forklare hvordan Markov modeller langs genomer kan fortælle os noget om deres forhistorie.

Jeg vil antage at vi kan blive enige om følgende (for ellers er vi uenige om fundamentale populationsgenetiske modeller, og så skal vi grave lidt dybere).

Hvis vi tager to "gener" (i mangel af et bedre ord, jeg mener blot to stykker DNA hvor der ikke er sket rekombination) kan vi se på hvor langt tilbage i tiden vi skal gå før vi finder deres sidste fælles forfader. Det er typisk ikke noget vi direkte kan se, men vi kan estimere det ud fra hvor mange forskelle der i DNA stykkerne.

Lad os sige at de to gener har deres sidste delte forfader til tid t1.

Så tager vi to andre gener, og ser at de har en forfader til tid t2.

Vi bliver ved, for par af gener og får t3, t4, ... tk.

Fordelingen af t1 til tk fortæller os noget om befolkningen vi har taget gener fra. Vi ved hvordan den fordeling skal se ud for forskelle scenarier af demografi, og vi kan fitte vores t'er til forskellige fordelinger for at se hvad der passer bedst.

Det har stort set været idéen i genetik de sidste to-tre generationer.

For at få det til at virke kræves dog at vi kan vælge uafhængige (eller næste uafhængige) par for t1 til tk. Det kan vi stort set hvis vi prøver at lære noget om en eksisterende befolkning, men vi kan ikke hvis vi prøver at se på to forskellige arter. Der vil de forskellige par nemlig ikke være uafhængige, da de deler samme forhistorie hvis vi går langt nok tilbage i tiden.

Så langt vil alle populationsgenetikkere være med.

Det nye for at se på historien mellem arter, en idé der går tilbage til midt 90'erne, er at man i stedet for at vælge tilfældige par kan vælge tilfældige dele af genomet. To forskellige stykker af genomet vil nemlig være stort set uafhængige. Hvis det er stykker fra to forskellige kromosomer vil de for alle praktiske formål være uafhængige, og det samme gælder to stykker af det samme kromosom der ligger langt nok fra hinanden. Lad os sige et par megabaser.

Tager du k tilfældige stykker af genomet, langt nok fra hinanden, vil du igen få t1 til tk, og ved at se på fordelingen af t'er vil du se hvordan befolkningen ser ud. Tager du gener fra forskellige arter vil der være en minimumsværdi som t'erne kan have -- vi har ikke en fælles forfader senere end arterne gik fra hinanden -- men længere tilbage end det er det blot samme historie som hvis de var fra samme befolkning. Du kan tage minimumsværdien og trække fra alle t1 til tk, og så får du fordelingen i forfader befolkningen.

Dette virker hvis du har nok stykker DNA langt nok fra hinanden.

Det vi gør, som bygger videre på dette, er at vi ikke kræver at stykkerne ligger langt fra hinanden. Gennem en Markov model holder vi nemlig styr på hvordan to t'er vil være fordelt sammen. De er ikke uafhængige, men vi kan modellere hvordan de afhænger af hinanden.

Hvis vi kører vores model langs hele genomet kan vi få fordelingen af t'er hvor vi både har styr på deres fordeling i tid og hvordan de er gensides afhængige.

Fordelingen i tid kan du godt tænke på som ligevægten i vores Markov model. Det _er_ for alle praktiske formål noget der kommer ud af ligevægten af vores model.

Ved at tilpasse vores parametre kan vi få ligevægten af vores Markov model til at passe til fordelingen af tider til sidste fælles forfader langs med genomet. Dermed får vi fordelingen af tider, og derfra kan vi se hvordan både split tiden ser ud (for alle praktiske formål er det den mindste tid vi ser) og hvordan diversiteten i forfaderarten så ud (fordelingen af t'erne længere tilbage end minimunsværdien).

Så hvis du gerne vil tænke i termer af en ligevægsfordeling, så er det _den_ ligevægtsfordeling vi er interesseret i. Det er ikke en fordeling i tid, men langs med et genom. Ligevægten langs med genomet fortæller os blot om fordelingen af forfædre i tid.

Vi kan ikke sige noget om tiden før det dybeste t eller efter det t der er tættest på i dag, men vi kan se hvad der er sket mellem minimum og maximum af t'erne. I det tidsinterval har vi derimod en masse information, da der er _mange_ stort set uafhængige observationer.

Håber det giver mening. Ellers tror jeg at jeg må give op med forklaringer...

Jo jo, det kan man godt...

Peter, man _kan_ se både split tid og ancestral variation ud fra variation langs med et genom. På mange forskellige måder, som litteraturen er fyldt med siden slut 90'erne. Vi gør det bare med hel-genom data, men at det kan lade sig gøre er ikke nyt, og påstande om det modsatte må stå for egen regning.

Hvis jeg var dig ville jeg nok være forsigtig med at udtale dig om hvor meget jeg kender til Markov kæder, taget i betragning at du tydeligvis ikke forstår hvad vores modeller gør. Der er ikke problemer med start eller slut tilstande, start er den ene ende af genomet og afslutningen er den anden; ingen af enderne er forsvundet i fortiden. Vi estimerer parametre ved at løbe langs genomet -- hvor vi altså kan observere hele genomet -- og ud fra vores observationer får vi parametre der fortæller os om populations genetikken der førte til de observerede genomer.

Umiddelbare forældre af vores genomer giver os intet nyt at estimere på. Ancient DNA kan gøre lidt, men kun for artsdannelser meget tæt på i dag (og vi har kun ancient DNA for hominins, ikke for de andre aber).

Resten af hvad du skriver om Markov kæder, og hvad vi kan og ikke kan med dem ,har ingen relevans for hvad vi faktisk _gør_ med Markov kæder. Det lyder mest af alt som en snak fra køteori verdenen, men det har intet med vores HMM'er at gøre. Der er forøvrigt heller ikke nogen regressionsanalyse i sving her, den ved jeg ikke hvor du fandt.

Svar til thomas Mailund

Du skriver at variationen i dag skyldes både hvor lang tid, der er gået siden de gik hinanden og hvor stor stambefolkningen var. Så kan man da ikke slutte af variationen alene både hvor lang tid, der er gået, og hvor stor stambefolkningen var.

Du har misforstået problemet med brugen af markovkæder i det foreliggende tilfælde, sandsynligvis fordi du ikke kender nok til Markovkæder. Problemet ligger netop i at du kun ser på langs af genomet, som du kalder det. Mit forslag med at inddrage forældrene var netop for at undgå problemet. Hvis en markovkæde først har nået en ligevægtstilstand kan man ikke sige noget om fortiden. Ligevægtstilstanden kan komme ud fra mange forskellige begyndelsestilstanden og alligevel give samme sluttilstand. Typisk vil heller ikke alle parametre i en markovkæde påvirke ligevægtstilstanden. Forudsætningen for at bruge regressionsanalyse på de pågældende data vil ikke være til stede. Gør man det alligevel kan man godt få nogle resultater ud; men de vil være aldeles upålidelig

Svar til Peter 1 og Peter 2 :)

Peter Ole Kvint: Der er mange måder man kan definere en art på, se http://en.wikipedia.org/wiki/Species_problem

En af definitionerne på hvornår to grupper er forskellige arter er _netop_ at der er en krydsningsbarriere, så med denne definition kan arterne ikke opstå før (eller efter). Men som sagt er der mange måder at definere hvad forskellige arter er på, og det vi kikker på er blot hvornår to grupper sidste gang udvekslede gener, intet andet. Vi har andre modeller der også kan kikke på hvordan grupperne er vokset fra hinanden, men i artiklen er det sidste udveksling af gener vi kikker på.

Peter Lind Jensen: Vi kan se hele variationen i en forfadder art fordi rekombination gør forskellige dele af genomet til uafhængige observationer fra de tidligere arter. For hvert enkelt nukleotid har par af genomer en og kun en sidste fælles forfader, og typisk vil denne være den samme for alle par af individer trukket fra hver sin art, men kikker vi langs genomet (og vores Markov model kører langs genomet, ikke frem og tilbage i tid) så ser vi forskellige forfædre forskellige steder.

Jeg forstår ikke hvad du skriver om Markov modeller, men tror du har misforstået hvad det er vores modeller gør. Vi har en Markov model der løber langs med genomet, ikke en Markov model der løber i tid. Den stationære fordeling _langs_med_sekvensen_ fortæller os noget om genetikken af forfædre, så som hvornår grupper gik fra hinanden og hvor meget variation der var i tidligere grupper.

uklarheder

Har man nogen ide om hvorfor mennesket ligner gorillaen end chimpansen ?

Ud fra variationen mellem 2 individer i en befolkning kan man find hvor langt tilbage i tiden den fælles forfader levede og se om stambefolkningen var stor eller lille.
Det forekommer mig at det bider sig selv i halen. For at kunne finde hvornår den fælles forfader levede må man have data fra fortiden, der kan sige noget om hvordan variationen udvikler sig. Dertil kommer, at det også er afhængig af, hvor stor stambefolkningen var.

Hvis alle individer inden for den første art har en sidste fælles forfader inden for deres egen art, og det samme gør sig gældende i den anden art, vil vi nemlig se præcis den sammen afstand mellem et par af individerne, lige meget hvilket par vi vælger.

Det forekommer mig helt usandsynligt. De vil også have andre forfædre, der levede på samme tidspunkt som forfaderen.

Markov modellen kræver estimeringen af nogle parametre. Hvordan gør man det ?. Hvis man estimere ud fra børn-forældres DNA kan man tvivle på at variationen er stor nok samt at evt. miljøafhængighed ikke kommer med. Hvis man ser på gammelt DNA kommer man i det problem at Markov modeller normalt ender i en stationær tilstand, hvor fortiden er væk. Jeg kan ikke se andet end, at det i det hele taget er et problem med at bruge Markov modeller til at sige noget om fortiden

Smutter

Der er vist noget galt med den model som de har brugt. Det er normalt er arter findes længe før at der opstår en krydsning-barriere. Det som de måler på er hvornår krydsning-barrieren opstod.

Seneste fra Miljø & Naturvidenskab

Annonceinfo

Det læser andre lige nu

Annonceinfo

Spørg Videnskaben

Annonceinfo

Abonner på vores nyhedsbrev

Når du tilmelder dig, deltager du i konkurrencen om lækre præmier.

Mest sete video

Annonceinfo

Seneste kommentarer

Seneste blogindlæg