Som teenager udfordrede en ven og jeg hinanden ved at skrive korte tekster i hemmelige koder, og vi blev bedre og bedre til at dechifrere dem, mens vi også forbedrede vores evner til at gøre vores koder mere komplicerede.
Vi har dog ikke været i stand til at dechifrere det famøse og gådefulde Voynich-manuskript. Min ven, Eric, blev bilmekaniker, og jeg blev sprogforsker. Vi gør nu begge noget nyttigt for samfundet.
Voynich-manuskriptet er et af de store gåder fra middelalderens historie og for den sags skyld også for sprogvidenskab.
Ingen har endnu været i stand til at dechifrere det, og mange har prøvet. Det er skrevet i et totalt ukendt alfabet eller skrivemåde på et uidentificeret sprog.
Manuskriptet er mere end 500 år gammelt. Det har været offentligt tilgængeligt i et århundrede, og nu er det også tilgængeligt online. Ingen har været i stand til at oversætte manuskriptet; der har været mange forslag, men alle er blevet afvist.
Folk har hævdet, at det kunne være skrevet i en form for hebraisk, eller på et romansk sprog, i en tidligere form for romani (sigøjnersprog), på et indisk sprog, eller endda på et sprog fra en anden planet.
Specialisterne i Middelalderen har, kort sagt, ingen anelse. Kryptografer – specialister i hemmelig skrivning – har også brudt deres hjerne på det.
Sprogfolk har også prøvet at finde ud, hvad der står, men alt har været forgæves. I denne artikel vil jeg hævde, at manuskriptet faktisk ikke er interessant for sprognørder.

LÆS OGSÅ: Verdens mest mystiske bog er afkodet på bare to uger, påstår lingvist
288 siders mystik
Voynich-manuskriptet er skrevet på pergament, som er dateret til første halvdel af 1400-tallet. Ingen tvivl om datering af det fysiske. I princippet kunne teksten og illustrationer være nyere – men det kunne også være fra samme tid.
Man har undersøgt blæk og skriveteknikker, og man har konkluderet, at de også daterer fra 1400-tallet.
Men bortset fra det, er der kun mysterier tilbage.
Hvem skrev manuskriptet? På hvilket sprog? Hvad handler teksten om? Hvad er betydningen eller henvisningen til disse mærkelige tegninger af drager, badende nøgne kvinder og kort over kendte og ukendte steder? Hvorfor er der ingen rettelser i manuskriptet?
Som sprogforsker er man selvfølgelig nysgerrig efter teksten, og man vil vide, om den er skrevet på et kendt eller ukendt sprog. Da manuskriptet indeholder 288 sider, er det bestemt ikke manglen på materiale, der har hindret fortolkningen af teksten.

Hvordan læser man en ulæselig tekst?
Hvordan går man til værks med at dechifrere et script og en tekst som den i Voynich-manuskriptet?
Man kan bruge antallet af tegn (bogstaver) i teksten, længden på de forskellige ord, kombinationen af tegnene og gentagelse af mønstre som spor.
‘Ordene’ (lad os antage, at de faktisk er ord), er adskilt af mellemrum i manuskriptet (hvilket for øvrig ikke er tilfældet i alle gamle tekster). Man kan antage, at der skal være tilbagevendende dele af ord: For eksempel ville der være endelser på et substantiv (kasus), som man finder dem på russisk, latin og græsk.
I begyndelsen af ordene kunne der være afledte præfikser, som vi finder dem på dansk, såsom u- i ‘ubehøvlet‘ og be- i ‘betale‘.
Man kunne også forsøge at identificere tilbagevendende nominale markørklasser som på Bantu-sprog, verbale bøjninger såsom engelsk –ed i ‘walked‘ eller det spanske –mos i ‘vamos‘ eller flertalssuffikser som det danske –er i ‘substantiver‘.
Vi ved, at de fleste sprog i verden har dem. Man kan derfor forvente, at sådanne dele af ord i slutningen og måske også begyndelsen ville blive gentaget gennem hele teksten, som i enhver naturlig tekst.
Og der er da også ord og orddele, der bruges igen. Så det er ikke bare en vilkårlig samling af tegn.
Der er kun få sprog, der sætter sådanne elementer midt i et ord.
LÆS OGSÅ: Her er verdens mærkeligste sprog
Alfabet, abugida eller abjad?
Men først skal man finde ud af, hvilken slags manuskript det er.
Man vil gerne finde ud af, om skrivemåden er et alfabet, en abugida, et abjad eller et logografisk skriftsystem.
- Alfabet – i et alfabetisk script tildeles hver talelyd i princippet et bogstavsymbol, som på engelsk, tysk eller spansk, og både vokaler skrives, og konsonanter skrives – og altid separat.
- Abugida – hvert symbol betegner en konsonant-vokalkombination, ligesom ka eller si.
- Abjad – et skriftsystem kun indeholdende konsonanter
- Logografisk skriftsystem – hvor hvert symbol angiver en betydning. På kinesisk kan ét skriftligt symbol så repræsentere for eksempel ‘hus’ eller ‘hest’ eller ‘mor’.
Det logografiske kinesiske skriftsprog har mange tusinder af sådanne symboler, fordi de hovedsageligt betegner betydninger, abugidas har mellem 35 og 100 symboler for stavelser, abjads mellem 15 og 30 konsonantsymboler, og alfabeter har omtrent mellem 20 og 30 symboler for vokaler og konsonanter.
Antallet af symboler giver således en indikation af, hvilket skriftsystem der bruges.
I Voynich-manuskriptet er der mellem 25 og 30 individuelle symboler, hvilket ville betyde, at det enten er et alfabetisk skrift eller et konsonantisk skrift (abjad), og i sidstnævnte tilfælde ville det være et sprog med mange konsonanter.
Hvis det var et alfabetisk script, ville sproget have et ret gennemsnitligt antal talelyde. Det er så den mest sandsynlige alfabetisk. Men er et alfabetisk script mere sandsynligt end andre typer skrift?

LÆS OGSÅ: Forskerne er kommet tæt på vores sprogs vugge
Alfabetet: En engangsopfindelse
De gamle grækere overtog den fønikiske abjad-skrift, som kun havde konsonanter, og grækerne tilføjede så bogstaver til vokallydene. Grækernes skrift var den første skrift med adskilte bogstaver for både vokaler og konsonanter.
Det lyder naturligt, hvis man er vant til det, men denne geniale tilføjelse skete kun én gang i menneskehedens historie. Alle alfabetiske skrifter i hele verden er enten direkte afledt fra det græske (for eksempel kyrillisk som for russisk, og latinsk som for dansk), eller direkte inspireret af græsk (for eksempel georgisk og armensk).
Når mennesker spontant opfinder skrift, er det altid kun en abjad (kun konsonanter) eller abugida (kun tegn til stavelser) eller et logografisk skrift. Alfabetisk skrivning er faktisk kun blevet opfundet en gang (!) i universet eller i det mindste på Jorden (vi mangler stadig data fra andre planeter).
Da Voynich må være skrevet i en alfabetisk skrift, er det lavet af en der i forvejen kender skriftsystemer med vokaler og konsonanter.

Der er også en mulig forbindelse mellem ordlængde og abjads. Hvis alle symboler i skriftet repræsenterer konsonanter, dvs. hvis manuskriptet er en abjad, ville ordene på Voynichs sprog i gennemsnit være ret lange.
Faktisk er sekvenserne sandsynligvis i gennemsnit længere end forventet for ethvert sprog skrevet med en abjad. Således er manuskriptet sandsynligvis ikke en abjad.
Når folk er inspireret til at lave deres eget skriftsystem, laver de typisk et stavelsesskrivesystem, især hvis stavelsesstrukturen er enkel i deres sprog, som når hver konsonant altid følges af en vokal i et ord.
Indianerne, cherokeerne, ndyukerne, vai-afrikanerne fra Liberia, sumerere osv., opfandt allesammen skriftarter spontant, og de skrev alle enten kun konsonanter, eller oftere kun konsonant-vokalkombinationer.
Så hvis Voynich er skrevet i et alfabetisk script, oprettedes det helt sikkert af en person, der kendte alfabetisk skrivning i forvejen, som de bruges til andre sprog. Ellers ville denne person have opfundet et stavelsessystem eller en abjad.

Ud af 300 sprog matchede ingen med Voynich-manuskriptet
Nu hvor vi har konstateret på basis af antallet af tegn, at Voynich-manuskriptet sandsynligvis er skrevet med et alfabetisk skrivesystem, ville det næste skridt til at udforske skriftet være en hypotese om, at teksten er skrevet på et eksisterende eller kendt sprog, men i et andet skrift end normalt.
Man antager således, at hvert tegn repræsenterer et bogstav på et eksisterende sprog, men som er blevet translittereret til et andet skrift. Dette er blevet testet for Voynich, og ingen af de mere end 300 sprog, der blev testet, gav et resultat.
Man må naturligvis huske, at det er et middelalderligt sprog, som måske har været ganske anderledes end dét sprog, det udviklede sig til (middelalderens nederlandsk og engelsk er for eksempel næsten ulæselige for moderne belgiere eller englændere).
På den anden side er computere rimeligt gode til at gruppere sprog efter familier baseret på lydsystemer og bogstavfrekvens.
De fire sprog, der kom tættest, da to canadiere testede Voynich (og der er altid sprog, der kommer tættest på) var hebraisk, arabisk, malaysisk skrevet på arabisk skrift og amharisk (et sprog i Etiopien, der er skrevet ved hjælp af et stavelsesskrift).
Det lyder så ikke overbevisende. Tre sprogfamilier, og tre skriftarter: Det lyder tilfældigt.
LÆS OGSÅ: Har kunstig intelligens knækket koden bag mystisk manuskript?
Kan ordlængden hjælpe os?
Man kan også kontrollere den gennemsnitlige ordlængde.
På sprog som grønlandsk er ord for eksempel længere end på europæiske sprog, mens kinesiske ord er meget kortere. Ord, der består af flere dele (for eksempel morfemer som præfikser og suffikser), ligesom grønlandsk, har en tendens til at være længere end dem på sprog med ord, der kun er en stavelse lang, som kinesisk.
Den gennemsnitlige ordlængde for Voynich-manuskriptet ser meget ud som på engelsk og latin, hvilket igen antyder, at det ville være skrevet i et alfabet snarere end et abjad, og at sprogtypen ikke er polysyntetisk som grønlandsk og heller ikke analytisk som kinesisk.
Tværtimod er ordets længde mere imellem, ligesom europæiske eller mellemøstlige sprog.
Sprogfolk ved også, at nogle talelyde er universelt hyppigere end andre, og at viden om verdens sprog kan bruges til at antyde bogstavernes værdier.
Vokallyden /a/ er hyppigere end /e/, og konsonanten /m/ findes på de fleste sprog, men konsonanten /f/ er meget sjældnere. Og så videre.
Jeg ved dog ikke noget om eksisterende undersøgelser, der systematisk har brugt denne viden til Voynich-manuskriptet, men nogle mennesker har brugt denne information i hvert fald intuitivt.

Mistænkelig bogstavhyppighed peger på et falsk sprog
En anden mulighed er at se på fordelingen af sproglyde inden for et ord under antagelse af, at hvert bogstavsignal i teksten repræsenterer en sproglyd.
Man kan for eksempel forsøge at finde ud af, hvilke bogstaver, der sandsynligvis er vokaler eller konsonanter, ved at se på, hvilke bogstaver eller symboler, der findes i ordene. I sprogvidenskab kalder vi dette fonotaks.
Der er bogstaver, der kun findes på bestemte positioner, og det er ikke ualmindeligt, at sprog har lyde, der ikke vises i alle positioner i ordet – på de fleste sprog kan ord for eksempel ikke ende i -tk.
Distributionen af bogstaver i manuskriptet er undersøgt, og resultaterne synes at pege på muligheden, at det er et naturligt sprog og ikke en vilkårlig kombination af bogstaver. På den anden side har forskere også observeret, at visse bogstaver er meget hyppigere i nogle dele af teksten, og endda i en sådan grad, at det er mistænkeligt.
Dette findes nemlig typisk på falske sprog.
LÆS OGSÅ: Sanskrit, tokharisk og oldlatin: Lyt til uddøde sprog
Voynich overholder Zipfs lov. Men…
Man kan også undersøge en tekst for at se, om den adlyder Zipfs lov.
I 1930’erne observerede George Kingsley Zipf, at der er en sammenhæng mellem ordlængde og ordenes frekvens. Hyppige ord har en tendens til at være kortere på alle sprog.
Voynich-teksten overholder således også Zipfs lov, hvilket kan antyde, at den faktisk er skrevet på et naturligt sprog. Men da computeranalyser ikke resulterede i en overbevisende match med noget andet sprog, så er det sandsynligvis ikke et kendt sprog med translittererede bogstaver.
Kunne teksten så repræsentere en mere kompliceret kode, dvs. en tekst, hvor hvert bogstav erstattes af et andet bogstav, men hvor formen på bogstavet justeres efter en eller anden regel, måske skiftes til en anden kode for hver linje eller hvert afsnit?
Dette er blevet afvist af eksperter, da det burde have ført til en nogenlunde lige fordeling af bogstaverne i teksten, og det er helt klart heller ikke tilfældet.

Amatører på afveje
Kort sagt, trods indsatsen fra seriøse kryptografer, middelalderister og lingvister, har ingen lærde eller team af lærde været i stand til at knække koden – ikke engang ved hjælp af kraftige computere.
Og ikke kun lærde mennesker har prøvet. Forskellige amatører og selvudråbte genier har også gjort deres forsøg, og nogle fik endda deres artikler offentliggjort i respekterede videnskabelige tidsskrifter.
Disse mennesker har også fremsat nogle overdrevne påstande ikke hindret af nogen form for viden.
Jeg blev engang kontaktet af en person, der hævdede at have dechifreret manuskriptet. Denne person ser ud til at være en forskningsassistent inden for biologi.
Efter en bølge af kritik, der kom, efter hans ‘opdagelse’ blev offentliggjort, har hans universitet distanceret sig fra denne medarbejders påstande.
Denne biolog og sproglig amatør argumenterede (efter sit eget syn beviste han faktisk), at det var skrevet på en slags kreoliseret eller blandet gammelt romansk sprog. Og da jeg er specialist i kreolsprog, skrev han til mig.
Desværre har han virkelig ikke en anelse om sprogvidenskab, sprogændring, typologi, kreolske sprog, skriftsystemer, fonologi, sproglig terminologi eller romanske sprog, og han mangler den nødvendige færdighed til seriøs sproglig analyse. Hans arbejde er selvmodsigende, fragmentarisk og spekulativ.
Kort sagt: Han ved ikke, hvad han taler om. Og det er derfor, jeg ikke engang vil nævne hans navn eller arbejde – han er simpelthen ikke værd at ofre opmærksomhed på.
Faktisk har jeg hidtil ikke inkluderet nogle links til noget, der har at gøre med manuskriptet; folk skal bare ikke spilde deres tid på at forsøge at dechifrere den, da det sandsynligvis er en smart hoax. Hvem gjorde det, og hvornår og hvorfor, er hvad der er interessant ved det.
Jeg vil dog gerne gøre en undtagelse for denne artikel, der præsenterer en dejlig, objektiv og jordnær oversigt. (Læs også opfølgningen til artiklen her.)
Næsten alle andre ting, du finder på nettet, er skrevet af skøre amatører. Og der er meget vrøvl derude.
\ Forskerzonen
Denne artikel er en del af Forskerzonen, som er stedet, hvor forskerne selv kommer direkte til orde.
Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
Forskerzonen er støttet af Lundbeckfonden.
En joke?
Hvis du spørger mig, tror jeg som sagt, at Voynich-manuskriptet er en meget smart praktisk joke, en ‘hoax’, sandsynligvis fra 1400-tallet, samme dato som pergamentet og blæk.
Hvis det ville have været et rigtigt sprog, i et rationelt og regelmæssigt skrivesystem, ville eksperter for længst have regnet det ud. Der er jo så meget tilgængelig tekst, der er illustrationer, som for eksempel stjernetegnene, der giver ledetråde til indholdet. Det skulle være let at knække det.
Den blotte kendsgerning at den ikke er afkodet betyder, at den ikke kan afkodes. Det er simpelthen en falsk tekst, og derfor er der efter min mening ikke den store pointe i, at sprogforskere bruger tid og energi på at dechifrere det.
Dette er en let redigeret version af en artikel, der tidligere er udgivet på lingoblog.dk.
LÆS OGSÅ: 8.475 sprog findes – og nye kommer til
\ Kilder
- Peter Bakkers profil (AU)
- ‘Did Codebreakers Crack This Mysterious Medieval Manuscript?’. National Geographic (2018)
- ‘Decoding Anagrammed Texts Written in an Unknown Language and Script’. Transactions of the Association for Computational Linguistics (2016)
- ‘Manuscript Road Trip: The World’s Most Mysterious Manuscript’. Manuscript Road Trip (2019).