I Forskerzonen 4. februar 2022 blev der bragt en historie med overvejelser om, hvilket ord der er bedst at lægge ud med i det engelsksprogede Wordle.
Samme dag supplerede Forskerzonens Twitter-profil med en udfordring om at finde det bedste ord til den danske Wordle-klon, Wørdle.
Wordle – og således også Wørdle – handler kort fortalt om at gætte dagens ord på fem bogstaver og er på ganske kort tid blevet vældig populært.
Man starter med at lægge et hvilket som helst ord på fem bogstaver.
Det skal være et rigtigt ord – altså ikke noget med at skrive »xzwxq«, hvis man skulle have lyst til det.
Rammer man plet med et bogstav på den rigtige plads, bliver det grønt. Har man valgt et bogstav, der optræder i dagens ord, men på en anden plads end den, man har lagt det på, bliver det orange.
Bogstaver, der ikke optræder i dagens ord, bliver grå. Man har i alt seks forsøg til at gætte ordet.
Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.
Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet.
Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.
Et par mindre forbehold
Jeg har prøvet at tage Forskerzonens udfordring op.
Jeg vil starte med at lægge kortene på bordet og bekende, at jeg er sproghistoriker og kun en halv- eller snarere kvartstuderet røver, når det kommer til kodning, så de resultater, jeg kommer frem til i det følgende, skal nok ikke skrives ind i grundloven. Det vil i hvert fald være bedst, hvis de lige bliver tjekket først.
Desuden er jeg ikke selv blevet grebet af hverken Wordle eller Wørdle.
Jeg har slet ikke tid til at bruge et par minutter på den slags hver dag, da jeg har alt for travlt med at opnå og formidle banebrydende forskningsresultater, som eksempelvis dette indlæg.
Jeg skal også sige, at jeg ikke ved, hvilken ordliste Wørdle tager udgangspunkt i, hvilket kan have en betydning for, hvilke bogstaver det er bedst at lægge hvor.
Men jeg går ud fra, at det nok ikke gør en kæmpe forskel.
Så jeg går ud fra den ordliste, som jeg selv ville have brugt, hvis jeg havde lavet en dansk version af Wordle.
Sådan fungerer mit program
Mit udgangspunkt for undersøgelsen er en ordliste, der bygger på Retskrivningsordbogen, og som inkluderer bøjede former af ordene – det vil sige ikke bare land, men også lands, landet, landets, lande, landes, landene og landenes.
Listen indeholder således de ord, der bruges i spil som Wordfeud og Scrabble.
Mit program er meget simpelt. Først konverterer det é til e (så gelé bliver til gele), og så udtrækker det alle ord på fem bogstaver (det springer altså ord over, der indeholder apostrof, bindestreg og tal).
Til sidst fjerner det dubletter (haves skal ikke tælles tre gange: genitiv singularis af (en) have, genitiv pluralis af (et) hav og passiv af (at) have).
Det giver en liste på 7.704 ord på fem bogstaver, fra abbed til åsyns. Og så er det sådan set bare at regne sig frem til, hvilke bogstaver der optræder hyppigst på hvilke pladser.
S fører i hyppighed
I figuren herunder kan man se en oversigt over den relative hyppighed af de forskellige bogstaver på de forskellige pladser i ord med fem bogstaver.
Det mest hyppige bogstav på plads 1 i ordet viser sig at være s. Det er ikke så mærkeligt, da s jo er det eneste konsonantbogstav, der kan følges af ikke bare ét, men to konsonantbogstaver i starten af ordet i dansk – det har altså rige kombinationsmuligheder.
Det mest hyppige bogstav på plads 2 er a, på plads 3 er det r, på plads 4 er det e, og på plads 5 er det igen s.
Hyppigheden af s som ordets sidste bogstav er igen temmelig oplagt, da s både danner genitiv af substantiver (lands, ostes) og passiv af verber (siges, æltes).
Og det bedste startord er…
Hvor stiller det os så i forhold til, hvilket ord det er bedst at lægge ud med i Wørdle?
Faktisk er det nok ikke så smart at tage de hyppigste bogstaver på hver position og altså skrive sares.
Det er der to grunde til:
- Det er – muligvis – bedst at undgå at lægge det samme bogstav to gange, da man på den måde gætter mere bredt.
- Ordet findes ikke, så man kan slet ikke lægge det.
Som man kan se, er e klart det mest hyppige bogstav på plads 4, og s er det næsthyppigste (efter e) på plads fem. Det vil altså give mening at tage et ord, der ender på ‑es.
De første tre pladser udviser langt større variation.
På plads 2 kunne det være godt at bruge a eller o, og på plads 3 er r og l noget mere hyppige end andre bogstaver. Eftersom det næsthyppigste bogstav (efter s) på plads 1 er b, kunne et godt ord at starte med være bores.
Så vores undersøgelse fører altså frem til, at et rigtig godt ord at starte med i Wørdle, er – bores. Hvem skulle have troet det?
Man kunne helt sikkert lave en alternativ algoritme og finde et bedre ord. Eksempelvis har Leon Eyrich Jessen, lektor ved DTU, også taget udfordringen op og er nået frem til, at sanse er det bedste ord, skarpt efterfulgt af sande.
Men jeg tror og håber nu alligevel, at ovenstående overvejelser fører frem til et resultat, der i et vist omfang er brugbart.
Hvis man altså gider bruge sin tid på den slags overspringshandlinger.