Den 3. juni 2003 løb 2-årige Anna ud mellem to parkerede biler og var 10 centimeter og et splitsekund fra at blive ramt af en passerende bil.
Anna ville gemme sig for sine forældre inden besøget i Zoologisk Have, og hun ænsede aldrig, hvor galt det kunne være gået.
Her knapt 20 år senere ville hun aldrig lave samme fejl, og de fleste af os formår at gå gennem livet og undgå de største farer. Grunden er egentlig såre simpel:
Evolutionen har fra barnsben gjort os til fødte statistikere, der er i stand til at indsamle og bearbejde data til at opbygge erfaringer og vurdere risici. Og vi gør det ofte helt ubevidst og naturligt.
\ Om Forskerzonen
Denne artikel er en del af Videnskab.dk’s Forskerzonen, hvor forskerne selv formidler deres forskning, viden og holdninger til et bredt publikum – med hjælp fra redaktionen.
Forskerzonen bliver udgivet takket være støtte fra vores partnere: Lundbeckfonden, Aalborg Universitet, Roskilde Universitet og Syddansk Universitet.
Forskerzonens redaktion prioriterer indholdet og styrer de redaktionelle processer, uafhængigt af partnerne. Læs mere om Forskerzonens mål, visioner og retningslinjer her.
Vores sanser bombarderes døgnet rundt med input.
Når vi eksempelvis skal krydse gaden, kan vi se en bus, men den holder stille og samler passagerer op. Vi kan høre, at den røde bil speeder op, men den kører væk fra os. Cyklisten har retning næsten direkte mod os, og han virker noget usikker på cyklen.
Lynhurtigt filtrerer hjernen de uvigtige informationer fra og bruger de resterende inputs – data – til at lave en vurdering: Kan jeg gå over gaden uden at komme til skade, eller skal jeg vente?
Ubevidst kombineres vores sansers input med vores erfaring og eksisterende viden om verden. Ikke i præcise procenter, men overordnet om risikoen er høj eller lav.
I langt de fleste tilfælde er disse vurderinger gode nok til, at vi kan komme nogenlunde sikkert gennem livet.
Bayes’ formel viser, hvordan data og tidligere erfaring kombineres til ny viden
Statistikere udtrykker denne sammenhæng matematisk gennem Bayes’ formel:
- P(A|B )er proportional med P(B|A) P(A)
A og B er hændelser, og P(A) udtrykker sandsynligheden (P’et står for ’probability’) for en hændelse. Bayes’ formel kan oversættes lidt mere uformelt som:
Ny risikoforståelse afhænger af sandsynligheden af data/gammel risikoforståelse.
Bayes’ formel viser derfor, hvordan den tidligere erfaring eller forståelse af verden bliver justeret eller opdateret på baggrund af data til at give en ny forståelse af verden.
Denne nye forståelse vil så næste gang indtage rollen som den ’gamle forståelse af verden’ i Bayes’ formel, hvilket gør, at vi hele tiden kan fodre Bayes’ formel med nye data og dermed stødt og roligt bliver klogere og klogere.
Hvordan ser det ud i praksis? Det har jeg forsøgt at illustrere i nedenstående figur, som viser, hvordan Bayes’ formel opdaterer opfattelsen af risikofordelingen, efterhånden som nye data kommer ind.
I dette tilfælde er udgangspunktet en forventning om, at risikoen er stor – et sted mellem 50 procent og 100 procent med en top omkring 85 procent.
Risikoen blandt nye data lader til at være omkring 50 procent, så efterhånden som nye data kommer ind, bliver risikofordelingen stødt og roligt centreret omkring 50 procent. Den oprindelige opfattelse af risikofordelingen var tydeligvis for høj, og vi bliver klogere, når vi ser flere og flere data. (Figur: Claus Ekstrøm)
Bayes’ formel er naturlig for os
Bayes’ formel er en af grundstenene i al statistik og ligger til grund for de fleste af de resultater, der bliver brugt til vurdering af medicinsk forskning, matematisk modellering, forudsigelser af vejret, coronavurderinger, kunstig intelligens, sproggenkendelse og machine learning.
Men Bayes’ formel er også naturlig for os som mennesker. Fra vi slår øjnene op er vi konstant i gang med at udforske verden og dermed indsamle og analysere data, som gør os i stand til at forstå verden bedre.
Hvad kan jeg tillade mig overfor mine forældre? Kan jeg score mål, hvis jeg skyder til fodbolden nu? Hvordan virker en vandhane? Hvad skal der til for, at min surdej hæver? Og hvad er der med kvinder og sko?
I daglig tale ville vi kalde det at gøre os erfaringer, men for en statistiker svarer det i bund og grund til at fodre Bayes’ formel med nye data for at se, hvordan den nye forståelse af verden ser ud. Med andre ord er vi alle fødte statistikere.
Hvornår går det galt med Bayes’ formel?
Der er to situationer, hvor det kan gå galt med Bayes’ formel.
Den ene er, hvis man ikke har nogen tidligere erfaring eller forståelse af verden – altså børn, eller når vi løber ind i noget, vi ikke har oplevet før.
\ Hvem var Bayes?
Bayes’ formel er opkaldt efter Thomas Bayes (1701-1761), der var en engelsk præst og statistiker.
Bayes skrev sine noter ned, men de blev først udgivet efter hans død.
Hans idéer er senere blev udbredt af den franske statistiker Pierre-Simon Laplace (1749-1827).
Den anden situation er dér, hvor man fejlagtigt tror, at man kan overføre ens eksisterende erfaring fra et problem til et andet.
Så har man det forkerte udgangspunkt for Bayes’ formel, og i begge tilfælde kræver det en masse data, før man for rettet op på de forkerte antagelser og man endelig begynder at forstå, hvordan verden hænger sammen.
Denne problemstilling kommer eksempelvis til udtryk, når nye varianter af COVID-19 – eksempelvis omikron – dukker op, og man bruger informationer omkring de tidligere varianter, Alfa og Delta, til at forudsige, hvor smitsom varianten vil være.
Hvis erfaringerne fra de tidligere varianter ikke direkte kan overføres, kræver det, at der indsamles en masse data for omikron, før vi kan sige noget mere præcist om den.
Hvis vi er de fødte statistikere, hvorfor kan statistik så virke så svært?
Vi har haft et helt liv til at gøre os erfaringer, vi har indsamlet uanede mængder af data, og vi går gennem livet uden at være bevidste om at bruge Bayes’ formel. Vi gør det bare.
Vi har ikke de samme erfaringer med at formalisere resultaterne matematisk, og det er noget, som tager tid og skal læres på samme måde som alt mulig andet.
Ved første øjekast kan det virke let, men nogle ting er kontraintuitive, og derfor skal man – også her – indsamle data og gøre sine erfaringer, før det bliver lettere.
Heldigvis er det ikke nødvendigt for at kunne komme trygt gennem livet.
Evolutionen har gjort en stor del af arbejdet for os, og vi er klar til at kunne leve livet sikkert uden at tænke over, at vi bruger Bayes’ formel hver dag. Vi er alle bayesianere.
\ Læs mere
\ Kilder
- Claus Thorn Ekstrøms profil (KU)
- “Bayesian statistics in medical research: an intuitive alternative to conventional data analysis”, Journal of Evaluation in Clinical Practice (2000). DOI: 10.1046/j.1365-2753.2000.00216.x
- “Weather Forecasting Using Naïve Bayesian”, Springer (2012). DOI: 10.1007/978-3-642-29387-0_50
- “Mathematical modelling of SARS-CoV-2 variant outbreaks reveals their probability of extinction”, Nature Scientific Reports (2021). DOI: 10.1038/s41598-021-04108-8