Vad är sannolikheten för att solen ska gå upp imorgon? Denna till synes absurda fråga var populär bland 1700-talets filosofer. Frågan handlar om ifall vi verkligen kan veta något säkert, vilket är viktigt för alla som sysslar med seriös vetenskap. Det svar som fått störst betydelse i andra vetenskapliga fält än filosofin är troligen det som 1763 publicerades postumt av prästen och matematikern Thomas Bayes.
I sin “Essay towards solving a problem in the doctrine of chances”, menade Bayes att man aldrig kan ta något för givet. Istället borde man ha en avvaktande hållning och uppdatera sannolikheten efter uppgifter om tidigare händelser. Föreställ dig en person som aldrig har upplevt en soluppgång. Denne har inte heller någon tidigare kunskap om solen och ingen som svarar på frågan om den går upp eller inte. För personen är därför alla sannolikheter lika rimliga. Allt mellan att solen går upp varje dag och att den aldrig går upp verkar först lika troligt. Ju fler soluppgångar personen upplever, desto mer rimligt verkar det att tro att solen går upp varje dag.
Efter hundra dagar så säger personen att det nu är troligt att solen går upp fler än nittionio gånger på hundra dagar. Detta skrivs formellt som P(>0,99 | 100 soluppgångar) vilket betyder “sannolikheten att solen går upp mer än 99% av gångerna givet att det sker 100 soluppgångar på rad”. Den modell Bayes använde sa att denna sannolikhet var \(1-0,99^{100+1}\approx63,8%\). Det finns alltså fortfarande 36,2% risk att personen har fel efter en strikt matematisk modell! Inte ens om personen lever i sextio år och skruvar upp sin gissning till 99,99% ger det ett helt säkert svar. Sannolikheten att solen går upp imorgon igen blir då \(1-0,9999^{365\times60+1}\approx88,8%\). Rent matematiskt kan vi alltså inte vara säkra på ens de mest självklara saker.

Man behöver inte vara rädd för att solen inte ska gå upp imorgon eftersom andra faktorer än sannolikhet spelar in i huruvida den går upp eller inte, så det är tämligen ointressant att räkna på. Men den sats som Bayes uppfann och som nu bär hans namn har många fler tillämpningar än så och ger ofta slutsatser som ställer våra övertygelser på huvudet. De kan verka absurda, men de är matematiskt fullständigt korrekta. Bayes sats (eller formel eller teorem, de syftar alla på samma ekvation) är ett av sannolikhetslärans mest kraftfulla verktyg. Satsen ser i sin enklaste form ut så här:
\(P(A|B)=\frac{P(A)}{P(B)} \times P(B|A)\)
Det betyder att sannolikheten för att A är sant givet att B är sant, \(P(A|B)\), är lika med sannolikheten att B är sant givet att A är sant gånger sannolikheten att A är sant genom sannolikheten att B är sant. Begreppet betingad sannolikhet är här viktigt. Det skrivs med ett vertikalt streck emellan händelserna som betyder “givet att”.
Betingad sannolikhet är sannolikheten för att händelsen A är sann givet att händelse B är sann. P(A|B) är inte densamma som P(B|A), de är varandras inverser.
Låt mig nu förklara hur man kan få fram Bayes sats med ett exempel. Ett utbrott av influensa sker i en småstad med N stycken invånare. Efter en vecka är m stycken av invånarna sjuka i influensa. Men alla som har influensa har inte symptom. Alla som har symptom har inte heller influensa. Vad är då sannolikheten att en patient har influensa givet att patienten har symptom? Det är en betingad sannolikhet. Vi sätter A som “Patienten har influensa” och B som “Patienten har symptom”. Den betingade sannolikheten \(P(influensa|symptom)\) skrivs kort \(P(A|B)\).
Vi kan ställa upp värdena vi har i en tabell (m, x, y och z behöver inte vara kända för att utföra denna beräkning):

Utifrån tabellen ser vi att sannolikheten för att någon i befolkningen har influensa och symptom, P(A&B), är x/N. Sannolikheten att någon har influensa, P(A), är m/x. Samtidigt kan vi se att den betingade sannolikheten för att någon har symptom givet att de har influensa, skrivet P(B|A) är x/m. Det är allt vi behöver för att börja räkna på sannolikheterna. Om vi lägger ihop dessa uttryck får vi sannolikheten för att någon har både influensa och symptom:
\(P(A\& B)=\frac{x}{N}=\frac{x}{m}\times\frac{m}{N}\)
ekvivalent med
\(P(A\& B)= P(B|A) \times P(A) \)
Ifall vi vet sannolikheterna P(A|B) och P(B) kan vi på samma sätt räkna fram P(A&B) med dem:
\(P(A\& B)=P(A|B) \times P(A) \)
Nu har vi två uttryck med betingade sannolikheter som är lika med sannolikheten för både A och B. Det betyder att vi kan sätta ett likamedtecken mellan dem:
\(P(A|B) \times P(B)= P(B|A) \times P(A)\)
Division med P(B) på båda sidor ger
\(P(A|B)=\frac{P(B|A) \times P(A)}{P(B)}=\frac{P(A)}{P(B)}\times P(B|A) \)
vilket är Bayes sats.
Om vi nu sätter in siffror kan vi räkna ut det vi är ute efter; sannolikheten för att någon har influensa givet att de har symptom. Vi vet att sannolikheten för att den som har influensa har symptom, P(B|A), är hög. Säg 90%. Vi gissar också att sannolikheten för att en patient har symptom men inte influensa, P(B| ej A) är låg, 15%, och att 20% av populationen har influensa, P(A)=0,2. För att räkna ut hur stor andel av populationen som har symptom, P(B), kan vi använda dessa värden och sambandet
\(P(B)=P(B|A) \times P(A)+P(B|ej \, A) \times P(ej \,A)\)
vilket då vi stoppar in värden blir
\(P(B)=0,9 \times 0,2+0,15 \times 0,8=0,3\)
Då har vi alla värden som krävs för att använda Bayes sats och vi får:
\(P(A|B)=\frac{0,2}{0,3}\times 0,9=0,6\)
Det betyder att trots allt kommer vi, om vi utgår från symptomen då vi diagnostiserar influensan, bara få rätt i 60% av fallen. Kanske en besvikelse, men det enda man kan göra är att försöka förfina metoderna. Det är dock inte heller så lätt, och inte ens om man skulle förbättra diagnostiken så att P(B|A)=99% och P(B| ej A)=1% blir sannolikheten för rätt diagnos mer än 96,1%. Det går aldrig att bli fullständigt säker.

Resonemanget i Bayes sats är mycket användbart överallt där statistik och sannolikheter förekommer, vare sig det är i epidemiologiska modeller, på börsen, för att sortera bort skräppost i din e-mail, för att bevisa att de flesta medicinska studier är ej replikerbara eller för att visa att sannolikheten för din existens inte var oändligt liten (de två sista finns det länkar till i källorna, riktigt läsvärda). Bayes sats och dess olika varianter är bland de mest använda ekvationerna inom den tillämpade matematiken och användningsområdena tycks vara oändliga. Bara fantasin sätter gränser. Satsen är ett verktyg som aldrig slutar ge.
Källor som användes i den här artikeln
Crilly, Tony ; Matematik – vad som är värt att veta; Stockholm Lind & Co, 2012.
Matteboken; Betingad sannolikhet; https://www.matteboken.se/lektioner/mattespecialisering/sannolikhetsteori/betingad-sannolikhet,
Siegel, Ethan; The Odds Of Your Unlikely Existence Were Not Infinitely Small; Forbes ; 2017; https://www.forbes.com/sites/startswithabang/2017/05/16/the-odds-of-your-unlikely-existence-were-not-infinitely-small/?sh=3adbad3640b0,
Sumpter, David ; Tio ekvationer som styr världen; Stockholm Mondial, 2021.
Wikipedia; Why Most Published Research Findings Are False; 2022; https://en.wikipedia.org/wiki/Why_Most_Published_Research_Findings_Are_False,