‘Angstgegner’
en statistiek: Duitsland - Italië
In de
publiciteit voorafgaand aan de EK2016 voetbalwedstrijd Italië – Duitsland werd
breed uitgemeten dat Duitsland tijdens een Europees of wereldkampioenschap nog
nooit van Italië gewonnen had. Verslaggever Tom Egbers maakte een opmerkelijke
analyse: statistisch wordt het dus steeds waarschijnlijker dat Duitsland (een
keer) wint. Nee. Als je met een dobbelsteen bij drie opeenvolgende worpen geen
6 gegooid hebt, wordt de kans op een 6 bij de volgende worp niet groter. Die is
bij elke worp 1/6, onafhankelijk van de voorgeschiedenis.
Toch kan,
ook in de statistiek, de voorgeschiedenis van belang zijn bij het zo goed
mogelijk voorspellen van ‘kansen’. In het bovenstaande voorbeeld heeft die
voorgeschiedenis zoveel aspecten dat het onmogelijk is statistiek toe te passen
om een voorspelling te doen. Het waren simpelweg andere teams die in het
verleden tegen elkaar speelden. Andere trainers en coaches. Maar laten we
aannemen dat deze aspecten van de voorgeschiedenis uitmiddelen en dat alleen
het feit of het wel of niet een E(W)K wedstrijd betreft relevante voorkennis
is.
Om te
illustreren hoe voorkennis wel degelijk van belang kan zijn bij het voorspellen
van de meest waarschijnlijke uitkomst van een gebeurtenis vereenvoudigen we het
voorbeeld. We bekijken de resultaten van Italië – Duitsland gedurende de
afgelopen jaren, zoveel als nodig om een redelijk aantal te hebben om mee te
werken. Sinds 1923 speelden I en D 21 keer tegen elkaar, de meest recente EK-wedstrijd
niet meegeteld. I won 12 keer en D won 5 keer. Laten we, voor het gemak
gelijkspel van ons voorbeeld uitsluiten en de 4 gelijke spelen fifty-fifty als
overwinningen aan D en I toekennen. Van de 21 wedstrijden won I er dan 14 en D
won er 7. Vier, 4, van deze wedstrijden vonden plaats in het kader van een E(of
W)K (ik heb deze wijsheid van het Web, ik hoop dat de informatie klopt),
waarvan er een gelijk eindigde, die we half aan ieder toeschrijven. We krijgen
dan het volgende beeld:
21
wedstrijden: I wint 14 keer, D wint 7 keer.
Hiervan 4
wedstrijden E(W)K: I wint 3,5 keer, D wint 0,5 keer.
Wat is nu de
kans dat D een E(W)K wedstrijd tegen I wint? M.a.w. wat is de kans dat D wint
onder voorwaarde dat het een E(W)K wedstrijd betreft?
Die kans is
gelijk aan 0,5/4 zou je zeggen: 13%. (Probleem is dat we met kleine getallen werken,
stel D had 0 van de vier wedstrijden gewonnen, dan houdt het op. 0 is 0 en
blijft 0. Jammer voor D. In dit geval zou ik een argument verzinnen om van de 0
af te komen door een beroep te doen op de statistiek van kleine getallen
(Poisson statistiek). Als de kans om te winnen 50/50 is (een ruwe maar niet
onredelijke aanname bij gebrek aan beter) is de kans dat er van 4 wedstrijden 0
gewonnen worden 14%. Zo kan ik ook van de 0 afkomen.)
Toch is 13%
(of 14%) ook niet het meest correcte antwoord. Voor het meest correcte antwoord
moeten we terug naar dominee Bayes, terug naar de 18e eeuw. Hij
stelde, in woorden: de kans dat D wint onder voorwaarde dat het om een E(W)K
wedstrijd gaat, maal de kans dat we met een E(W)K wedstrijd te maken hebben is
gelijk aan de kans dat we te maken hebben met een E(W)K wedstrijd onder
voorwaarde dat D die wint, maal de kans dat D wint.
We kunnen
dit handiger in een formule dan in woorden vatten.
‘D wint’
geven we aan met symbool A.
‘Het is een
E(W)K wedstrijd’ geven we aan met symbool B.
P(A) is de
kans op A en P(A|B) is de kans op A onder voorwaarde B. P(B) en P(B|A) zijn
hiermee ook gedefinieerd. Volgens Bayes geldt nu:
P(A|B)*P(B)=P(B|A)*P(A). Zeg dit in woorden en het is heel
voor de hand liggend. Dit schrijven we als:
P(A|B)=P(B|A)*P(A)/P(B)
De kans dat
D wint van I op een E(W)K is dus
P(A|B)= (0.5/4
* 7/21) / (4/21)= 22%
Interessant
is dat deze kans groter is dan volgt uit het bekijken van alleen de E(W)K wedstrijden
tussen beide teams uit het verleden.
Helemaal
niet zo hopeloos dus! Waarvan acte...