dinsdag 5 juli 2016

'Angstgegner' en statistiek: Duitsland - Italië


‘Angstgegner’ en statistiek: Duitsland - Italië

In de publiciteit voorafgaand aan de EK2016 voetbalwedstrijd Italië – Duitsland werd breed uitgemeten dat Duitsland tijdens een Europees of wereldkampioenschap nog nooit van Italië gewonnen had. Verslaggever Tom Egbers maakte een opmerkelijke analyse: statistisch wordt het dus steeds waarschijnlijker dat Duitsland (een keer) wint. Nee. Als je met een dobbelsteen bij drie opeenvolgende worpen geen 6 gegooid hebt, wordt de kans op een 6 bij de volgende worp niet groter. Die is bij elke worp 1/6, onafhankelijk van de voorgeschiedenis.

Toch kan, ook in de statistiek, de voorgeschiedenis van belang zijn bij het zo goed mogelijk voorspellen van ‘kansen’. In het bovenstaande voorbeeld heeft die voorgeschiedenis zoveel aspecten dat het onmogelijk is statistiek toe te passen om een voorspelling te doen. Het waren simpelweg andere teams die in het verleden tegen elkaar speelden. Andere trainers en coaches. Maar laten we aannemen dat deze aspecten van de voorgeschiedenis uitmiddelen en dat alleen het feit of het wel of niet een E(W)K wedstrijd betreft relevante voorkennis is.

Om te illustreren hoe voorkennis wel degelijk van belang kan zijn bij het voorspellen van de meest waarschijnlijke uitkomst van een gebeurtenis vereenvoudigen we het voorbeeld. We bekijken de resultaten van Italië – Duitsland gedurende de afgelopen jaren, zoveel als nodig om een redelijk aantal te hebben om mee te werken. Sinds 1923 speelden I en D 21 keer tegen elkaar, de meest recente EK-wedstrijd niet meegeteld. I won 12 keer en D won 5 keer. Laten we, voor het gemak gelijkspel van ons voorbeeld uitsluiten en de 4 gelijke spelen fifty-fifty als overwinningen aan D en I toekennen. Van de 21 wedstrijden won I er dan 14 en D won er 7. Vier, 4, van deze wedstrijden vonden plaats in het kader van een E(of W)K (ik heb deze wijsheid van het Web, ik hoop dat de informatie klopt), waarvan er een gelijk eindigde, die we half aan ieder toeschrijven. We krijgen dan het volgende beeld:

21 wedstrijden: I wint 14 keer, D wint 7 keer.

Hiervan 4 wedstrijden E(W)K: I wint 3,5 keer, D wint 0,5 keer.

Wat is nu de kans dat D een E(W)K wedstrijd tegen I wint? M.a.w. wat is de kans dat D wint onder voorwaarde dat het een E(W)K wedstrijd betreft?

Die kans is gelijk aan 0,5/4 zou je zeggen: 13%. (Probleem is dat we met kleine getallen werken, stel D had 0 van de vier wedstrijden gewonnen, dan houdt het op. 0 is 0 en blijft 0. Jammer voor D. In dit geval zou ik een argument verzinnen om van de 0 af te komen door een beroep te doen op de statistiek van kleine getallen (Poisson statistiek). Als de kans om te winnen 50/50 is (een ruwe maar niet onredelijke aanname bij gebrek aan beter) is de kans dat er van 4 wedstrijden 0 gewonnen worden 14%. Zo kan ik ook van de 0 afkomen.)

Toch is 13% (of 14%) ook niet het meest correcte antwoord. Voor het meest correcte antwoord moeten we terug naar dominee Bayes, terug naar de 18e eeuw. Hij stelde, in woorden: de kans dat D wint onder voorwaarde dat het om een E(W)K wedstrijd gaat, maal de kans dat we met een E(W)K wedstrijd te maken hebben is gelijk aan de kans dat we te maken hebben met een E(W)K wedstrijd onder voorwaarde dat D die wint, maal de kans dat D wint.

We kunnen dit handiger in een formule dan in woorden vatten.

‘D wint’ geven we aan met symbool A.

‘Het is een E(W)K wedstrijd’ geven we aan met symbool B.

P(A) is de kans op A en P(A|B) is de kans op A onder voorwaarde B. P(B) en P(B|A) zijn hiermee ook gedefinieerd. Volgens Bayes geldt nu:

P(A|B)*P(B)=P(B|A)*P(A). Zeg dit in woorden en het is heel voor de hand liggend. Dit schrijven we als:

P(A|B)=P(B|A)*P(A)/P(B)

De kans dat D wint van I op een E(W)K  is dus

P(A|B)= (0.5/4 * 7/21) / (4/21)= 22%

Interessant is dat deze kans groter is dan volgt uit het bekijken van alleen de E(W)K wedstrijden tussen beide teams uit het verleden.

Helemaal niet zo hopeloos dus! Waarvan acte...

 

Geen opmerkingen:

Een reactie posten