Wahrscheinlichkeitsverteilungen

Die Verteilung oder Wahrscheinlichkeitsverteilung einer Zufallsvariablen sagt uns, wie wahrscheinlich es ist, dass die Zufallsvariable einen bestimmten Wert annimmt.

Die Verteilung einer diskreten Variablen

Nehmen wir eine diskrete Zufallsvariable, z. B. die Anzahl der Biere, die der örtliche Trunkenbold Bamboo an einem Tag trinkt. Indem wir Bamboula einen ganzen Monat lang folgen, erstellen wir die folgende Tabelle:

Tag Liter Bier Tag Liter Bier Tag Liter Bier
1. 5 11. 10 21. 4
2. 10 12. 5 22. 6
3. 4 13. 12 23. 10
4. 4 14. 10 24. 10
5. 5 15. 12 25. 4
6. 4 16. 12 26. 5
7. 0 17. 6 27. 10
8. 5 18. 10 28. 5
9. 4 19. 6 29. 0
10. 5 20. 10 30. 10

Wir sehen, dass Bambula sich noch vor dem Ende des Monats rettete, aber dann warf er ein Bier nach dem anderen. Und die Woche seit dem 11. Tag muss verrückt gewesen sein. Nennen wir diese diskrete Zufallsvariable X. Jetzt interessiert uns die Wahrscheinlichkeit, dass Bamba an einem beliebigen Tag des Monats genau x Bier trinkt.

Bevor wir die Wahrscheinlichkeit selbst berechnen, wollen wir ein einfaches Häufigkeitsdiagramm konstruieren. Wir suchen alle Pints Bier, die Bambula an einem bestimmten Tag getrunken hat, und tragen sie in das Häufigkeitsdiagramm ein. Zum Beispiel hat Bambula insgesamt neunmal zehn Bier getrunken, also haben wir für einen Wert von zehn Bier einen Balken mit dem Wert neun:

Das Diagramm zeigt, dass Bambula an drei Tagen im Monat sechs Pints getrunken hat.

Wie hoch ist die Wahrscheinlichkeit, dass Bambula an einem Tag zehn Pints getrunken hat? Formal würden wir das so formulieren: Wir würden die Wahrscheinlichkeitsfunktion P benennen und die Abfrage für zehn Pints wie folgt formulieren: P(X = 10) Die Frage lautet: Wie groß ist die Wahrscheinlichkeit, dass die Zufallsvariable X den Wert zehn annimmt?

Die Wahrscheinlichkeit ist gleich der relativen Häufigkeit des gegebenen Wertes. Konstruieren wir also noch ein Diagramm der relativen Häufigkeit:

Wir können nun sagen, dass P(X = 10) gleich 0,3 ist, also 30 %.

Statistische vs. mathematische Wahrscheinlichkeit

Nehmen wir ein klassisches Würfelspiel als Beispiel. Versuchen wir, es 600 Mal zu würfeln. Im Sinne der klassischen mathematischen Wahrscheinlichkeit haben wir die gleiche Chance, eine Eins, eine Zwei, ..., eine Sechs zu würfeln. Jede Seite des Würfels hat eine Wahrscheinlichkeit von $\frac16$. Rein theoretisch müsste also jede Seite genau 100 Mal würfeln, wenn wir den Würfel sechshundert Mal geworfen haben.

Natürlich ist es unwahrscheinlich, dass dies geschieht. In unserem Experiment können wir die folgenden Ergebnisse erzielen:

Die Zahl auf dem Würfel Anzahl der Würfe Relative Häufigkeit
1 105 0.175
2 103 0.171666
3 90 0.15
4 96 0.16
5 100 0.16666
6 106 0.17666

Wir sehen, dass die relative Häufigkeit und damit die Wahrscheinlichkeit, dass ein einzelner Punkt auf dem Würfel vorkommt, 0,175 beträgt, was 17,5 % entspricht. Dies liegt zwar nahe an der Wahrscheinlichkeit von $\frac16$, die 0,16666… beträgt, ist aber nicht ganz genau.

Das heißt aber nicht, dass eine der beiden Wahrscheinlichkeiten falsch ist. Die Konstruktion eines perfekt ausbalancierten Würfels ist keine leichte Aufgabe, genauso wie es schwierig sein kann, den tatsächlichen Test durchzuführen, bei dem der Würfel 600 Mal geworfen wird.

Die mathematische Wahrscheinlichkeitsrechnung funktioniert also unter idealen Bedingungen, bei denen wir unendlich oft würfeln würden. Je länger wir mit dem ideal ausgewogenen Würfel würfeln, desto mehr nähern sich die relativen Häufigkeiten der einzelnen Würfe der theoretischen mathematischen Wahrscheinlichkeit an.

Wir unterscheiden daher zwischen zwei Wahrscheinlichkeiten - der mathematischen Wahrscheinlichkeit, die auf idealisierten Bedingungen beruht, und der statistischen (auch empirischen) Wahrscheinlichkeit, die wir aus den relativen Häufigkeiten in unseren Daten berechnen.

Um die statistische Wahrscheinlichkeit zu berechnen, sollten wir einen ausreichend großen Datensatz haben. Zum Beispiel haben wir unseren Trunkenbold Bambul nur einen Monat lang verfolgt, aber es wäre viel besser gewesen, wenn wir ihn mindestens ein Jahr lang verfolgt hätten.

Die Verteilung der kontinuierlichen Variable

Bei einer kontinuierlichen Variablen geben wir die Wahrscheinlichkeit nicht an einem Punkt an, sondern immer nur in einem Intervall. Die Wahrscheinlichkeit ist gleich der Größe der Fläche unter der Kurve, also brauchen wir ein Integral, um sie zu berechnen. Wir können einen solchen Graphen für eine kontinuierliche Variable haben, z. B. für eine Messung einer Variation in cm:

Wahrscheinlichkeitsverteilung einer kontinuierlichen Variablen

Auf der Achse x stehen dann die Werte in cm, auf der Achse y die relativen Häufigkeiten. Angenommen, wir haben nur Werte im Intervall <−4, 4> gemessen. Die empirische Wahrscheinlichkeit, dass wir eine Abweichung in diesem Intervall messen, ist also 1, also 100%.

Wie hängt die Fläche damit zusammen? Wir sagen, dass die Größe des Bereichs $\int_{-4}^4 p(x)$, wobei p die Likelihood-Funktion ist, uns genau diese 100 % liefert. Wenn wir fragen würden, wie groß die empirische Wahrscheinlichkeit ist, dass der Wert im Intervall <0, 4> liegt, würden wir folgendes Bild erhalten:

Znázornění empirické pravděpodobnosti pro x \in \left<0, 4\right>

Der zuvor hervorgehobene Teil entsprach 100%, dieser entspricht 50%, da der Inhalt offensichtlich halb so groß ist. Genau genommen würden wir die statistische Wahrscheinlichkeit als ein Verhältnis von

$$ \frac{\int_{-4}^4 p(x)}{\int_{0}^4 p(x)}. $$

Das Gesetz der großen Zahlen

Im Zusammenhang mit dem vorherigen Abschnitt steht das bekannte Gesetz der großen Zahlen. Es besagt, dass bei einer großen Anzahl unabhängiger Versuche die statistische Wahrscheinlichkeit nahe bei den relativen Häufigkeiten liegt.

Wir können uns dies wiederum bei einem Münzwurf vorstellen. Wir könnten Kopf oder Zahl erhalten, jede Seite hat eine Wahrscheinlichkeit von $\frac12$, 50%. Wenn wir eine Münze viermal werfen, erhalten wir vielleicht dreimal Kopf und einmal Zahl. Die relativen Häufigkeiten sind also $\frac34$ und $\frac14$. Das ist ziemlich weit von $\frac12$ entfernt.

Wenn wir insgesamt zehnmal werfen, erhalten wir vielleicht siebenmal Kopf und dreimal Zahl. Das sind die Häufigkeiten von $\frac{7}{10}$ und $\frac{3}{10}$. Das ist immer noch weit entfernt von $\frac12$, aber diese Zahlen sind immer noch näher an der Hälfte als die vorherigen Häufigkeiten.

Wir könnten so weitermachen. Wenn wir tausendmal eine Münze werfen würden, bekämen wir vielleicht 520 Mal Kopf und 480 Mal Zahl. Das sind bereits die Häufigkeiten $\frac{13}{25}$ und $\frac{12}{25}$, die sehr nahe an der Hälfte liegen ( $\frac{13}{25} = 0,52$ zur Veranschaulichung).

Beachten Sie, dass die relativen Häufigkeiten zwar viel näher an der Hälfte liegen, die absoluten Häufigkeiten aber viel weiter von der "idealen" Häufigkeit entfernt sind. Wenn wir zehnmal würfeln würden, wäre die ideale absolute Frequenz für jede Seite 5. Das heißt, wir würden fünfmal Kopf und fünfmal Zahl erhalten. Da wir sieben Mal eine Jungfrau gewürfelt haben, ist das ein Unterschied von zwei Würfen: 7 − 5 = 2 Wir haben "zwei Mal anders" gewürfelt, als es in der idealen Situation der Fall gewesen wäre.

Wenn wir die Münze jedoch 1.000 Mal geworfen haben, kam 520 Mal Kopf heraus, was einen Unterschied von 20 Würfen zum Idealfall bedeutet, denn im Idealfall sollte jede Seite 500 Mal Kopf ergeben. Es scheint also, dass die Ergebnisse umso weiter auseinander liegen, je öfter wir werfen.

Aber das macht nichts, denn das Gesetz der großen Zahlen besagt nicht, dass sich die absoluten Häufigkeiten dem Ideal annähern, sondern die relativen Häufigkeiten. Und sie nähern sich immer mehr an. Bei den absoluten Frequenzen mögen sie sich also entfernen, aber bei den relativen werden sie sich annähern.