Streuung

Die Varianz gibt an, wie groß die Streuung der Werte in unserem statistischen Ensemble ist. Die Varianz wird manchmal auch als Streuung bezeichnet.

Was ist Varianz?

Schauen Sie sich die folgende Tabelle an, die die Abschlusszeugnisnoten von zehn ausgewählten Schülern der achten Klasse zeigt. Wir werden uns für zwei Fächer interessieren, nämlich Mathematik und Geschichte.

Name Mathematik Geschichte
Thomas 2 4
Martin 1 1
Jiri 2 1
Miroslav 2 1
Jana 2 3
Lenka 1 4
Ondrej 2 5
Lukas 2 1
Petra 2 2
Johannes 3 4

Wir können sehen, dass die meisten Schüler in Mathematik eine Zwei haben, manchmal hat jemand eine Eins oder eine Drei. In der Geschichtsspalte hingegen herrscht ein ziemliches Chaos - die Noten reichen von A bis F, und keine einzige Note dominiert deutlich. Die Noten in Geschichte sind also stärker gestreut als die Noten in Mathe.

Wenn wir den Notendurchschnitt in Mathematik berechnen, ergibt sich ein Wert von 1,9. Wir können sehen, dass die meisten Elemente ziemlich nahe an diesem Wert liegen. In Geschichte hingegen ergibt sich ein Durchschnitt von 2,6, und die meisten Noten bewegen sich nicht in der Nähe dieses Wertes.

Wie lässt sich diese Abweichung quantifizieren?

Wie berechnet man die Varianz?

Wandeln wir das vorherige Diagramm in eine etwas andere Form um und zeigen wir nur die Noten für Geschichte.

Resultierende Noten in Geschichte

Auf der Achse x haben wir wieder Schüler (diesmal ohne Namen, also nehmen wir an, dass 1 = Thomas, 2 = Martin usw.). Auf der Achse y haben wir die resultierenden Noten. Die Linie y = 2,6 stellt den Durchschnittswert dar.

Dann berechnen wir die Varianz als den Durchschnitt der quadrierten Abstände vom Mittelwert. Das klingt geheimnisvoll, ist aber ganz einfach. Wir können uns die quadrierten x als den Inhalt eines Quadrats mit der Seitenlänge x vorstellen. Wir legen also in unserem Diagramm Quadrate an, deren Seitenlänge dem Abstand des Wertes vom Mittelwert entspricht:

Diagramm mit Abständen zum Quadrat

Vier solcher Quadrate sind im Diagramm zu sehen; sie würden nicht alle passen. Wir können sehen, dass Jana recht nahe am Durchmesser liegt, ihr Quadrat ist also klein. Andrew hingegen ist weit vom Mittelwert entfernt, daher ist sein Quadrat groß. Wenn wir alle Quadrate konstruieren und den durchschnittlichen Inhalt dieser Quadrate berechnen würden, erhielten wir die Varianz.

Wenn wir eine Menge von Werten X = [x1, …, xN] haben, wobei $\overline{x}$ der Durchschnittswert ist, dann wird die Varianz, nennen wir sie $\mbox{Var}$, wie folgt berechnet:

$$ \mbox{Var}(X) = \frac1N \left((x_1-\overline{x})^2 + (x_2-\overline{x})^2 + … + (x_N-\overline{x})^2 \right) $$

Alternativ können Sie auch die Summe wie folgt verwenden:

$$ \mbox{Var}(X) = \frac1N\sum_{i=1}^N (x_i-\overline{x})^2 $$

Warum $(x_1-\overline{x})^2$? Der Ausdruck $x_1-\overline{x}$ allein würde den Abstand des Punktes x1 vom Mittelwert ergeben. Genauer gesagt sollten wir $|x_1-\overline{x}|$ (absoluter Wert) schreiben, wenn der Wert von x1 kleiner ist als der Wert des Mittelwerts. Da wir den Inhalt des Quadrats wissen wollen, multiplizieren wir diesen Wert mit dem Quadrat.

Die Varianz unseres Datensatzes wäre somit:

$$ \begin{align*} Var(\mbox{ Geschichte }) = \frac{1}{10}((4-2{,}6)^2+(1-2{,}6)^2+(1-2{,}6)^2+\\(1-2{,}6)^2+(3-2{,}6)^2+(4-2{,}6)^2+\\(5-2{,}6)^2+(1-2{,}6)^2+(2-2{,}6)^2+\\(4-2{,}6)^2)=\frac{1}{10}\cdot 22{,}4 = 2{,}24 \end{align*} $$

Die Varianz (Streuung) ist 2,26. Die Varianz der Werte mit den mathematischen Ergebnissen würde wie folgt aussehen:

$$ \begin{align*} Var(\mbox{ Mathematik }) = \frac{1}{10}((2-1{,}9)^2+(1-1{,}9)^2+(2-1{,}9)^2+\\(2-1{,}9)^2+(2-1{,}9)^2+(1-1{,}9)^2+\\(2-1{,}9)^2+(2-1{,}9)^2+(2-1{,}9)^2+\\(3-1{,}9)^2)=\frac{1}{10}\cdot2{,}9 = 0{,}29 \end{align*} $$

Die Varianz (Streuung) ist 0,29. Wir sehen, dass die Varianz für diesen Satz erwartungsgemäß viel kleiner ist.

Wie berechnet man die Varianz in Excel?

Sowohl im tschechischen als auch im englischen Excel wird dazu die Funktion var oder eine Variante davon verwendet. Die Funktion var.p zum Beispiel nimmt eine Auswahl von Zellen als Parameter an.

Referenzen und Ressourcen