Grundlagen der Statistik

Die Statistik ist eine Wissenschaft, die versucht, reale Daten zu untersuchen und die Wahrscheinlichkeitstheorie zu nutzen, um diese Daten zu beschreiben.

Der eigentliche Statistikteil

Dies ist ein alter und veralteter Artikel, Statistik hat bereits einen eigenen Abschnitt mit dem einführenden Artikel Grundbegriffe der Statistik.

Grundlegende Konzepte

Es gibt mehrere grundlegende Konzepte, die in der Statistik verwendet werden und die wir hier beschreiben werden.

Zunächst einmal eine statistische Menge, d. h. eine endliche Menge von Daten, die wir untersuchen wollen. Die Daten können allgemein sein, sie können im Grunde alles sein. Wenn Sie das Durchschnittsgehalt in der Tschechischen Republik untersuchen wollen, ist die statistische Menge die Menge aller Personen in der Tschechischen Republik. Die Anzahl der Elemente in der statistischen Menge wird als die Größe der Menge bezeichnet. Die Größe der von uns definierten statistischen Menge würde also der Bevölkerung der Tschechischen Republik entsprechen.

Es gibt auch den Begriff der statistischen Einheit, die ein bestimmtes Element einer statistischen Grundgesamtheit ist. In unserem Fall wäre die statistische Einheit eine bestimmte Person.

Schließlich gibt es noch das statistische Merkmal, also das, was wir messen wollen. In unserem Beispiel wäre das statistische Merkmal das Gehalt. Ein statistisches Merkmal kann entweder qualitativ oder quantitativ sein. Ein quantitatives (Quantität = Menge, Zahl) Merkmal ist ein Merkmal, das in Zahlen ausgedrückt werden kann (z. B. nur das Gehalt, die Größe, die Anzahl der Kinder, ...), während ein qualitatives Merkmal ein Merkmal ist, das in Worten ausgedrückt werden kann (Farbe, ja/nein, Beruf, ...).

Häufigkeiten

Häufigkeiten können entweder relativ oder absolut sein und geben an, wie viele Werte eines bestimmten Merkmals in der statistischen Grundgesamtheit vorkommen - entweder absolut oder relativ zur Gesamtzahl der Elemente in der Grundgesamtheit.

Wichtig ist, dass wir bei der Berechnung der Häufigkeit das statistische Merkmal anwenden müssen, denn wenn wir die absolute Häufigkeit einer statistischen Einheit berechnen wollen, müssen wir zwangsläufig entweder Null oder Eins erhalten, da die statistische Menge eine Menge ist und die Menge selbst nicht zulässt, dass es mehr als ein Element gibt.

Die absolute Häufigkeit des Wertes des statistischen Merkmals z gibt also an, wie oft das Merkmal z in der statistischen Menge S vorkommt. Beispiel: Wir haben eine Klasse mit zehn Schülern. Jeder Schüler hat auf seinem Zeugnis eine Note in Mathematik bekommen, von eins bis fünf. Die Noten sind in der folgenden Tabelle aufgeführt:

$$\begin{array}{c|c|c|c|c|c|c|c|c|c} 1&2&3&4&5&6&7&8&9&10\\ \hline 2&5&3&2&1&1&2&4&1&3 \end{array}$$

Anmerkung: Die statistische Menge für dieses Beispiel wären die zehn Klassenkameraden, etwa so

$$S=\left\{\mbox{ Ondra }, \mbox{ Veronika }, \mbox{ Martin }, \ldots\right\}$$

In der Tabelle haben wir der Einfachheit halber in der ersten Zeile eine numerische Kennung für den Schüler, so dass die statistischen Einheiten, d. h. die Elemente der statistischen Menge, in der ersten Zeile stehen. In der zweiten Zeile stehen die Werte des statistischen Merkmals, d. h. die Werte der "Mathe-Abschlussnote" des betreffenden Schülers.

So wäre die absolute Häufigkeit des Merkmals (die Note auf dem Zeugnis) z = 3 gleich zwei, wobei nur zwei Schüler eine Drei auf ihrem Zeugnis bekommen haben (das sind die "Schüler" 3 und 10). Die absolute Häufigkeit der Eigenschaft z = 1 wäre drei ("Schüler" 5, 6 und 9).

Die relative Häufigkeit gibt an, wie viel Prozent der Merkmalswerte in der statistischen Menge gleich z sind. Wir berechnen die relative Häufigkeit des Merkmals z wie folgt:

$$r=\frac{z_a}{|S|},$$

Dabei ist za die absolute Häufigkeit des Merkmals z und |S| ist der Bereich der statistischen Menge, d.h. die Anzahl der Elemente. Die relative Häufigkeit des Merkmals drei wäre also:

$$r_3=\frac{2}{10}=\frac15.$$

Der Umfang unserer Grundgesamtheit ist zehn, weil wir zehn Schüler in unserer Klasse haben. Die prozentuale Schreibweise erhalten wir durch Multiplikation mit 100, also 20%. Die relative Häufigkeit einer Eins wäre

$$r_1=\frac{3}{10}.$$

Das arithmetische Mittel

Das arithmetische Mittel, oder oft auch nur der Mittelwert, ist der Durchschnitt aller Werte einer statistischen Grundgesamtheit. Mit dem Wort Wert ist der Wert nach Anwendung des statistischen Vorzeichens gemeint. Der Durchschnitt wird berechnet, indem alle Werte addiert und durch die Anzahl der Werte in der Grundgesamtheit geteilt werden. Also ungefähr so:

$$p_a=\frac{x_1+x_2+x_3+\ldots+x_n}{n}=\frac1n\sum_{i=1}^nx_i$$

Ich habe auch den Ausdruck mit Summe hinzugefügt, falls Sie ihn besser lesen können. Aber der vorherige Ausdruck mit dem Bruch ist ausreichend. Die Werte von x repräsentieren alle Werte in unserer Datei.

Beispiel: Wir nehmen die Daten aus der vorherigen Tabelle und berechnen die Durchschnittsnote pro Schüler.

$$p_a=\frac{2+5+3+2+1+1+2+4+1+3}{10}=\frac{24}{10}=2{,}4$$

In unserer Klasse liegt die Durchschnittsnote bei 2,4. Wie Sie sehen, kann das arithmetische Mittel einen Wert liefern, der eigentlich gar nicht gültig ist - man kann nicht eine Note von 2,4 vergeben.

Das arithmetische Mittel ist auch schlecht zu verwenden, wenn ein Teil der Daten einen grundlegend anderen Wert hat als der Rest der Daten. Wenn wir also eine Datei mit den Werten 1, 3, 2, 5, 4, 2, 75 haben, ergibt sich das arithmetische Mittel

$$p_a=\frac{1+3+2+5+4+2+75}{7}=13{,}14.$$

Wir können sehen, dass der resultierende Wert weit von allen Werten in der Datei entfernt ist. Er ist um ein Vielfaches größer als die ersten sechs Zahlen und um ein Vielfaches kleiner als der letzte Wert. Dieses Problem kann z. B. mit dem Median gelöst werden, siehe unten. Zumindest wissen Sie jetzt, warum zwei Drittel der Personen nicht das Durchschnittsgehalt erreichen - es gibt eine kleine Gruppe von Personen, die viel höhere Gehälter haben, die das arithmetische Mittel erhöhen.

Das geometrische Mittel

Das geometrische Mittel wird auf ähnliche Weise berechnet wie das arithmetische Mittel, mit dem Unterschied, dass anstelle der Addition die Multiplikation und anstelle der Division die Quadratwurzel verwendet wird. Der geometrische Mittelwert wird also wie folgt berechnet:

$$p_g=\sqrt[n]{x_1\cdot x_2\cdot x_3\cdot\ldots\cdot x_n}=\sqrt[n]{\prod_{i=1}^n x_i}$$

Das geometrische Mittel kann als Indikator für das Wachstum verwendet werden. Angenommen, der Preis eines Produkts ist in einem Jahr um 10 %, im nächsten Jahr um 15 % und im darauf folgenden Jahr um 5 % gestiegen. Der ursprüngliche Preis von c lag also bei

$$1{,}1\cdot1{,}15\cdot1{,}05c=1{,}32825c.$$

Das geometrische Mittel dieser Koeffizienten wäre:

$$p_g=\sqrt[3]{1{,}1\cdot1{,}15\cdot1{,}05}=1{,}0992419$$

Was bedeutet das? Wenn der Preis jedes Mal nur um 1,0992419 steigen würde, läge der Endpreis auf demselben Wert:

$$1{,}0992419^3=1{,}32825$$

Modus und Median

Der Modus eines Zeichens ist der Wert, der am häufigsten vorkommt, bezeichnet mit Mod(x). Wenn wir auf das Beispiel der Noten zurückkommen, dann sind der Modus die Werte 1 und 2, weil sie am häufigsten vorkommen - beide haben eine absolute Häufigkeit von 3.

Der Median ist dann der mittlere Wert, der mit Med(x) bezeichnet wird. Wenn wir die Werte in einer nicht abnehmenden Reihenfolge anordnen können

$$x_1\le x_2\le x_3\le\ldots\le x_n,$$

anordnen können, dann stellt der Median den Wert dar, der in der Mitte dieser Folge liegt. Der Medianwert unterscheidet sich dann, wenn die Folge eine gerade oder ungerade Anzahl von Elementen hat. Bei einer ungeraden Zahl ist der Median das Element an der Position

$$\mbox{Med}(x)=x_{\frac{n+1}{2}}$$

Wenn die Folge eine gerade Anzahl von Elementen hat, dann hat sie kein Element, das vollständig in der Mitte liegt (Beispiel: die Folge 1, 2, 3, 4 hat einfach kein mittleres Element). Daher nehmen wir den Durchschnitt der beiden mittleren Werte (den Durchschnitt von 2 und 3). Also die Formel für gerade Zahlen:

$$\mbox{Med}(x)=\frac{x_{n/2}+x_{(n+2)/2}}{2}$$

Kehren wir zu dem Beispiel zurück, das den Missbrauch des arithmetischen Mittels illustriert. Wir hatten eine Menge von Werten s=1, 3, 2, 5, 4, 2, 75. Der Modus wäre gleich zwei, denn das ist die einzige Zahl, die sich wiederholt. Um den Median zu berechnen, bringen wir die Zahlen in eine Reihenfolge:

$$a_i=1{,}2,2{,}3,4{,}5,75.$$

Die Folge hat sieben Elemente, das Umgebungselement ist also a4 und es ist gleich drei.