Grundlegende Konzepte der Statistik

Statistik ist die Wissenschaft, die Daten untersucht, verarbeitet und auswertet.

Bevölkerung

Das Ziel der Statistik ist es, ein Experiment durchzuführen, um etwas Interessantes über eine bestimmte Population herauszufinden. Mit Grundgesamtheit meinen wir im Allgemeinen eine beliebige Menge von Elementen, die wir gerade untersuchen wollen. Wenn wir das Durchschnittsalter der Bevölkerung der Tschechischen Republik herausfinden wollen, besteht unsere Population aus allen Einwohnern der Tschechischen Republik.

Wenn wir aber den durchschnittlichen Benzinverbrauch von Autos pro hundert Kilometer ermitteln wollen, ist unsere Grundgesamtheit die Menge aller Autos (in einem bestimmten Gebiet).

Auswahl, Stichprobe

Oft ist es nicht möglich, mit allen Elementen der Grundgesamtheit zu arbeiten. Nehmen wir an, wir wollen herausfinden, was die Menschen in der Tschechischen Republik über das obligatorische Mathematikstudium denken. Um wirklich herauszufinden, was die Menschen über das obligatorische Abitur in Mathematik denken, müssten wir von Haus zu Haus, von Brücke zu Brücke gehen und jeden Bürger fragen, was er über das obligatorische Abitur in Mathematik denkt. Das ist in der Praxis nicht möglich. Einige Gründe:

  • Es ist zu teuer. Alle rund zehneinhalb Millionen Einwohner zu befragen, ist keine billige Angelegenheit. Die erste Direktwahl des Präsidenten kostete zum Beispiel 625 Millionen Kronen.
  • Es dauert zu lange. Die Wahl hat sicherlich mehrere Monate gedauert - wenn man in einer Woche ein statistisches Ergebnis braucht, ist das zu lang.
  • Nicht jeder wird antworten wollen. Einige werden Ihre Fragen aus Prinzip nicht beantworten wollen. Wenn unsere Bevölkerung eine Art Maschine ist, kann sie auch wieder ausfallen. Wenn Sie den Kilometerstand von Autos messen würden, könnte der Tachometer kaputt gehen oder jemand könnte ihn absichtlich zu hoch ablesen.
  • Das Experiment könnte zu gefährlich sein. Niemand wird wahrscheinlich einen Herzinfarkt bekommen, wenn er nach dem obligatorischen Abitur fragt, aber wir können ein anderes Beispiel nehmen - die Erprobung eines neuen Medikaments namens "all-over". Was würde passieren, wenn wir All-over an der gesamten Bevölkerung der Tschechischen Republik testen würden und sich während des Tests herausstellen würde, dass 20 % der getesteten Personen sofort heftigen Durchfall bekämen? Nun, es ist wahrscheinlich besser, wenn wir das Medikament zuerst an einer kleineren Gruppe von Menschen testen, oder?

Um diese Nachteile zu vermeiden, wählen wir nur eine Probe (oder eine Stichprobe) aus der Grundgesamtheit aus. Wenn wir eine Grundgesamtheit P haben, dann ist die Stichprobe V eine beliebige Teilmenge von P, d. h. V ⊆ P. Wir führen dann unser Experiment nur an dieser Stichprobe V durch und verallgemeinern die Ergebnisse auf die gesamte Grundgesamtheit. Natürlich werden diese Ergebnisse ungenau sein - wie ungenau sie sind, hängt hauptsächlich davon ab, wie groß die Stichprobe V ist und welche Methode wir für die Auswahl der Elemente in V gewählt haben.

Typische Fehler können also sein:

  • Zu wenige Elemente in V. Wenn Sie die ersten sieben Personen, die Sie sehen, nach der Pflichtimmatrikulation fragen, können Sie keine aussagekräftigen Ergebnisse erhalten.
  • Unrepräsentative Auswahl von Elementen aus der Grundgesamtheit. Wenn Sie tausend Absolventen des Fachbereichs Mathematik und Physik nach der Mathe-Pflichtprüfung fragen, werden Sie andere Antworten erhalten als wenn Sie tausend Gymnasiasten im dritten Jahr befragen.

Variablen

Während des Experiments untersuchen wir die Elemente der Stichprobe. Die von uns beobachteten Daten werden als Variablen bezeichnet, und die Werte der Variablen werden als Varianzen bezeichnet. Es gibt verschiedene Grundtypen von Variablen:

  • Qualitative Variable: Diese Variable ist in der Regel nicht messbar, es handelt sich um eine Art verbale Bewertung. Ein typisches Beispiel wäre eine Abfrage zur Nationalität. Varianten einer solchen Variable wären z. B. die Werte "tschechische Nationalität", "slowakische Nationalität" usw. Es ist nicht sinnvoll, die tschechische und die slowakische Staatsangehörigkeit zu messen oder zu vergleichen. Wir können die Anzahl der Tschechen und Slowaken vergleichen, aber wir können nicht die Nationalität selbst vergleichen.

In diese Kategorie fällt auch die Frage nach der Pflichtimmatrikulation, bei der die erwarteten Antworten "ja, ich möchte eine Pflichtimmatrikulation in Mathematik" oder "nein, ich möchte keine Pflichtimmatrikulation in Mathematik" lauten, die Varianten dieser Variablen sind. Auch hier können wir die Anzahl der Antworten vergleichen, aber es ist nicht sinnvoll, das tatsächliche "Ja" und "Nein" zu vergleichen.

  • Quantitative Variablen: Wir werden diese Variable messen. Es handelt sich also um Längen, Gewichte, Zeiten, Zählungen und so weiter. Wir unterteilen quantitative Variablen weiter in diskrete und kontinuierliche Variablen:

Diskrete Variable

Eine diskrete Variable enthält eine endliche Anzahl von Varianten oder enthält eine abzählbare Anzahl von Varianten (siehe unten). Häufig handelt es sich dabei um ganze Zahlen. Zum Beispiel die Anzahl der Schüler in einem Klassenzimmer - in einem normalen Klassenzimmer gibt es etwa zwischen fünfzehn und vierzig Kinder.

Eine diskrete Variable zeichnet sich dadurch aus, dass man immer sagen kann, was die nächste und was die vorherige Variante ist. Wenn es in der Klasse 3B 28 Kinder gibt, ist die vorherige Variante 27 Kinder und die nächste Variante 29 Kinder. Bei einer qualitativen Variable ist dies in der Regel nicht möglich - was ist die nächste Variante nach der tschechischen Staatsangehörigkeit?

Eine diskrete Variable kann unendlich sein, aber sie muss abzählbar sein, d. h. wir müssen immer noch in der Lage sein, die vorherige und die nächste Variante zu bestimmen. Wir könnten zum Beispiel die Variable "Entfernung zweier Objekte auf den nächsten Kilometer genau" einführen. Wenn wir messen, dass die Entfernung zweier Objekte, z. B. eines Autos und einer Scheune, 12 Kilometer beträgt, dann ist die nächste und die vorherige Variante wiederum 13 bzw. 11 Kilometer. Doch die Entfernung ist wahrscheinlich in keiner Weise begrenzt. Wenn wir zwei Objekte haben, die 1.500.000 Kilometer voneinander entfernt sind, können wir sicherlich auch Objekte finden, die 1.500.001 Kilometer voneinander entfernt sind.

Die Variable würde auch dann diskret bleiben, wenn wir die Genauigkeit auf Zehntelkilometer (d. h. Hunderte von Metern) ändern würden. Dann könnten wir eine Entfernung von 15,7 km messen und der nächste und der vorherige Wert wären 15,8 und 15,6.

Wenn es keine vorherige oder nachfolgende Veränderung gibt, widerspricht das nicht der Tatsache, dass die Variable diskret ist. Bei einer Entfernung von null Kilometern beispielsweise gibt es keine vorherige Veränderung - wir definieren keine Entfernung von minus einem Kilometer. Dennoch ist die Entfernung auf den nächsten Kilometer eine diskrete Variable.

Kontinuierliche Variable

Eine kontinuierliche Variable enthält immer eine unendliche Anzahl von Variationen. Bei den Werten handelt es sich in der Regel um reelle Zahlen, also z. B. um eine Entfernung (ohne den Präzisionszusatz). Bei kontinuierlichen Variablen können wir die vorherige oder nächste Variante nicht bestimmen. Wenn wir messen, dass die Entfernung von etwas 3,58745 Meter beträgt, können wir nicht die Zahl finden, die genau nach dieser Zahl liegt.

In der Menge der reellen Zahlen gibt es irrationale Zahlen mit unendlicher dezimaler Erweiterung. Natürlich haben wir keine Instrumente, mit denen wir eine Entfernung bis zu einer solchen Entfernung messen können, so dass in Wirklichkeit jede solche Variable gleichermaßen diskret ist - eben weil jedes Instrument eine gewisse Präzision aufweist. Wenn man etwas mit einem Lineal misst, hat man dort eine Genauigkeit von einem Millimeter. Man kann also messen, dass ein Buch 167 mm oder 168 mm breit ist, aber nichts dazwischen; es sei denn natürlich, man rät irgendwie usw.

Wenn Sie ein wissenschaftlicheres Instrument haben, können Sie auf einen Mikrometer genau sein. Selbst dann reicht das wahrscheinlich nicht aus, um ein Objekt ganz genau zu messen.

Trotz alledem sprechen wir üblicherweise über Entfernung oder Masse als kontinuierliche Variablen. In der Praxis ist eine solche Vereinfachung notwendig und spielt normalerweise keine Rolle.

Zufallsvariable

Eine Zufallsvariable ist eine diskrete oder kontinuierliche Variable, deren resultierender Wert vor der Durchführung des Experiments nicht bestimmt werden kann. So kann eine Zufallsvariable das Ergebnis eines Wurfs eines sechsseitigen Würfels sein. Bevor wir diesen Würfel werfen, können wir nicht wissen, welche Zahl gewürfelt wird.

Wir können vielleicht vorhersagen, dass einige Werte wahrscheinlicher sind als andere, das ist in Ordnung, wir können nur nicht absolut sicher sein, dass wir einen bestimmten Wert erhalten werden. Wenn wir zum Beispiel einen Einwohner der Tschechischen Republik zufällig ziehen und ihn fragen, in welcher Stadt er wohnt, wird er mit größerer Wahrscheinlichkeit in Prag wohnen als irgendwo in Kravaře. Kurz gesagt, es leben mehr Menschen in Prag.

Hätten wir einen Würfel mit sechs Punkten auf fünf Seiten und zwei Punkten auf der verbleibenden sechsten Seite, wäre es viel wahrscheinlicher, dass wir beim Wurf sechs Punkte erhalten würden. Aber es ist immer noch eine Zufallsvariable, denn es ist nicht sicher, dass sechs Punkte fallen werden.

Wenn wir diesen Würfel so verändern würden, dass auf allen sechs Seiten sechs Punkte sind, wäre der Würfelwurf keine Zufallsvariable, da wir immer sechs Punkte erhalten würden.