Ob du für einen Statistikkurs an der Uni oder dein Abitur lernst oder etwas zusätzliche Unterstützung für deine Kursarbeit brauchst, diese Praxisaufgaben helfen dir weiter. Statistische Analysemethoden stehen oft in direktem Zusammenhang mit Datenanalyse. Man darf aber nicht die Arithmetik außer Acht lassen, die ihnen zugrunde liegt.

Softwarepakete wie SPSS und Stata verlangen dem Statistiker so gut wie gar keine Rechenaufgaben mehr ab. Dennoch ist es gut zu wissen, wie sie funktionieren. Den meisten statistischen Analysen liegt ein Zweig der Mathematik zugrunde, der Bayessche Statistik genannt wird. Nur in seltenen Fällen wirst du dich nach deinem ersten Statistikkurs mit dem Satz von Bayes befassen. Dennoch sind die Bedeutung der Bayesschen Inferenz und des Satz von Bayes nicht zu unterschätzen.

Bayessche Inferenz
Mit der Bayesschen Inferenz können wir Wahrscheinlichkeiten berechnen. Quelle: Unsplash

Der Satz von Bayes nutzt Wahrscheinlichkeit, um die Wahrscheinlichkeit eines Ereignisses auf Grundlage von vorhandenen Informationen zu beschreiben. Diese Informationen werden auch als Apriori-Wahrscheinlichkeiten bezeichnet. Wenn du zum Beispiel berechnen möchtest, wie wahrscheinlich es ist, dass der Eismann in deiner Nachbarschaft an einem sonnigen Tag vorbeifährt, dann kannst du empirische Daten nutzen, um die Wahrscheinlichkeit zu berechnen.

Die Definition der Bayesschen Inferenz ist es dann, die Wahrscheinlichkeit eines Ereignisses auf Grundlage der Verteilung der Grundgesamtheit mittels Bayes‘ Satz herzuleiten. Das ist die Grundlage vieler statistischer Probleme und es ist wichtig im Kopf zu behalten, denn oft ist es nicht so klar erkennbar. Dieser Artikel stellt drei Beispiele vor, die sich von dieser Theorie ableiten.

Die besten Lehrkräfte für Statistik verfügbar
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (27 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (133 Bewertungen)
Viktor
70€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (26 Bewertungen)
Rafael
36€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (11 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (27 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (27 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (133 Bewertungen)
Viktor
70€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (26 Bewertungen)
Rafael
36€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (11 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (27 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis>

Grundlegende Statistikrechnung

Um die Statistikaufgaben in diesem Bereich zu lösen, muss ein grundlegendes Verständnis von Statistik vorhanden sein. Höchstwahrscheinlich hast du einen Einführungskurs in die Wahrscheinlichkeitsrechnung absolviert und verstehst die Bedeutung der bedingten Wahrscheinlichkeit in selbst den einfachsten Datenanalysen. Statistik und Wahrscheinlichkeit gehen Hand in Hand, deshalb muss ein Verständnis vorhanden sein, bevor du dich diesen Aufgaben widmest.

Die Definitionen und Fähigkeiten, mit denen du vertraut sein musst, sind:

  • Zentraler Grenzwertsatz
  • Zentrale Tendenz
  • Standard-Normalverteilung
  • Stichprobenmittel, Median und Modalwert

Frage 1: Lege einen Box-Plot auf Grundlage des folgenden Stamm-Blatt-Diagramms an

Der Box-Plot und das Stamm-Blatt-Diagramm sind beides Wege, die Verteilung einer bestimmten Variable in deinen Daten darzustellen. Der Unterschied ist, dass der Box-Plot zeigt, wie die Daten auf Grundlage der Normalverteilung verteilt sind. Um den Box-Plot anlegen zu können, musst du verstehen, wofür jeder Punkt darauf steht.

Der Median ist die Mitte und 1, 2, 3 und 4 repräsentieren die Viertel deiner Daten. Das bedeutet, wenn wir das erste Viertel nehmen, liegen darin 25 % deiner Daten. Beim dritten Viertel werden 75 % deiner Daten an diesem Punkt umfasst. Das Viertel 0 stellt das Minimum dar und das Viertel 4 stellt das Maximum dar. Das wird dann mit der Normalverteilung verglichen:

Die Normalverteilung ist sehr wichtig in der Statistik.
Die Normalverteilung ist eins der wichtigsten Werkzeuge in der Statistik.

Im Bild oben können wir sehen, dass ca. 50 % deiner Daten zwischen Q1 und Q3 liegen. Unter Q1 oder oberhalb von Q3 befinden sich nur ungefähr 25 % deiner Daten. Alles außerhalb des Minimums und des Maximums wird als Ausreißer betrachtet. Ein Ausreißer ist ein Datenpunkt, der im Vergleich zur Stichprobe nicht normal ist. Wenn wir diese Information verstanden haben, können wir das mit Hilfe dieses Stamm-Blatt-Diagramms berechnen:

Das Stamm-Blatt-Diagramm stellt die Daten dar.

Unser Box-Plot sieht folgendermaßen aus:

Der Box-Plot ist eine weitere Möglichkeit der Darstellung.
Der Box-Plot kann ein nützliches Hilfsmittel sein.
Die besten Lehrkräfte für Statistik verfügbar
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (27 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (133 Bewertungen)
Viktor
70€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (26 Bewertungen)
Rafael
36€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (11 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (27 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (27 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (133 Bewertungen)
Viktor
70€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (26 Bewertungen)
Rafael
36€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (11 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (27 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis>

Frage 2: Wie berechnet und interpretiert man den Korrelationskoeffizienten

Aufbauend auf dem letzten Abschnitt müssen wir verstehen, wie bestimmte Variablen in deinem Datensatz miteinander in Verbindung stehen. Das ist besonders nützlich, da du diese Ansätze unabhängig von den Daten oder Statistikkonzepten, die du verwendest, anwenden kannst. Eine wichtige Tabelle, die dir unterkommen wird, ist eine Tabelle zur Korrelation und Kovarianz der Variablen in deinem Datensatz.

Die Definition von Korrelation ist die Stärke der Beziehung zwischen zwei Variablen und die Kovarianz bezieht sich auf die Varianz dieser Variablen im Zusammenspiel miteinander. Das Ziel dieser Zahlen ist es, den Zusammenhang zwischen Variablen zu untersuchen.

Wenn du beispielsweise einen Datensatz hast, der sich auf die Gesundheit von Schulkindern bezieht, dann weisen Körpergröße und Gewicht höchstwahrscheinlich eine große Korrelation auf. Andere Variablen wie Körpergröße und Lieblingsfarbe weisen hingegen keine große Korrelation auf. In Regressionsmodellen ist die Berechnung und Interpretation des Korrelationskoeffizienten sehr wichtig.

Die am häufigsten verwendete Tabelle sieht folgendermaßen aus:

So kann eine Korrelationstabelle aussehen.

Die größeren Zahlen in der Tabelle repräsentieren den Korrelationskoeffizienten. Dieser zeigt, wie stark der Zusammenhang zwischen zwei Größen ist. Zu seiner Berechnung braucht man nur die Standardabweichung und die Kovarianz der Stichprobe.

Die Standardabweichung ist ein Maß dafür, wie stark deine Daten um den Mittelwert herum gestreut sind. Sie ist allerdings nicht mit dem Standardfehler zu verwechseln. Dieser sagt aus, wie die Daten um den Mittelwert gestreut sind, allerdings wird dabei nicht von den Daten der Stichprobe ausgegangen, sondern von den Daten der tatsächlichen Grundgesamtheit.

Die Kovarianz sagt wiederum aus, wie zwei Variablen gemeinsam variieren, was sehr stark von deinen Stichprobendaten abhängt. Die Kovarianz ist nicht mit der Varianz zu verwechseln, die nur die Varianz einer Variable innerhalb eines Datensatzes misst.

Die Interpretation des Korrelationskoeffizienten folgt drei grundlegenden Regeln. Die erste ist, dass die Zahlen entlang der Diagonale immer eins entsprechen sollten. Die Diagonale stellt die Korrelation der Variable mit sich selbst dar, diese sollte immer eins oder 100 % betragen. Die Korrelation der Variable “Lieblingsfarbe” mit derselben Variable ist 100 %.

Die zweite Regel ist, dass jede Korrelation oberhalb von 50 % eine starke Korrelation darstellt und unter 50 % eine schwache Korrelation. In unserem Beispiel weist die Variable Lieblingsfarbe nur eine Korrelation von 4 % mit der Variable Gewicht auf. Gewicht und Körpergröße zeigen hingegen eine starke Korrelation von nahezu 90 %.

Die dritte Regel ist, dass Korrelationen unter 50 % zwar schwach sind, sie aber dennoch von Interesse sein können. Im Beispiel besteht eine Korrelation von 57 % zwischen der Lieblingsfarbe und dem Geschlecht. Das ist zwar keine sehr starke Korrelation in der Tabelle, es zeigt jedoch, dass sich beim Punkt Geschlecht möglicherweise weitere Untersuchungen lohnen würden.

Frage 3: Wie interpretiert man statistische Tests

Wie dir vielleicht aufgefallen ist, basiert Statistik sehr stark auf den Informationen, die du bereits erlernt hast. Deshalb ist es wichtig, sich mit den Grundlagen sehr gut vertraut zu machen, bevor du dich mit praktischen Statistiktests auseinandersetzt.

Die Interpretation statistischer Tests variiert je nach Test. Die zwei häufigsten Tests für Einsteiger sind:

  • Chi-Quadrat-Test
  • T-Test

Beide beinhalten das Hypothesentesten, wobei Statistik verwendet wird, um zu überprüfen, ob zwei Variablen in einem Datensatz in Zusammenhang stehen oder nicht. Der T-Test vergleicht den Durchschnittswert zweier Variablen miteinander und bietet Aufschluss über ihren Zusammenhang. Wenn zum Beispiel ein neues Medikament und ein Placebo verglichen werden, dann können die Gesundheitswerte zweier Gruppen mit Hilfe des T-Tests analysiert werden.

Der Chi-Quadrat-Test wird wiederum verwendet, um die Verteilung der Stichprobendaten mit der Grundgesamtheit zu vergleichen und den Zusammenhang beider Variablen in einer Kontingenztabelle zu überprüfen.

Der erste Test nennt sich Chi-Quadrat-Anpassungstest und der zweite Chi-Quadrat-Unabhängigkeitstest. Ein Beispiel für letzteren könnte der Zusammenhang zwischen dem Familienstand und dem Bildungsniveau sein, wenn dieser in einer Kontingenztabelle überprüft wird.

Unterstützung in Statistik

Zum Glück gibt es eine Vielzahl von Materialien und Ressourcen, die dir Tipps und Hilfe bieten können, wenn du mit Statistik Schwierigkeiten hast. Diese umfassen Online-Plattformen, wie Superprof, ebenso wie Bücher und Nachschlagewerke.

Auch YouTube kann eine nützliche Ressource sein, um mehr zu lernen. Dort kannst du nach Online-Tutorials suchen. Am besten gibst du dazu die Statistikbegriffe ein, mit denen du Schwierigkeiten hast. Du kannst dir auch einen persönlichen Nachhilfelehrer suchen, der dich zusätzlich unterstützt. Jeder lernt unterschiedlich schnell, das solltest du auf deinem Weg in der Statistik nicht vergessen.

Auf der Suche nach einer Lehrkraft für Statistik?

Dir gefällt unser Artikel?

5,00/5 - 1 vote(s)
Loading...

Sarah

Als Dolmetscherin und Übersetzerin sind fremde Länder und Kulturen mein täglich Brot. Wenn ich nicht gerade meine Leidenschaft für Sprachen und Reisen auslebe, bin ich auf Fußballplätzen zu finden, mit meinem Longboard unterwegs oder probiere mich wahrscheinlich gerade an einer anderen Sportart aus.