Seien wir mal ehrlich, Data Science wurde zwar als der „Job des 21. Jahrhunderts mit dem größten Sex-Appeal“ gekürt, die meisten Menschen schüttelt es jedoch beim Gedanken an Statistik. Der Grund dafür, dass die Disziplin historisch viel Ablehnung erhält, liegt an ihrer engen Verwandtschaft mit der Mathematik.

Ob du glaubst, dass du statistische Analysen nicht erlernen kannst, oder einfach nur neugierig auf das Thema bist, hier erfährst du mehr dazu und wirst mit einigen grundlegenden Konzepten vertraut gemacht.

Im Zentrum von Statistik stehen fünf wichtige statistische Konzepte. Sie bilden die Grundlage der Datenanalyse. Die ersten vier können leicht beschrieben werden, ohne dass man sich ihre Gleichungen genau ansehen muss:

  • Arithmetisches Mittel: der Durchschnittswert, berechnet als Summe aller Beobachtungen geteilt durch die Anzahl aller Beobachtungen
  • Median: der Mittelpunkt des Datensatzes, berechnet indem alle Datenpunkte vom größten zum kleinsten sortiert werden und der Wert genommen wird, der genau in der Mitte liegt
  • Varianz: die allgemeine Verteilung der Datenpunkte, berechnet als Durchschnitt der quadrierten Differenzen zum Mittelwert
  • Standardabweichung: ebenfalls die Verteilung, berechnet mittels der Quadratwurzel der Varianz
Data Science ist nicht für jeden.
Mit dem Computer lassen sich statistische Daten leicht berechnen. Quelle: Unsplash.

Genauso wie Detektive in einem Kriminalroman erzählen diese vier Konzepte bereits Teil der Geschichte eines Datensatzes, denn es handelt sich bei ihnen um deskriptive Statistik. Wirft man beispielsweise einen Blick in jedem beliebigen Restaurant um sich, ist es schwierig, eine Geschichte oder Interpretation der anderen Menschen zu bieten, wenn man sich dabei ausschließlich auf ihr Äußeres bezieht.

Hat man allerdings auch Informationen über ihr Alter, ihr Monatseinkommen, ihr Bildungsniveau, ihr Gender und ihren Musikgeschmack, dann wären das Arithmetische Mittel und der Median beides Messwerte allgemeiner Tendenzen, also zum Beispiel, ob der Großteil der Menschenmenge eher in ihren Zwanzigern sind und sich durch die Universität schlagen oder ob sie eher älter sind und ihr Geld in Hedgefonds stecken.

Bei diesen Konzepten kommt die Verteilung der Variable zum Tragen, die gemessen werden soll. In unserem Beispiel wäre es die Variabilität der Datenpunkte. Je homogener eine Gruppe ist, umso präziser ist der Mittelwert. Je mehr Abweichung vorhanden ist, umso genauer das Ergebnis des Median.

Die Varianz und die Standardabweichung sind beides Messwerte dieser Variabilität und sagen aus, wie stark sich jede beliebige Variable vom Durchschnitt unterschiedet.

Wenn du wissen möchtest, wie ähnlich die Menschenmenge in Bezug auf ihre Altersstruktur ist, dann würdest du zunächst das Durchschnittsalter berechnen. Indem im nächsten Schritt das Alter jeder einzelnen Person abgezogen wird, errechnet man eine Zahl, die aussagt, wie stark jeder Datenpunkt vom Durchschnitt abweicht. Die Standardabweichung sagt andererseits aus, wie stark oder weniger stark die Daten dem Mittelwert entsprechen, wobei die Normalverteilung zugrundegelegt wird.

Die Standardabweichung verhält sich genau wie die Varianz in Bezug auf ihre Aussagekraft über die Datenverteilung. Die Standardabweichung wird sogar mit Hilfe der Quadratwurzel der Varianz berechnet. Der Unterschied liegt darin, dass die Standardabweichung eine beschreibende Größe ist, die sehr leicht berichtet werden kann, da ihre Einheiten den Einheiten der ursprünglichen Datenpunkte entsprechen. Die Varianz hingegen ist das nicht.

Du kannst mit Online-Tests testen, was du bereits in deinem Statistikunterricht gelernt hast.

Die besten Lehrkräfte für Statistik verfügbar
Andrea
5
5 (56 Bewertungen)
Andrea
75€
/h
Gift icon
1. Unterrichtseinheit gratis!
Thomas
5
5 (28 Bewertungen)
Thomas
52€
/h
Gift icon
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (14 Bewertungen)
Julien
25€
/h
Gift icon
1. Unterrichtseinheit gratis!
Boris
5
5 (15 Bewertungen)
Boris
20€
/h
Gift icon
1. Unterrichtseinheit gratis!
Rafael
5
5 (28 Bewertungen)
Rafael
38€
/h
Gift icon
1. Unterrichtseinheit gratis!
Viktor
5
5 (139 Bewertungen)
Viktor
70€
/h
Gift icon
1. Unterrichtseinheit gratis!
Adam
5
5 (35 Bewertungen)
Adam
30€
/h
Gift icon
1. Unterrichtseinheit gratis!
Christoph
5
5 (29 Bewertungen)
Christoph
35€
/h
Gift icon
1. Unterrichtseinheit gratis!
Andrea
5
5 (56 Bewertungen)
Andrea
75€
/h
Gift icon
1. Unterrichtseinheit gratis!
Thomas
5
5 (28 Bewertungen)
Thomas
52€
/h
Gift icon
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (14 Bewertungen)
Julien
25€
/h
Gift icon
1. Unterrichtseinheit gratis!
Boris
5
5 (15 Bewertungen)
Boris
20€
/h
Gift icon
1. Unterrichtseinheit gratis!
Rafael
5
5 (28 Bewertungen)
Rafael
38€
/h
Gift icon
1. Unterrichtseinheit gratis!
Viktor
5
5 (139 Bewertungen)
Viktor
70€
/h
Gift icon
1. Unterrichtseinheit gratis!
Adam
5
5 (35 Bewertungen)
Adam
30€
/h
Gift icon
1. Unterrichtseinheit gratis!
Christoph
5
5 (29 Bewertungen)
Christoph
35€
/h
Gift icon
1. Unterrichtseinheit gratis!
Und los geht's

Was ist Wahrscheinlichkeit?

Nun, da du die vier grundlegenden Konzepte kennst, sollten wir uns dem fünften und wichtigsten Baustein der Statistik widmen: die Wahrscheinlichkeitsrechnung. An diesem Punkt ergreifen normalerweise viele die Flucht. Tatsächlich dient die Wahrscheinlichkeitsrechnung dazu, den wichtigsten Graphen zu verstehen, der einem zu Beginn der Auseinandersetzung mit Statistik unterkommt:

Das ist die Normalverteilung.
Die Normalverteilung ist ein wichtiges statistisches Instrument. Quelle: Unsplash.

Dieser Graph stellt die normale Wahrscheinlichkeitsverteilung dar. Sie wird auch Normalverteilung genannt und zeigt, wie es aussehen würde, wenn die Datenpunkte symmetrisch zum Mittel verteilt wären. Anders ausgedrückt: Die Wahrscheinlichkeitsrechnung dient dazu, den zentralen Grenzwertsatz zu verstehen.

Dieser ist als Idee definiert, dass in der Datenerhebung einer unendlichen Menge zufälliger Datenpunkte die Verteilung der Mittelwerte sich der Normalverteilung annähern würde.

Anders ausgedrückt: Unabhängig von der Struktur und Verteilung des Untersuchungsgegenstands entsprechen Mittelwert und Standardabweichung der Normalverteilung mit zunehmender Anzahl von Datenpunkten. Damit sehen sie dann aus wie der obige Graph. Wenn wir die Wahrscheinlichkeit verstehen, dann haben wir nicht nur die sprachlichen Mittel, um über die Verteilung von Datenpunkten zu sprechen, sondern es ist ebenso das Werkzeug, das wir brauchen, um sie zu berechnen.

SPSS Hilfe benötigt?

Die Auswahl eines statistischen Tests

Wenn diese Grundlagenbegriffe und -konzepte klar sind, kann es schwierig sein, den nächsten Schritt anzugehen – dieser wäre die Entscheidung, welcher Test am besten zu einen bestimmten Datensatz passt. Obwohl es eine Reihe von statistischen Tests und Ansätzen gibt, lassen sich die verfügbaren Methoden jedoch auf folgendes reduzieren. Sie dienen stets dazu, einen der folgenden Aspekte zu untersuchen:

  • Assoziation
  • Vergleich
  • Prognose
  • Daten, die keiner normalen Verteilung entsprechen und nicht-parametrisch sind

Um zu entscheiden, welcher Test sich eignet, muss zuerst erfasst werden, welche Arten von Daten vorliegen, je nach dem, welche Variablen untersucht werden sollen. Die Variablen können entweder eine Größenordnung oder eine Kategorie darstellen.

Variablen der Größenordnung sind quantitativ und werden in zwei Kategorien unterschieden:

  • Kontinuierlich: kann jeden Wert annehmen, z. B. Höhe
  • Diskret: sind ganze Zahlen, z. B. die Anzahl von Kindern

Variablen, die eine Kategorie darstellen, werden folgendermaßen unterschieden:

  • Ordinal: folgt einer offensichtlichen Ordnung, wie z. B. die Einschätzung von Zufriedenheit auf einer Skala von 0-10
  • Nominal: folgt keiner Ordnung, z. B. Gender
Die besten Lehrkräfte für Statistik verfügbar
Andrea
5
5 (56 Bewertungen)
Andrea
75€
/h
Gift icon
1. Unterrichtseinheit gratis!
Thomas
5
5 (28 Bewertungen)
Thomas
52€
/h
Gift icon
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (14 Bewertungen)
Julien
25€
/h
Gift icon
1. Unterrichtseinheit gratis!
Boris
5
5 (15 Bewertungen)
Boris
20€
/h
Gift icon
1. Unterrichtseinheit gratis!
Rafael
5
5 (28 Bewertungen)
Rafael
38€
/h
Gift icon
1. Unterrichtseinheit gratis!
Viktor
5
5 (139 Bewertungen)
Viktor
70€
/h
Gift icon
1. Unterrichtseinheit gratis!
Adam
5
5 (35 Bewertungen)
Adam
30€
/h
Gift icon
1. Unterrichtseinheit gratis!
Christoph
5
5 (29 Bewertungen)
Christoph
35€
/h
Gift icon
1. Unterrichtseinheit gratis!
Andrea
5
5 (56 Bewertungen)
Andrea
75€
/h
Gift icon
1. Unterrichtseinheit gratis!
Thomas
5
5 (28 Bewertungen)
Thomas
52€
/h
Gift icon
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (14 Bewertungen)
Julien
25€
/h
Gift icon
1. Unterrichtseinheit gratis!
Boris
5
5 (15 Bewertungen)
Boris
20€
/h
Gift icon
1. Unterrichtseinheit gratis!
Rafael
5
5 (28 Bewertungen)
Rafael
38€
/h
Gift icon
1. Unterrichtseinheit gratis!
Viktor
5
5 (139 Bewertungen)
Viktor
70€
/h
Gift icon
1. Unterrichtseinheit gratis!
Adam
5
5 (35 Bewertungen)
Adam
30€
/h
Gift icon
1. Unterrichtseinheit gratis!
Christoph
5
5 (29 Bewertungen)
Christoph
35€
/h
Gift icon
1. Unterrichtseinheit gratis!
Und los geht's

Wann werden Assoziationstests gemacht

Bei diesen Tests wird der Zusammenhang zwischen zwei Variablen untersucht. So kommt man der Untersuchung einer Kausalität zwischen zwei Variablen am nächsten. Wenn du beispielsweise wissen willst, ob es einem Zusammenhang zwischen dem Familienstand und dem Bildungsstand gibt, dann bietet sich dieser Test an. All diese Tests untersuchen die Stärke des Zusammenhangs zwischen zwei Variablen:

TesttypArt der VariableBeispiel
Pearson KorrelationZwei kontinuierliche VariablenZusammenhang zwischen Schuhgröße und Körpergröße
Spearman KorrelationZwei ordinale VariablenWie stark ist der Zusammenhang zwischen Zufriedenheit und wirtschaftlicher Situation
Chi-Quadrat-TestZwei kategorische VariablenGibt es einen Zusammenhang zwischen Gender und Lieblingsfarbe?

Vergleichstests betrachten die Unterschiede zwischen Variablen, indem sie die Differenzen ihrer Mittelwerte untersuchen. Diese Methode bietet sich an, wenn zum Beispiel untersucht werden soll, ob die Lage der Schule die Ergebnisse in standardisierten Tests beeinflusst.

TesttypArt der VariablenBeispiel
T-Test mit verbundenen StichprobenZwei Variablen mit ZusammenhangDer Unterschied im Gewicht vor und nach der Einnahme eines Nahrungsergänzungsmittels
Unabhängiger T-TestZwei unabhängige VariablenDie Differenz in den Benzinkosten der Bevölkerung in Los Angeles und in New York
ANOVAEine unabhängige Variable mit klar unterscheidbaren Stufen und eine kontinuierliche VariableDie durchschnittlichen Testergebnisse drei unterschiedlicher Bildungsstände vergleichen
Zweiseitiges ANOVAZwei oder mehr unabhängige Variablen und eine kontinuierliche VariableVergleich der Mittelwerte in Testergebnissen sowohl von drei unterschiedlichen Bildungsständen als auch 12 unterschiedlicher Sternzeichen

Vorhersagetests mit linearer Regression

Prognostizierende Tests werden verwendet, um zu bestimmen, ob eine Veränderung in einer oder mehreren Variablen zu einer Veränderung einer anderen führt. Beispielsweise kann man mit Daten zu Gender, Ernährung und Einkommen bestimmen, ob eine Veränderung dieser auch eine Veränderung des Wohnortes mit sich bringt.

TesttypArt der VariablenBeispiel
Einfache lineare RegressionEine Größenvariable (abhängig) mit einer oder zwei Größenvariablen (Prädiktoren)Wenn man untersuchen möchte, wie gut Alter und Körpergröße das Körpergewicht prognostizieren
Multiple lineare RegressionEine Größenvariable (abhängig) mit zwei oder mehr Größenvariablen (Prädiktoren)Wenn man untersuchen möchte, wie gut Alter, Körpergröße und Einkommen das Körpergewicht prognostizieren

Tests nicht-parametrischer Daten

Diese Tests sollten nur durchgeführt werden, wenn die Daten nicht alle Kriterien für die anderen Tests erfüllen. Zum Beispiel, wenn die Daten nicht der normalen Verteilung folgen und hochgradige Verzerrungen vorliegen.

TesttypArten der VariablenBeispiel
Wilcoxon Rangsummen-TestZwei unabhängige Variablen Welches von zwei Medikamenten erzielt die besten Ergebnisse bei zwei zufällig ausgewählten Testgruppen
Wilcoxon-Vorzeichen-Rang-TestZwei Variablen mit ZusammenhangWelches der beiden Medikamente erzielt die besten Ergebnisse mit derselben Testgruppe
Friedman-TestDrei metrische oder ordinale Variablen (muss entweder metrisch oder ordinal sein)Drei Bewertungen einer Werbeanzeige durch Einzelpersonen aus derselben Testgruppe

Wie führt man statistische Tests durch

Es gibt verschiedene Grundannahmen in Bezug auf die Daten, die du für jeden der besprochenen Tests verwendest. Damit die Tests die gewünschten Ergebnisse erzielen sowie prädikativ und exakt sind, müssen diese Kriterien unbedingt eingehalten werden. Diese können je nach Test variieren, deshalb lohnt es sich, sie nochmal einmal zu überprüfen, bevor es mit der Datenmodellierung losgeht.

Die am häufigsten genutzten Programme für statistische Analysen sind:

  • Excel
  • Stata
  • SAS
  • SPSS
  • Python
  • R

Wenn du Tests für parametrische Daten durchführen möchtest, gibt es vier Kriterien, die deine Daten einhalten müssen. Jeder Test hat jedoch seine eigenen Kriterien, deshalb zeigt die folgende Liste nicht alle, sondern nur die häufigsten.

KriteriumBeschreibung
Unabhängigkeit Die Gruppen, aus denen die Proben stammen, sind von einander unabhängig.
NormalitätDie Daten des Datensatzes sind normal, das bedeutet, sie entsprechen der Normalverteilung.
Homogenität der VarianzWenn es mehrere Gruppen in deinen Daten gibt, die mit deiner unabhängigen Variable in Zusammenhang stehen, weisen sie dieselbe Varianz auf.

Wenn du Unterstützung beim Thema Statistik suchst, sieh dir unsere vielseitigen Online-Materialien an, mit denen du deine Fähigkeiten ausbauen kannst. Du kannst dir auch einen Nachhilfelehrer für Statistik Nachhilfe suchen, der dir weiterhelfen kann.

Hier erfährst du, welcher Nachhilfeunterricht der beste für dich ist.

>

Die Plattform, die Lehrkräfte und SchülerInnen miteinander verbindet

1. Unterrichtseinheit gratis

Du findest diesen Artikel toll? Vergib eine Note!

5,00 (1 Note(n))
Loading...

Sarah

Als Dolmetscherin und Übersetzerin sind fremde Länder und Kulturen mein täglich Brot. Wenn ich nicht gerade meine Leidenschaft für Sprachen und Reisen auslebe, bin ich auf Fußballplätzen zu finden, mit meinem Longboard unterwegs oder probiere mich wahrscheinlich gerade an einer anderen Sportart aus.