Daten sind die wichtigste Grundlage für das gesamte Feld der quantitativen Analyse. Ohne Daten keine Statistik – so könnte man es ausdrücken.

Denn um Rückschlüsse über eine Stichprobe oder eine Grundgesamtheit ziehen zu können, müssen Informationen über ebendiese vorliegen. Am besten in quantifizierter Form, damit statistische Rechenmodelle angewendet werden können.

Diese Informationen erhält man über Daten. Es müssen Daten gewonnen, erhoben und verarbeitet werden, damit am Ende eine aussagekräftige Statistik oder ein Prüfergebnis zu einer Hypothese vorliegen kann.

Doch was genau sind nun eigentlich Daten? Im Sinne der Statistik ist hier nämlich nicht der Plural vom kalendarischen Datum gemeint…

Die besten verfügbaren Lehrkräfte für Statistik
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (24 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (22 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (24 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (22 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis>

Die Definition von Daten

Die bekannte Datenplattform Statista definiert Daten als „Messwerte, die im Rahmen von Befragungen, Beobachtungen oder Experimenten erhoben werden“. Diese liegen entweder in numerischer (zum Beispiel Einkommen, Alter oder Gewicht) oder kategorialer Form (zum Beispiel Familienstand, Wohnort, Haarfarbe) vor. Die Summe aller Daten über eine Stichprobe wird als Datensatz bezeichnet.

Im engen Sinne sind mit dem Begriff Daten lediglich unterschiedliche Zeichen oder Symbole gemeint, wie zum Beispiel eine Abfolge von Ziffern oder eine Zahl. Diese kann immer nur in ihrem Kontext verstanden werden: „55“ hat schließlich eine andere Bedeutung, wenn es sich um das Alter und nicht um das Gewicht handelt.

Streng genommen sind die Begriffe Daten und Informationen daher nicht synonym, auch wenn sie oft so verwendet werden. Erst aus der Verbindung von Daten mit ihrem Kontext entsteht eine Information. Das Ziel einer Datenerhebung ist immer die Informationsgewinnung. Das Alter 55 Jahre stellt also eine Information dar, bei 55 handelt es sich um die formale Darstellung der Information.

Was sind Daten?
Daten können in unterschiedlicher Form vorliegen und verbunden mit dem Kontext wertvolle Informationen liefern | Bildquelle: Unsplash

Mithilfe von weiteren Informationen wird schließlich Wissen angesammelt: Wenn beispielsweise der Name der Person hinzukommt, der Wohnort, der Familienstand etc. Die Menge aller bekannten Informationen gilt als Wissen. Für einen bestimmten Sachverhalt ist aber nicht zwangsweise jede Information relevant.

Dennoch verhilft uns mehr Wissen zu fundierteren Entscheidungen und Problemlösungen und beeinflusst unser Handeln und Denken. Daten dienen also der Erlangung von Wissen, indem sie zunächst in Informationen gewandelt werden.

Die Informationsverarbeitung und Ansammlung von Wissen müssen dabei nicht ausschließlich durch Menschen geschehen. In den letzten Jahren hat vor allem das Maschinelle Lernen immer größere Aufmerksamkeit erlangt. Computer können eigenständig Informationen sammeln und verarbeiten und damit ihr Wissen vergrößern, was letztendlich zur Künstlichen Intelligenz (KI oder auch AI für Artificial Intelligence) führt.

Daten müssen nicht immer in Zahlenform vorliegen. Letztendlich lassen sich Daten in vielen verschiedenen Formen finden: Als Text, Bild, Video, Audio, Tabelle… Alles, was ausgewertet werden kann und damit Informationen liefert, kann als Daten bezeichnet werden.

In der Wirtschaftsinformatik werden sechs Arten von Daten unterschieden, die in Datenbanken oder Dateien abgespeichert werden:

  • Eingabedaten: Die Daten werden einem Programm von außen eingepflegt
  • Ausgabedaten: Die Daten entstehen aus dem Programm
  • Stammdaten: Wesentliche, unveränderte Grunddaten über einen Betrieb
  • Bewegungsdaten: Daten, die Veränderungen darstellen und die der Aktualisierung der Stammdaten dienen
  • Numerische Daten: In Ziffern dargestellte Daten
  • Alphanumerische Daten: Durch Ziffern, Buchstaben oder Sonderzeichen dargestellte Daten

Was passiert mit Daten?

Im Zeitalter von Big Data und riesigen Datenbanken dienen Daten vielen Zwecken. Nicht wenige Zungen behaupten, dass sich Daten nach und nach zur wichtigsten Währung für Unternehmen entwickeln. Umso mehr Daten sie über ihre Zielgruppen und Kunden haben, umso gezielter können sie Produkte und Werbekampagnen auf diese zuschneiden – und umso mehr Verkäufe und Erlöse erhoffen sie sich davon.

Das wäre bereits ein großer Verwendungszweck von Daten in der heutigen Welt: Die Personalisierung von Werbung durch große Player wie Google und Facebook. In der Marktforschung dienen Daten der Analyse, welche Bedürfnisse Konsumenten haben und welche Produkte diese besonders gut erfüllen können.

Wie werden Daten verwendet?
Das Geschäftsmodell von Google basiert zu großen Teilen auf der Verwendung von Daten | Bildquelle: Unsplash

Unternehmensleiter benötigen Daten über ihr Unternehmen, um einen Einblick in Gewinn und Verlust und die Rentabilität ihrer Geschäftsprozesse zu erhalten. Doch auch jenseits der Wirtschaftswelt kommen Daten vielseitige Aufgaben und Ziele zu:

  • Die Bestimmung des individuellen Risikos für gewisse Krankheiten
  • Wirksamkeitsanalysen für neue Medikamente oder Impfstoffe
  • Risikoanalysen für Banken und Versicherungen
  • Klimaforschung und Wetterberichte
  • Sportberichterstattung
  • Amtliche Statistiken

Die Liste ist so ziemlich endlos – beinahe in jeder Branche und in jedem Sektor werden Daten gesammelt, ausgewertet und analysiert. Die Frage ist: Wo kommen all diese Daten her?

Die besten verfügbaren Lehrkräfte für Statistik
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (24 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (22 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (24 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (22 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Christoph
5
5 (28 Bewertungen)
Christoph
35€
/h
1. Unterrichtseinheit gratis>

Wie werden Daten gewonnen?

Um aus Daten Informationen und Wissen gewinnen zu können, muss man erst einmal an Daten herankommen. Und zwar an eine ausreichende Menge, damit die Statistiken und daraus gezogenen Aussagen auch repräsentativ sind.

Im Grunde gibt es zwei Möglichkeiten für die Datengewinnung: Entweder, man erhebt selbst Daten oder man greift auf bereits bestehende Datenquellen zurück.

Daten aus statistischen Fragebögen

Eine eigene Datenerhebung erfolgt in den allermeisten Fällen mithilfe standardisierter Fragebögen. Möglich ist aber auch die Durchführung von persönlichen Interviews, wobei dies deutlich zeitaufwändiger – sowohl in der Durchführung als auch in der Auswertung – ist.

In Fragebögen erhält man unterschiedliche Formen von Daten. Möglich sind zum Beispiel klassische ja / nein – Fragen wie zum Beispiel: „Haben Sie Kinder?“. Eine alternative Option ist eine konkreter gefasste Frage: „Wie viele Kinder haben Sie?“, die mehr Informationen bietet. Es können entweder die gängigsten Antwortmöglichkeiten zum Ankreuzen vorgegeben (zum Beispiel 1, 2, 3, 4 oder mehr) oder ein offenes Feld zum Ausfüllen eingebaut werden.

Wie kannst du Daten gewinnen?
Umfragen oder Interviews sind Möglichkeiten der Datengewinnung | Bildquelle: Unsplash

Beliebt sind auch skalierte Fragen, bei denen es um die persönliche Meinung oder Einschätzung der Befragten geht. Diese wird zum Beispiel auf einer Skala von „ich stimme voll zu“ bis „ich stimme gar nicht zu“ ausgedrückt, wobei es in der Regel Abstufungen von eins bis fünf oder sogar eins bis zehn gibt.

Offene Fragen bieten den Befragten ein Feld, in welchem sie ihre Antwort in eigenen Worten, entweder in Stichpunkten oder ganzen Sätzen, eintragen können. Aus diesem Fragetypus können tiefgehende und individuelle Informationen gesammelt werden, allerdings ist die Auswertung von offenen Fragen etwas umfangreicher und aufwendiger.

Andere Quellen für Daten

Gilt eine eigene Datenerhebung als zu aufwendig oder unpassend für das spezielle Anliegen, so kann man auch auf bereits bestehende Datenquellen zurückgreifen.

Eine Möglichkeit dazu sind öffentliche Datenbanken wie zum Beispiel Statista oder amtliche Statistiken beziehungsweise Daten und Statistiken, die von Verbänden oder Behörden gesammelt und veröffentlicht werden. Das ist insbesondere dann empfehlenswert, wenn eine möglichst große und repräsentative Stichprobe benötigt wird, zu der man selbst keinen Zugang hat.

Darüber hinaus können auch in Texten wie wissenschaftlichen Arbeiten, Zeitungen, Zeitschriften und Büchern Daten gesammelt werden, ebenso wie in Filmen, Videos, Podcasts, Radiosendungen. Auch Bilder und Grafiken können Daten übermitteln.

Denkbar sind auch Feldtests wie zum Beispiel die Einkaufswege oder Angebote im Supermarkt, der Vergleich unterschiedlicher Wege und Strecken oder die Zählung von Apotheken in einer Nachbarschaft.

Du darfst also durchaus kreativ werden, wenn es darum geht, Daten zu gewinnen. Umso vielfältiger und umfangreicher deine Datensammlung ist, desto mehr Informationen kannst du aus ihr ziehen.

Die verschiedenen Datenskalen im Überblick

Erhobene Daten sind unterschiedlich skaliert. Es gibt folgende drei Skalenniveaus:

  • Nominalskala
  • Ordinalskala
  • Metrische Skala

In einer Nominalskala können die möglichen Messwerte klar voneinander abgegrenzt, können aber nicht in eine Rangordnung gebracht werden können. Ein typisches Beispiel ist das Geschlecht (männlich / weiblich / divers).

In einer Ordinalskala sind die Werte nicht nur voneinander abgrenzbar, sondern auch abstufbar. Dazu zählen zum Beispiel Schulnoten.

Was ist ein Ordinalskala?
Schulnoten sind ein Beispiel für ordinalskalierte Daten | Bildquelle: Unsplash

Die metrische Skala geht noch einen Schritt weiter, was bedeutet, dass nun auch die Abstände klar gemessen werden können. Dadurch können die Messwerte nun auch quantitativ verglichen werden. Es gibt zwei Arten von metrischen Skalen: Die Verhältnisskala und die Intervallskala.

Daten, die metrisch skaliert sind, können in der Regel am einfachsten weiterverarbeitet werden.

Worauf du bei der Datenverarbeitung achten musst

Wichtig ist, dass die Daten in einer Form vorliegen, die von Computern und Statistiksoftware verarbeitet werden kann. Nur dann können Berechnungen und Analysen problemlos durchgeführt werden.

In der Definition der Daten haben wir bereits die Unterscheidung in numerische und kategoriale Daten kennengelernt. Bei numerischen Daten ist die Weiterverarbeitung in aller Regel unkompliziert, da Computer mit Zahlen einfach weiterrechnen können – vorausgesetzt, es liegt eine einheitliche Schreibweise vor (zum Beispiel absolute Zahlen oder relative Zahlen, Punkt oder Komma etc.).

In dem Fall können also mathematische Berechnungen von Mittelmaß oder Streuungsmaß direkt durchgeführt werden. Allerdings muss dabei auch die Unterteilung in stetige und diskrete Daten beachtet werden: Stetige Daten können endlos viele Nachkommastellen haben und in beliebig viele Einheiten geteilt werden. Diskrete Daten können jedoch nicht in andere Einheiten umgewandelt oder mit Nachkommastellen dargestellt werden. Ein Beispiel für eine diskrete Variable wäre zum Beispiel die Anzahl von Personen, da dabei nur ganze Zahlen möglich sind.

Bei kategorialen Daten ist die Weiterverarbeitung etwas komplizierter. Es handelt sich zum Beispiel um Farben, das Geschlecht oder den Bildungsabschluss. Hier kann noch weiter zwischen nominalen und ordinalen Daten unterschieden werden. Nominal bedeutet, dass es keine Rangfolge zwischen den Antwortoptionen gibt (zum Beispiel bei Farben oder dem Geschlecht). Bei ordinalen Daten können hingegen Abstufungen gemacht werden (zum Beispiel beim Bildungsabschluss oder Schulnoten).

Kategoriale Daten sind also zunächst nicht quantifiziert, sondern stellen eher qualitative Informationen dar. Hier kannst du dir aber Abhilfe verschaffen, indem du die Antwortmöglichkeiten quantifizierst, zum Beispiel folgendermaßen in Bezug auf Haarfarben:

  • 1 = braun
  • 2 = blond
  • 3 = schwarz
  • 4 = rot

So kannst du mit diskreten numerischen Daten weiterrechnen und musst dir lediglich notieren (oder merken), welche Zahl welche Merkmalsausprägung beschreibt. In der Regel kannst du diese Hintergrundinformationen aber in der Statistiksoftware hinterlegen.

Während du deine vorhandenen Daten in deine Datenbank einpflegst, solltest du diese aber auf jeden Fall auf Fehler und Plausibilität überprüfen. Nicht selten sind Daten nicht einheitlich dargestellt. Falsche Daten oder fehlerhafte Datensätze führen dazu, dass es zu verzerrten Analyseergebnissen kommt.

Bei der Datenbereinigung musst du allerhand Einzelentscheidungen treffen. Es gibt aber auch Funktionen bei SPSS für eine automatisierte Datenbereinigung.

Wie du siehst, sind Daten und die Datensammlung und Datenverarbeitung vielseitige und spannende Felder. Wenn du Spaß an Zahlen und viel Sorgfalt und Geduld mitbringst, können Daten dir zu interessanten Erkenntnissen und neuem Wissen verhelfen!

Auf der Suche nach einer Lehrkraft für Statistik?

Dir gefällt unser Artikel?

5,00/5 - 1 vote(s)
Loading...

Miriam

Miriam arbeitet als freie Autorin & Yogalehrerin. Getrieben von großer Neugier liebt sie es, Neues zu entdecken und zu erlernen; sich selbst weiterzuentwickeln und anderen dabei zu helfen.