Was sind Daten wirklich? Daten werden als Informationen über die Welt und die Individuen, die darin leben definiert. Sie werden gesammelt und analysiert, um Entscheidungsprozesse zu unterstützen. Heutzutage werden Daten zwar oftmals mit nützlicher Visualisierung in Verbindung gebracht, wie beispielsweise Diagrammen und Infografiken, man darf allerdings die historische Entwicklung von Daten nicht außer Acht lassen.

Gehen wir ins Jahr 3200 v. Chr. zurück, als die Schrift erstmalig in Mesopotamien erfunden wurde. Damals schrieben Schriftgelehrte Daten aus ihrem täglichen Leben auf – wie zum Beispiel Informationen zur Ernte oder zu den Steuern – so verbesserten sie ihre Buchhaltungs- und Landwirtschaftssysteme.

Als die Naturwissenschaft und die Mathematik sich weiterentwickelten und das durch technologischen Fortschritt begleitet wurde, entwickelte sich die mathematische Statistik zu etwas noch Mächtigerem: Data Science.

Data Science kann für alle interessant sein. Quelle: Unsplash

Data Science kombiniert das, was wir als traditionelle Statistik ansehen, mit der Computerwissenschaft, um große Datenmengen zu analysieren und neue Analysemethoden zu entwickeln.

Obwohl die Datenanalyse mathematisches Wissen aus Statistikkursen nimmt, um Daten zu modellieren, wird die Data Science doch hauptsächlich als Disziplin genutzt, mit der Informationen aus großen Datenmengen abgeleitet werden. Einige der Grundlagen, die dafür nötig sind, sind:

  • Lineare Algebra
  • Infinitesimalrechnung & Integralrechnung
  • Wahrscheinlichkeitsrechnung
  • Mathematische Statistik
  • Computerwissenschaft

Es gibt eine Reihe von Online-Ressourcen, die die dir mit diesen Grundlagen helfen können. Webseiten wie Superprof bieten eine Vielzahl von Nachhilfelehrern und sowohl Online- als auch persönliche Nachhilfeangebote für Mathematik und datenbasierte Computerwissenschaft.

Erfahre mehr über grundlegende statistische Methoden und Konzepte.

Die besten Lehrkräfte für Statistik verfügbar
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (25 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (25 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Adam
5
5 (26 Bewertungen)
Adam
30€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis!
Andrea
5
5 (49 Bewertungen)
Andrea
75€
/h
1. Unterrichtseinheit gratis!
Thomas
5
5 (26 Bewertungen)
Thomas
48€
/h
1. Unterrichtseinheit gratis!
Viktor
5
5 (132 Bewertungen)
Viktor
80€
/h
1. Unterrichtseinheit gratis!
Julien
4,9
4,9 (13 Bewertungen)
Julien
25€
/h
1. Unterrichtseinheit gratis!
Rafael
5
5 (25 Bewertungen)
Rafael
42€
/h
1. Unterrichtseinheit gratis!
Markus
5
5 (25 Bewertungen)
Markus
25€
/h
1. Unterrichtseinheit gratis!
Adam
5
5 (26 Bewertungen)
Adam
30€
/h
1. Unterrichtseinheit gratis!
Boris
5
5 (8 Bewertungen)
Boris
20€
/h
1. Unterrichtseinheit gratis>

Was ist Big Data und Big-Data-Analytik?

Es ist unmöglich, Data Science zu definieren, ohne zuvor zu bestimmen, was Big Data ist. Der erste Durchbruch in Big Data gelang der Computergruppe Colossus nach dem zweiten Weltkrieg.

Ein innovativer Ansatz wurde von 1943-1945 von britischen Kryptografen genutzt, um Codes des Nazi-Regimes zu entschlüsseln. Der Begriff Big Data wurde zwar erst in den 1950er Jahren von John Mashey bei Silicon Graphics geprägt, Big Data und die großen Datensätze, die damit in Zusammenhang stehen, werden jedoch bis heute auf gleiche Weise genutzt. Das bedeutet, dass Computerprogramme und fortschrittliche Algorithmen auf sehr große Datensätze angewandt werden, um nützliche Muster oder Trends zu erkennen.

Heute wird die Analyse von Big Data mit Hilfe von Verarbeitungssoftware durch Einzelpersonen, Regierungen und Unternehmen durchgeführt. Hadoop, 2005 veröffentlicht, war die erste kostenlose, Open-source-Software, mit der Unternehmen und der Einzelhandel große Datenmengen speichern und ihren Kunden bessere Ergebnisse liefern konnten.

Einige der beliebtesten Internetunternehmen nutzen Hadoop, darunter Facebook, Twitter, Amazon und LinkedIn. Hadoop ist zwar als revolutionäres Produkt im Bereich der Big Data anerkannt, es gibt aber eine Reihe anderer Programme mittlerweile, dazu zählt Spark, die ebenso gut sind.

Die allgemeine Definition von Big Data nach Doug Laneys Definition von 2001 wird auch als die drei „V“ bezeichnet:

  • Volumen: Die Idee, dass Unternehmen und Regierungen große Datenmengen aus verschiedenen Quellen anhäufen, darunter auch aus den Sozialen Medien und geschäftlichen Transaktionen
  • Vielfalt (Variety): Daten nehmen vielerlei Formen an, darunter Text, Audiodateien und E-Mails
  • Geschwindigkeit (Velocity): die Idee, dass Daten in einer unglaublichen Geschwindigkeit fließen und effizient und schnell verarbeitet werden müssen

Die wichtigste Erweiterung dieser Definition ist die Innovation, die genutzt werden muss, um die drei Vs effektiv umzusetzen, und Entscheidungen, die letztlich das Ergebnis der Verarbeitung von Big Data sind.

Große Mengen Daten werden für Entscheidungsprozesse genutzt. Quelle: Unsplash

Was machen Data Scientists?

Zu Beginn des Jahrzehnts wurde Data Science vom Harvard Business Review als „sexiest job in the 21st century” gewählt. Diese Aussage entsprang nicht nur der zunehmend bedeutenden Rolle der Data Science in Unternehmen und Regierungen, sondern sie entsprach auch einem Fakt. Zwei der fünf aufstrebenden Jobs im Jahr 2018 waren bei LinkedIn Data-Science-Spezialisierungen. Die Frage ist: Was macht ein Data Scientist eigentlich?

Im Jahr 1962 schrieb Jon W. Turkey „The Future of Data Analysis“. Darin setzt er sich damit auseinander, ob sich seine Funktion in der Statistik stärker in die Richtung dessen entwickelte, was er als Data Science bezeichnete.

Heutzutage sind Berufe in der Data Science normal und es gibt einige zentrale Tätigkeiten, die unter dem Begriff zusammengefasst werden. Zu diesen gehören:

  • Die Sammlung, Säuberung und Umwandlung großer häufig unstrukturierter Datenmengen
  • die Nutzung von Programmiersprachen, um das zu tun (am häufigsten SAS, SPSS, Python, R)
  • Muster in Big Data finden und Daten modellieren in Unternehmen und Regierungen, um Profite zu steigern oder bestmögliche Strategien zu entwickeln
  • Besseren Umgang mit Big Data entwickeln
  • Automatisierung dieser Prozesse

Der letzte Punkt ist ein wichtiger der Data Science. Viele Unternehmen stellen Data Scientists ein, um rentable Möglichkeiten zu entwickeln, ihre großen Mengen an Kundendaten in bessere Geschäftsansätze umzuwandeln. Andere Bereiche nutzen Data Scientists, um Fortschritt anzustoßen. Die Errungenschaften, die für die Automatisierung am ausschlaggebendsten sind, sind das maschinelle Lernen und Deep Learning.

Was sind maschinelles Lernen und Deep Learning?

Bis vor nicht allzu langer Zeit wurde künstliche Intelligenz (KI) als eine Errungenschaft der Zukunft angesehen. Heute wird KI täglich verwendet – alles von digitalen Assistenten bis zur fotografischen Gesichtserkennung. Viele Menschen sehen KI als etwas, das sich auf die Computerwissenschaft beschränkt. Sie hat jedoch viel mit der Data Science gemein. Zwei wichtige Beispiele dafür sind maschinelles Lernen und Deep Learning.

Einer der ersten Versuche, maschinelles Lernen zu definieren, wurde von einem Mann namens Alan Turing unternommen. 1950 veröffentlichte er seinen Artikel „Computing Machinery and Intelligence”, in dem er untersuchte, ob Maschinen tatsächlich „denken“ konnten.

Ein Jahr nach diesem Artikel stellten Marvin Minsky und Dean Edmonds die erste computerbasierte Simulation des menschlichen Hirns vor – auch bekannt als ein künstliches neuronales Netzwerk. Seitdem hat sich die Definition maschinellen Lernens weiterentwickelt und schließt nun die Fähigkeit von Computern mit ein, Informationen aufzunehmen und von den Daten selbständig zu lernen. Dabei werden sie immer präziser, weil sie „lernen”.

Maschinelles Lernen wird allgemein als ein Bereich der künstlichen Intelligenz betrachtet und Deep Learning gilt dann wiederum als Unterkategorie des maschinellen Lernens. Deep Learning führt die Automatisierung noch einen Schritt weiter und es wird dabei das Ziel verfolgt, dass Maschinen in der Lage sind, Objekte und Konzepte zu erkennen, ohne dass sie darauf programmiert werden.

Ein bekanntes Beispiel für maschinelles Lernen und Deep Learning hat mit Katzen zu tun. Maschinen kann in mehreren Lehrschritten mit Algorithmen beigebracht werden, Katzen zu erkennen. Deep Learning verspricht hingegen, dass Maschinen Katzen selbsttätig erkennen können, nachdem sie einer unvorstellbaren Anzahl an Katzenbildern ausgesetzt wurden

Anders ausgedrückt, die eine Variante beinhaltet die Manipulation von Daten, damit Maschinen Ergebnisse vorhersehen können. Die andere Variante beinhaltet riesige Datenmengen mit dem Ziel, dass Maschinen Ergebnisse vorhersehen können. Es liegt auf der Hand, dass beide Prozesse für Zwecke der Vorhersageanalysen eingesetzt werden.

Nach dem ersten Staatsexamen folgen noch das Ref und die zweite Staatsprüfung.
Werde Data Scientist oder Teamleiter eines IT-Teams. Quelle: Unsplash

Wie wird man Data Scientist?

Zum Glück gibt es eine Vielzahl an Ressourcen, die man nutzen kann, um tiefer in die Data Science einzutauchen, sei es, um aus Interesse etwas dazuzulernen oder bereits Erlerntes zu vertiefen.

Für die unter uns, die nach einem Bachelor- oder Masterprogramm der Data Science suchen, sind folgende Fragen wichtig:

  • Ist Data Science das Richtige für dich?
  • Welche Data-Science-Stellen gibt es?

Wenn du das richtige Data-Science-Studiengang für dich suchst, dann vergleiche die Kurse, die in den verschiedenen Phasen der Ausbildung enthalten sind. Manche Data-Science-Studiengänge verfolgen einen starken Mathematikfokus und legen damit den Schwerpunkt auf quantitative theoretische Anwendungsbereiche, andere Programme sind eher auf datenbasierte Geschäftsanalytik ausgerichtet.

Eine Maßnahme kann bei der Kursauswahl sehr hilfreich sein: Sieh dir Stellenangebote im Bereich Data Science an, die dich interessieren. Sollten sie wiederkehrende Anforderungen zeigen, schrieb dir diese auf und vergleiche sie später mit den verfügbaren Studiengängen. So erhältst du einen besseren Eindruck davon, welcher Studiengang am besten zu dir und deinen beruflichen Vorstellungen passt.

Solltest du bereits berufstätig sein und überlegen umzuschulen, dann solltest du dir überlegen, ob Data Science das Richtige für dich ist. Dafür kannst du dir Stellenangebote ansehen, die dein Interesse wecken, und ihre Anforderungen unter die Lupe nehmen.

Wenn diese deinen Vorstellungen und Interessen passen, du sie allerdings noch nicht aufweist, dann kannst du nach Möglichkeiten suchen, wie du sie erwerben kannst. Einige der üblichen Anforderungen an Data Scientists sind:

  • SQL
  • Python
  • Hadoop
  • Statistik
  • Analytische Fähigkeiten
  • Datenaufbereitung

Hier kannst du einige Statistikprobleme ausprobieren.

Glücklicherweise bieten Seiten wie Superprof eine Vielzahl von Nachhilfelehrern in diesen Bereichen, die ganz leicht online gefunden werden können. Wenn du mehr erfahren möchtest, dann sieh dir Online-Ressourcen wie Data-Science-Workshops an.

 

Auf der Suche nach einer Lehrkraft für Statistik?

Dir gefällt unser Artikel?

5,00/5 - 1 vote(s)
Loading...

Sarah

Als Dolmetscherin und Übersetzerin sind fremde Länder und Kulturen mein täglich Brot. Wenn ich nicht gerade meine Leidenschaft für Sprachen und Reisen auslebe, bin ich auf Fußballplätzen zu finden, mit meinem Longboard unterwegs oder probiere mich wahrscheinlich gerade an einer anderen Sportart aus.