Data Science

Wissen ist MachtFrancis Bacon

Schwerpunkte

Schon der Philosoph Francis Bacon stellte fest, dass Wissen Macht ist. Wissen entsteht durch Informationen und kann vielfältig genutzt werden. Ein Unternehmen muss beispielsweise Chancen und Risiken abwägen können, um daraus die richtigen Entscheidungen treffen zu können. Nur mit dem richtigen Wissen und den darunterliegenden Informationen, kann ein Unternehmen erfolgreich handeln. Somit wird deutlich, dass Informationen ein erfolgskritischer Unternehmensfaktor sind.
In der heutigen Zeit, werden sehr viele Daten generiert. Sei es durch Social Media, Sensordaten aus der Industrie, Internet of Things (IoT), User-Tracking, usw, nur um einige zu nennen. Diese Daten beinhalten eine enorme Menge an Informationen, die ein nicht zu unterschätzendes Potenzial aufweisen. Um dieses Potenzial ausschöpfen zu können, müssen zwei Faktoren gegeben sein: Erstens müssen die Daten in einer für die Auswertung notwendigen Qualität vorliegen und zweitens müssen die Daten auch ausgewertet werden.
Die Bereitstellung und Auswertung der Daten wird unter dem Sammelbegriff Data Science zusammengefasst. Data Science unterscheidet dabei zwischen dem Data Engineer, welcher für die Datenbereitstellung zuständig ist, und dem Data Scientist, welcher wiederum die zugrundeliegenden Daten auswertet.

Eigene Darstellung nach data-science-blog.com



Wie der Name es schon erahnen lässt, beschäftigt sich der Data Engineer mit Daten, um genau zu sein, mit sehr großen Datenmengen. Stichwort BigData. Daten, die unter den Begriff BigData fallen, sind Datenmengen, die zu groß oder zu komplex sind oder sich zu schnell ändern, um sie mit händischen und klassischen Methoden auszuwerten. Das Datenvolumen steigt unter anderem durch die stetige Zunahme von maschinell erzeugten Daten. Als Beispiel sei hier das Internet der Dinge (IoT) genannt oder Sensordaten von Flugzeugturbinen.
Das Aufgabenfeld des Data Engineers lässt sich in drei Bereiche untergliedern, die sich aus der oberen Grafik entnehmen lassen:

  1. Datenbanktechnologien
  2. Datenzugriff & Transformation
  3. Entwicklung

Der Data Engineer kennt sich im Bereich der Datenbanktechnologien bestens aus, um eine für die Anwendungsfälle notwendige Technologiebasis zu schaffen. Neben dem Entwurf der Architektur, setzt er diese auch um und konfiguriert und administriert das BigData System. Auf dieser Architektur aufbauend, extrahiert der Data Engineer alle relevanten Daten aus verschiedenen Quellen, bereitet diese ggf. auf und speichert sie im BigData System ab. Zusätzlich stellt er über geeignete Schnittstellen die Daten anderen Diensten zur Verfügung. Die Entwicklungsaufgaben umfassen dabei die Entwicklung der Schnittstellen, aber auch einzelner Pipelines zur Transformation der Daten.
Das Data Engineering befasst sich somit ganzheitlich mit der Speicherung, Verarbeitung und Bereitstellung von Daten im Big Data Bereich und bildet die Basis für die darauf aufbauenden Prozesse. Das Big Data System bildet auch die Arbeitsgrundlage für den Data Scientist.

Der Data Scientist beschäftigt sich ebenfalls mit Daten, doch anders als der Engineer, stellt er die Daten nicht zur Verfügung, sondern arbeitet mit diesen, um Informationen und damit einhergehend Wissen zu generieren. Dabei nutzt der Data Scientist Methoden und Tools, welche größtenteils Mathematik, Statistik und Wahrscheinlichkeitsmodelle nutzen. Zusätzlich werden die gewonnenen Informationen anschaulich visualisiert und verständlich dargestellt. Ziel ist es dabei nicht, reine Informationen zu präsentieren, sondern diese als roten Faden eines ganzen Anwendungsfalls darzustellen. Stichwort Storytelling.
Der Data Scientist ist aber mehr als ein Data Analyst 2.0. Er beherrscht zwar auch das Handwerk eines Datenanalysten, jedoch erweitert er dieses Wissen beispielsweise um die bereits genannten mathematischen Methoden, um komplexere Aufgaben zu lösen. Damit wird nicht nur die Möglichkeit geschaffen, Informationen aus Big Data zu extrahieren, es ist auch möglich, die sogenannte künstliche Intelligenz zu entwickeln, welche zum Beispiel zur Spracherkennung genutzt wird. Dabei muss mn jedoch zwischen Deep Learning, Machine Learning und Artificial Intelligence unterschieden werden.
Der Schwerpunkt des Data Scientists liegt demnach nicht direkt bei den Daten, sondern bei der Art und Weise wie die Daten verarbeitet, aufbereitet und analysiert werden.