Buzzwords Big Data & Data Science

Wer Management-Literatur liest oder sich sogar auf Management-Seminare begibt wird schon mehrfach den Begriffen big data, data science und data scientist begegnet sein. Big data ist mittlerweile ein so gängiger Begriff, dass er selbst in allgemeinen Nachrichtensendungen wie der Tagesschau auftaucht. Ich habe mich eine Weile mit der Bedeutung dieser Begriffe auseinandergesetzt und musste immer mehr feststellen, dass sie zu einfachen Buzzwords verkommen sind:

Wörter oder Phrasen, die für kurze Zeit populär sind deren Bedeutung jedoch soweit ausgehöhlt wurde, bis sie nur noch gut klingend, bedeutungsschwanger wirkend jedoch weitgehend nichtssagend sind.

Big Data

Sucht man im Internet nach einer Definition von big data, wird man keine befriedigende Antwort finden. Was genau sind denn big data?

  • 10MB? 100MB? 1GB? 1 TB? Mehr? Ein Datensatz mit 10.000 Zeilen? 100.000? 1 Million? Noch mehr? – Ab wann sind Daten groß?
  • Datensätze die so groß sind, dass man sie mit handelsüblichen Computern oder Programmen nicht mehr verarbeiten kann?  – Was sind handelsübliche Computer oder Programme?

Das sind alles Fragen, auf die es keine zufriedenstellende Antwort gibt. Vor zwei Jahren fand ich dann zufällig einen Artikel von Stephen Few, welcher sich seit Jahren mit der verständlichen Aufbereitung von Daten beschäftigt. Hier habe ich seine Definition ein wenig angepasst und übersetzt:

Big data ist das öffentliche Bewusstsein darüber, dass digital gespeicherte Informationen für die Gewinnung neuer Erkenntnisse genutzt werden können.

Unternehmen nutzen seit Jahrzehnten Daten für die Steuerung von Geschäftsprozessen. Früher nannten sie es nur nicht big data. Natürlich, heute haben die Datensätze einen weit größeren Umfang als früher. Google betreibt ganze Server-Farmen um die Datenmengen überhaupt verarbeiten zu können. Rechnet man das jedoch auf die Vergangenheit runter, wo einfach viel weniger Daten digital gespeichert verfügbar waren, war der Aufwand diese auszuwerten entsprechend groß. Magnetband-Rechner groß wir Kühlschränke wurden für Datenmengen verwendet, die heutzutage jedes Smartphone in einer exponentiellen Menge bewältigen kann.

Das damalige „big“ ist nur nicht mehr das „big“ von heute. Da es die Auswertung von digital gespeicherten Informationen von Anbeginn der digitalen Speicherung gibt und der Begriff „big“ sich kontinuierlich verändert, sehe ich nicht, dass big data irgendetwas neues ist worauf man mit dem Finger zeigen kann. Die Definition von Stephen Few finde ich daher angemessen.

Data Science & Data Scientist

Übersetzt lauten diese Begriffe Datenwissenschaft und Datenwissenschaftler. Auf den ersten Eindruck sind die Begriffe nicht sehr vorteilhaft gewählt. Wissenschaft beruht ausnahmslos immer auf irgendwelchen Daten die man objektiv auswerten kann.

Jetzt würde man denken, dass sich Datenwissenschaft auf die Wissenschaft von Daten selbst bezieht. Nur, was gibt es dort wissenschaftlich zu erforschen? Verschiedene Datenbanken können in ihrer Verarbeitungsgeschwindigkeit unter gegebenen Voraussetzungen verglichen werden aber dies sind nur Leistungstests von Programmen, die wiederum von Informatikern geschrieben worden sind. Hochleistungsdatenbanken müssen nicht wissenschaftlich untersucht werden, den Programmierern ist völlig bekannt wie diese aufgebaut sind. Natürlich kann man wissenschaftlich sauber bei solchen Untersuchungen vorgehen aber dies rechtfertigt meines Erachtens nicht den Begriff Datenwissenschaft.
Würde es hierbei darum gehen, wie Menschen mit Daten umgehen, dann wären wir wieder in der Domäne der Psychologie.

In der Regel sind Datenwissenschaftler Programmierer, die sich mit Datenbanken auskennen und wissen, wie sie große Mengen an Daten verarbeiten können. Sie nutzen statistische Methoden sowie „machine learning“ (in diesem Beitrag wird der Begriff sehr schön erklärt) und „neural networks“ um die verarbeiteten Daten auszuwerten. Hier gibt es leider das Problem, dass Programmierer selten mit Statistik in Berührung kommen. Hierfür gibt es Statistiker und diese müssen sich zwangsläufig mit den aktuellen Werkzeugen ihres Gewerbes auseinandersetzen um handlungsfähig zu bleiben. Ein ausgebildeter Statistiker mit Diplom oder Master ist jedem selbsternannten data scientist haushoch überlegen. Data scientist ist kein geschützter Begriff: Da ich mit Daten arbeite und Wissenschaftler bin, bin folglich auch ich ein data scientist!

 

Unternehmen brauchen keine data scientists. Sie brauchen Programmierer, um zuverlässig große Datenmengen zu speichern und zu warten. Sie brauchen Statistiker um diese Daten auszuwerten. Geht es bei diesen Auswertungen um Rückschlüsse auf menschliches Verhalten und wie man dieses verändern kann, z. B. die Frage zu beantworten, warum ein neues Produkt auf dem Markt abgelehnt wird obwohl es augenscheinlich den vorangegangenen Marktanalysen entspricht, dann wäre ein Psychologe die richtige Wahl.

Advertisements

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden / Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden / Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden / Ändern )

Google+ Foto

Du kommentierst mit Deinem Google+-Konto. Abmelden / Ändern )

Verbinde mit %s