Buzzwords Big Data & Data Science

Wer Management-Literatur liest oder sich sogar auf Management-Seminare begibt wird schon mehrfach den Begriffen big data, data science und data scientist begegnet sein. Big data ist mittlerweile ein so gängiger Begriff, dass er selbst in allgemeinen Nachrichtensendungen wie der Tagesschau auftaucht. Ich habe mich eine Weile mit der Bedeutung dieser Begriffe auseinandergesetzt und musste immer mehr feststellen, dass sie zu einfachen Buzzwords verkommen sind:

Wörter oder Phrasen, die für kurze Zeit populär sind deren Bedeutung jedoch soweit ausgehöhlt wurde, bis sie nur noch gut klingend, bedeutungsschwanger wirkend jedoch weitgehend nichtssagend sind.

Big Data

Sucht man im Internet nach einer Definition von big data, wird man keine befriedigende Antwort finden. Was genau sind denn big data?

  • 10MB? 100MB? 1GB? 1 TB? Mehr? Ein Datensatz mit 10.000 Zeilen? 100.000? 1 Million? Noch mehr? – Ab wann sind Daten groß?
  • Datensätze die so groß sind, dass man sie mit handelsüblichen Computern oder Programmen nicht mehr verarbeiten kann?  – Was sind handelsübliche Computer oder Programme?

Das sind alles Fragen, auf die es keine zufriedenstellende Antwort gibt. Vor zwei Jahren fand ich dann zufällig einen Artikel von Stephen Few, welcher sich seit Jahren mit der verständlichen Aufbereitung von Daten beschäftigt. Hier habe ich seine Definition ein wenig angepasst und übersetzt:

Big data ist das öffentliche Bewusstsein darüber, dass digital gespeicherte Informationen für die Gewinnung neuer Erkenntnisse genutzt werden können.

Unternehmen nutzen seit Jahrzehnten Daten für die Steuerung von Geschäftsprozessen. Früher nannten sie es nur nicht big data. Natürlich, heute haben die Datensätze einen weit größeren Umfang als früher. Google betreibt ganze Server-Farmen um die Datenmengen überhaupt verarbeiten zu können. Rechnet man das jedoch auf die Vergangenheit runter, wo einfach viel weniger Daten digital gespeichert verfügbar waren, war der Aufwand diese auszuwerten entsprechend groß. Magnetband-Rechner groß wir Kühlschränke wurden für Datenmengen verwendet, die heutzutage jedes Smartphone in einer exponentiellen Menge bewältigen kann.

Das damalige „big“ ist nur nicht mehr das „big“ von heute. Da es die Auswertung von digital gespeicherten Informationen von Anbeginn der digitalen Speicherung gibt und der Begriff „big“ sich kontinuierlich verändert, sehe ich nicht, dass big data irgendetwas neues ist worauf man mit dem Finger zeigen kann. Die Definition von Stephen Few finde ich daher angemessen.

Data Science & Data Scientist

Übersetzt lauten diese Begriffe Datenwissenschaft und Datenwissenschaftler. Auf den ersten Eindruck sind die Begriffe nicht sehr vorteilhaft gewählt. Wissenschaft beruht ausnahmslos immer auf irgendwelchen Daten die man objektiv auswerten kann.

Jetzt würde man denken, dass sich Datenwissenschaft auf die Wissenschaft von Daten selbst bezieht. Nur, was gibt es dort wissenschaftlich zu erforschen? Verschiedene Datenbanken können in ihrer Verarbeitungsgeschwindigkeit unter gegebenen Voraussetzungen verglichen werden aber dies sind nur Leistungstests von Programmen, die wiederum von Informatikern geschrieben worden sind. Hochleistungsdatenbanken müssen nicht wissenschaftlich untersucht werden, den Programmierern ist völlig bekannt wie diese aufgebaut sind. Natürlich kann man wissenschaftlich sauber bei solchen Untersuchungen vorgehen aber dies rechtfertigt meines Erachtens nicht den Begriff Datenwissenschaft.
Würde es hierbei darum gehen, wie Menschen mit Daten umgehen, dann wären wir wieder in der Domäne der Psychologie.

In der Regel sind Datenwissenschaftler Programmierer, die sich mit Datenbanken auskennen und wissen, wie sie große Mengen an Daten verarbeiten können. Sie nutzen statistische Methoden sowie „machine learning“ (in diesem Beitrag wird der Begriff sehr schön erklärt) und „neural networks“ um die verarbeiteten Daten auszuwerten. Hier gibt es leider das Problem, dass Programmierer selten mit Statistik in Berührung kommen. Hierfür gibt es Statistiker und diese müssen sich zwangsläufig mit den aktuellen Werkzeugen ihres Gewerbes auseinandersetzen um handlungsfähig zu bleiben. Ein ausgebildeter Statistiker mit Diplom oder Master ist jedem selbsternannten data scientist haushoch überlegen. Data scientist ist kein geschützter Begriff: Da ich mit Daten arbeite und Wissenschaftler bin, bin folglich auch ich ein data scientist!

 

Unternehmen brauchen keine data scientists. Sie brauchen Programmierer, um zuverlässig große Datenmengen zu speichern und zu warten. Sie brauchen Statistiker um diese Daten auszuwerten. Geht es bei diesen Auswertungen um Rückschlüsse auf menschliches Verhalten und wie man dieses verändern kann, z. B. die Frage zu beantworten, warum ein neues Produkt auf dem Markt abgelehnt wird obwohl es augenscheinlich den vorangegangenen Marktanalysen entspricht, dann wäre ein Psychologe die richtige Wahl.

Advertisements

Quantified Self

Vor ein paar Jahren, bevor ich im Leibniz-Institut für Wissensmedien Doktorand wurde und nur Projektarbeit geleistet habe, hatten wir in einer Sitzung unserer Arbeitsgruppe eine Frage bearbeitet:

Welche Technologien werden in naher Zukunft an Bedeutung gewinnen?

Der Grund für diese Frage war, dass wir mit unseren Studien nicht nur Grundlagenforschung mit Praxisbezug (gemäß Leibniz‘ Motto „theoria cum praxi“) durchführen wollen, sondern als Institut mit starkem Medienbezug auch am Puls der Zeit bleiben möchten.

Meine Antwort hierauf war: „Quantified self“. Hiermit ist die Erfassung und Auswertung personenbezogener Daten gemeint, die heute bereits Einzug in zahlreiche Haushalte gefunden hat.

Jeder Mensch generiert täglich reichlich Daten und wenn man Interesse daran hat, kann man diese auch mehr oder weniger bequem erfassen und auswerten. Das Paradebeispiel hierfür sind Fitnesstracker, die aufzeichnen, wie lange und wie schnell man sich bewegt hat, wohin man sich begeben hat und wie der Puls war. Für fitnessaffine Menschen durchaus interessante Informationen.
Hier steht nicht die Aggregation von Daten über viele Menschen im Mittelpunkt, sondern das Individuum. Es ist durchaus nett zu wissen, wie weit andere Menschen meines Alters und Gewichts laufen können, aber bedeutender ist mir, wie es um meine Fitness steht, ob ich sie verbessert haben und an welchen Stellen ich sie verbessern kann.
Diese Erfassung und Auswertung von personenbezogenen Daten ist aber kein neues Phänomen. Sehr viele Menschen machen dies seit langem, zumeist jedoch mit Papier und Bleistift. Smartphones und das sich verbreitende „internet of things“ haben dies jedoch deutlich vereinfacht, da man nun viele Gegenstände des Alltags miteinander kommunizieren lassen kann.

Es geht nicht nur um die Verbesserung der eigenen Fitness sondern auch um vieles mehr, was sich personenbezogen erfassen und auswerten lassen kann. Manchmal ist hierfür den Einbau von günstigen Computerchips nötig, die eine automatische Erfassung ermöglichen.

Persönliche Finanzen – Wer viel per Überweisung und Karte bezahlt, kann sich durchaus intelligent die persönlichen Ausgaben auswerten und darstellen lassen. Auch wenn es noch lange nicht perfekt ist, gibt es von der Buhl GmbH (bekannt für die WISO Steuererklärungssoftware) die App/Webseite Finanzblick. (Ich werde demnächst einen Beitrag über die Verwaltung persönlicher Finanzen verfassen, da ich mich auch in meiner Doktorarbeit viel damit beschäftigt habe.)

Persönliche Mobilität – Die Autoindustrie hängt da noch ein wenig hinterher. Gerne würde ich erfasst haben, wie viel Treibstoff ich wann verbraucht habe und wohin ich, wie schnell gefahren bin. Waze ist sehr hilfreich bei Autofahrten und ermöglicht anderen den Nutzen durch die selbst generierten Daten. Bosch hat die Sparte „internet of things“ deutlich ausgebaut, welche weit über Kfz hinausgeht. Es gibt auch Bemühungen von Drittanbietern, die Kfz-Daten auszulesen und verfügbar zu machen: OpenXC liest über die OBD-Schnittstelle des Autos Daten aus und sendet sie per Bluetooth an ein Smartphone.

Persönliche Gesundheit – Apple hat nicht nur die Health App auf den Markt gebracht, welche zahlreiche Gesundheitsdaten verschlüsselt auswertet, sondern auch gleich die API mitgeliefert, damit andere Anbieter auch die Apple-Strukturen nutzen können: HealthKit ermöglicht es, dass das Gerät eines anderen Herstellers, mit den Geräten von Apple kommunizieren kann. Ich bin nicht begeistert von der Idee, alle meine gesundheitsrelevanten Informationen über Apple laufen zu lassen.

 

Bei all diesen Auswertungen von personenbezogenen Daten und ihrer Darstellung, gilt eines zu beachten:

Ohne eine Verhaltensänderung zu bewirken, sind alle Daten und Visualisierungen nutzlos.

Vieles ist schön anzusehen und interessant für den Moment aber wenn es das Verhalten einer Person nicht ändert, dann hat es keinen Sinn. Die Funktion dieser Daten ist, dass man letztlich das eigene Verhalten anpasst und beispielsweise mehr läuft oder weniger Geld für Schuhe ausgibt. Hat eine Auswertung oder die dazugehörige App/Webseite diesen Nutzen nicht für den Benutzer, dann wird dieser sie schnell wieder deinstallieren/verlassen.

Auch wenn das alles schön klingen mag mit „quantified self“, darf man die Sicherheit der Daten nicht vernachlässigen. Ich erfasse gerne personenbezogene Daten über mich jedoch möchte ich sichergestellt haben, dass diese gnadenlos stark verschlüsselt werden. Was ich wann, wo, wie und mit wem mache, geht nur mich und die Leute an, mit denen ich es teilen möchte.

OTTO: Vom Katalog zu Business Intelligence

Viele werden sich noch an den verstaubten Otto-Katalog im Wohnzimmer erinnern aus einer Zeit vor dem Internet. Ein klassischer Versandhandel, der den Sprung ins Internetzeitalter etwas verschlafen hat.
Mittlerweile muss man aber zugeben, dass die Otto Group wirklich gut aufgeholt hat.

Die Webseite ist gut. Natürlich kann man noch einiges verbessern aber im Kern ist sie solide und erfüllt ihren Zweck. Nicht nur das, die dazugehörige Software „Lhotse“ wurde selbst geschrieben und kann mit Tausenden von Anfragen gleichzeitig umgehen. Otto.de ist im Augenblick des Schreibens auf Rang 47 der populärsten Webseiten in Deutschland, was bei der Anzahl an existierenden Webseiten ein grandioses Ergebnis ist.

Die Otto Group hat es nicht nur geschafft, ihren Versandhandel erfolgreich zu aktualisieren, sondern auch gemerkt, dass sie über einen reichen Datenschatz verfügen.

Wir kennen die Hälfte aller deutschen Frauen, weil sie bei uns einkaufen.
– Torsten Ahlers, Geschäftsführer Otto Group Media

Business Intelligence Tools sind nötig, um diese Daten gewinnbringend zu nutzen. So hat die Otto Group ihre eigene Business Intelligence Abteilung gegründet, die den Konzern mit Informationen versorgen. So werden aus Bergen an Rohdaten Informationen destiliert und für ein einfacheres Verständnis grafisch aufbereitet, sodass diese von Entscheidungsträgern, handlungsweisend für ökonomisch förderliche Entscheidungen genutzt werden können.

Ebenfalls lobenswert ist, dass sie sich Gedanken um „Knowledge Management“ machen: Heutzutage sind Arbeitsabläufe durch die vielen verschiedenen Schritte und beteiligten Akteure sehr komplex geworden. Scheidet ein Mitarbeiter aus dem Unternehmen aus, so geht sein Wissen auch verloren. Die Einarbeitung von Nachfolgern findet nicht immer statt und ist häufig ungenügend. Hier muss man sich als Unternehmen Gedanken machen, wie Wissen effizient externalisiert werden kann, so das es nicht verloren geht und andere es auch nutzen können. Dies kostet wieder Energie, Zeit und Geld, besonders, wenn man es richtig machen möchte. Wer möchte schon seitenlange, unstrukturierte Texte eines Vorgängers über die korrekte Handhabung eines bestimmten Antragsformulars lesen?

Begonnen habe ich meine Doktorarbeit damit, wie man Wissen über das Wissen von anderen förderlich auf die Lösung von Problemen einsetzen kann. Hierbei habe ich an zwei Artikeln kooperiert. Die Mittel die notwendig sind, einen erfolgreichen Wissenstransfer durchzuführen sind trivial. Die zugrundelegenden psychologischen Vorgänge sind komplex. Ohne die nötige Expertise, kann man hier viel Aufwand ohne merklichen Erfolg betreiben.

Die Otto Group scheint begriffen zu haben, dass es einerseits darum geht, Wissen und Daten effizient zu nutzen und andererseits, beides auch zu erhalten.

Innovation für AVM und die FRITZ!Box

Das Unternehmen AVM wird den meisten Menschen durch ihr Produkt, die FRITZ!Box, bekannt sein. Ich sehe dort noch reichlich Potential bei AVM, ein wirklich innovativ bahnbrechendes Unternehmen zu werden. Eine große Idee möchte ich hier teilen, für die Durchführung braucht AVM aber jemanden mit einer Vision für das Unternehmen und der nötigen Motivation und Fähigkeit, es selbstständig und langfristig dorthin zu führen. Ein (eingekauftes) Intrapreneurship wenn man so will oder genauer, „organizational innovation“, wenn man Antoncic und Hisrich  (2003) herbeizieht.

Ich habe in meinem Leben schon die verschiedensten Modems und Router eingekauft und konfiguriert: Netgear, Vodafone, Telekom, Unitymedia/Kabel BW. Am angenehmsten zu konfigurieren war aber immer die FRITZ!Box. Und nicht nur das man sie weitgehend mühelos einrichten kann, sie funktioniert in der Regel auch einwandfrei. Was mich sehr freut ist die „update policy“ von AVM, bei der regelmäßig auch ältere Boxen neue Softwareupdates erhalten, welche nicht nur Sicherheitslöcher schließen und Probleme beheben, sondern auch die Benutzeroberfläche verbessern.

Da die FRITZ!Boxen so populär und verbreitet sind, könnte AVM noch einen Schritt weiter gehen und etwas innovatives auf den Markt bringen. Tatsächlich ist diese Idee nicht nur von AVM realisierbar. Genauso gut könnte es auch die Telekom oder ein anderer Anbieter/Hersteller verwirklichen.

Die aktuellen FRITZ!Boxen sind nicht nur Modems, sondern auch Router und Telefonzentralen. Sie fungieren natürlich auch als Mediaserver im eigenen Netzwerk. Um über das Internet einen Zugriff auf das private Netzwerk Zuhause zu bekommen, bietet AVM bereits mit MyFritz einen einfachen DynDNS-Dienst an. Wählen sich Geräte ins Internet ein, bekommen sie immer wieder eine neue IP-Nummer. Ein DynDNS-Dienst macht, dass obwohl ein Gerät jetzt eine neue IP-Nummer hat, es z. B. immer unter der selben Adresse http://richardkolodziej.org über das Internet zu erreichen ist.

Was nun folgen sollte, wäre der Ausbau dieser Server-Funktion. Bei vielen meiner Kunden habe ich gemerkt, dass es ihnen nicht recht ist, wenn z. B. ihre E-Mails oder Dateien auf einem unbekannten Server „in the cloud“ gespeichert werden. Sie machen sich einfach Sorgen um ihre Privatsphäre oder haben rechtliche Bedenken.

Ein privater Datei- und E-Mail-Sever im Sinne eines privaten Google Drive und Google Mail wäre der nächste Schritt in der Entwicklung der FRITZ!Box. Man verbaut intern eine Festplatte anstatte sie über einen USB-Anschluss optional anzubinden. Vielleicht macht man aus der FRITZ!Box tatsächlich eine stylische Box in unterschiedlich verfügbaren Farben und einem LCD-Display, so dass man diese auch gerne als komplette Medien- und Kommunikationszentrale im Zimmer stehen hat.

Menschen mögen es zu Wissen, dass ihre E-Mails und ihre Dateien, bei ihnen Zuhause sind.

Für den technisch nicht so versierten Benutzer, was etwa 90% ausmacht, ist es ein gutes Gefühl zu Wissen, dass man Notfalls Zuhause einfach einen Stecker ziehen kann und der Zugriff auf die eigenen Daten (Bilder, E-Mails, Dokumente, Kontakte etc.) ist physikalisch nicht mehr möglich. Hierfür braucht man aber eine gebrauchstaugliche grafische Oberfläche, die die Komplexität der Konfiguration versteckt.

Für die Verwirklichung gibt es schon freie Software auf der AVM aufbauen könnte. Mit beispielsweise Owncloud bzw. Nextcloud gäbe es einen einfach zugänglichen Datei-Server. Freie Mail-Server sind Industriestandard, die grafische Einbindung in Owncloud fehlt leider noch. Aber auch hier gibt es reichlich Kandidaten (wobei ich ein Auge auf Mailpile habe). Mit Syncthing könnte man dann alle Geräte synchronisieren und somit auch automatische Backups anlegen.

Alles in allem ist die Idee, dass man alle privaten Daten bei sich Zuhause hat und diese durch das Ziehen eines Kabels oder das Umlegen eines Schalters (das Drücken eines einfachen Knopfs oder gar eines Touch-Displays genügt psychologisch nicht) vom Internet trennen kann.

Hiermit würde AVM die Menschen in Deutschland unabhängig von größeren Anbietern und ihren Allgemeinen Geschäftsbedingungen machen. Natürlich davon ausgehend, dass AVM sich selbst an freie Lizenzen hält und transparent bleibt. Nichts wäre schlimmer als eine Kiste, die mir suggeriert, nur ich hätte Zugriff auf den Inhalt aber ich dann feststelle, dass auch vertreibende Unternehmen irgendeinen nicht deutlich gemachten Zugriff darauf hat.

Über die Tücken der technischen Umsetzbarkeit dieser Idee kann ich kein Urteil fällen, aber da es etwas Neues ist, wird es nicht leicht sein. AVM müsste sich stärker zum Software-Anbieter entwickeln. Aber ähnlich wie bei einer Doktorarbeit: Man schafft auf Grundlage des Vorhandenem etwas noch nie dagewesenes. Mit Ausdauer und Disziplin ist alles möglich.

Startup-Mentalität und organizational life cycle

Nachdem ich jüngst über Hotelsoftware geschrieben habe, kontaktierte mich kurz darauf Sirvoy, einer der von mir erwähnten Anbieter. Anlässliche dieses Kontakts habe ich mir Gedanken zu Startups gemacht, wo Sirvoy meines Erachtens nach hineinzufallen scheint oder zumindest noch nicht herausgewachsen ist. Dies führte mich auch dazu, mir Gedanken über die unterschiedlichen Anforderungen der einzelnen Stufen des „organizational life cycles“ nachzudenken und wie erwachsene Unternehmen sich die Vorteile eines Startups zueigen machen können.

Hier muss ich erwähnen, dass Startup-Mentalität ein recht diffuser Begriff ist und dem Entrepreneurship in ihrer Bedeutung recht ähnlich. Es geht hierbei jedoch weniger um die betriebswirtschaftlichen und psychologischen Voraussetzungen und Gegebenheiten der Gründung eines neuen Unternehmens, sondern um die Vor- und Nachteile der Mentalität, der Arbeitsweise, die mir bei bestehenden Startups aufgefallen ist.

Vorteile

Startups sind aufgrund ihrer Größe sehr flexibel, sie können sehr schnell ihre Richtung wechseln und sich an veränderte Markteigenschaften anpassen. Es wird „bleeding edge technology“ eingesetzt und unmittelbar auf die Anforderungen der Kunden reagiert. Es wird mit der Tradition gebrochen und etwas Neues, Aktuelles erschaffen, was den momentanen Zeitgeist und vor allem Bedarf entspricht.

Startups müssen mit der Qualität des Produktes und Einfachheit der Bedienung überzeugen, so das für den Kunden ein tatsächlicher Mehrwert gegenüber „traditionelleren“ Anbietern entsteht. All das wird durch reichlich Motivation und viel Arbeit erreicht.

Nachteile

Die Hohe Motivation, die durch viele „pep talks“ versucht wird aufrecht zu erhalten, kann auf Dauer nicht über das Arbeitspensum hinwegtäuschen. Burnout ist häufig die Konsequenz: Wer so viel Zeit und Energie in ein Projekt hineinpumpt, der brennt irgendwann auch einmal aus, wenn er nicht rechtzeitig wächst oder wachsen kann.

Die Nutzung der neuesten Technologien hat den Nachteil, dass diese noch nicht so ausgereift sind wie etablierte Technologien. Häufig geht auch hier das sogenannte Not-invented-here-Syndrom einher, bei dem bestehende Arbeitsweisen und Technologien ignoriert werden, da sie nicht im eigenen Haus entwickelt wurden. Dadurch wird das Rad ständig neu erfunden, was Energie, Zeit und Geld kostet.

Der größte Nachteil der selten erkannt wird, ist der faktische Mangel an Expertise. Den Gründern fehlt es häufig einfach an Wissen über Buchhaltung, Marketing, Kundenakquise und Weiteres. Sie haben eine mehr oder minder gute Idee mit der sie eine Marktlücke füllen wollen. Ihre Fähigkeiten beschränken sich zumeist ausschließlich auf die praktische Umsetzung dieser Idee. Alles andere ist mangelhaft aber notwendig für das Wachstum des Unternehmens.

Organizational life cycle

Schaut man sich den „organizational life cycle“ (nach Lester, Parnell, & Carraher, 2003) an, dann stehen Startups auf Stufe zwei von fünf:

  1. Existenz (existence) – Die Geburtsstunde des Unternehmens. Einer oder wenige Gründer versuchen ihren Weg zu finden und genügend Kunden zu akquirieren.
  2. Überleben (survival) – Hier geht es darum zu wachsen und geschäftsfähig zu bleiben. Hier trennt sich die Spreu vom Weizen.
  3. Erfolg (success) – Das Erwachsenenalter eines Unternehmens. Strukturen und formale Prozeduren haben sich eingebürgert. Es wird weniger versucht Neues zu entwickeln sondern mehr, Bestehendes zu erhalten.
  4. Erneuerung (renewal) – Hier herrscht die Sehnsucht nach schlankeren Zeiten, als das Unternehmen noch beweglicher war. Es geht um die Erneuerung innerhalb der bestehenden Strukturen.
  5. Verfall (decline) – Unternehmen können bei jeder Stufe untergehen aber diese hier ist geprägt von Politik und Macht. Persönliche Ziele übertrumpfen die Ziele des Unternehmens.

Startups haben ihre Vorteile und erwachsene Unternehmen können diese in einer bestimmten Form auch für sich nutzbar machen. Eingangs erwähnte ich Entrepreneurship und wie sich dieses meines Erachtens nach von Startup-Mentalität unterscheidet. Der Fachbegriff für das Entrepreneurship innerhalb Unternehmens nennt sich „Intrapreneurship“. Während Startups noch versuchen zu überleben, sind erwachsene Unternehmen bereits erfolgreich und streben langsam nach einer Erneuerung. Von Intrapreneurship können Unternehmen wie Möbel Rieger oder auch Protel stark profitieren. Eine Revitalisierung des Geschäfts von Innen heraus. Apple ist hierfür das Paradebeispiel.