Wer dieser Tage „Big Data“ als Suchwort bei  amazon.de eingibt, wird an erster Stelle auf das im Titel genannte Werk von Viktor Mayer-Schonberger und Kenneth Cukier verwiesen. Für gewöhnlich stehe ich Management-Literatur skeptisch gegenüber, aber als ich den „Pressestimmen“ zum Buch entnahm, dass auch Clay Shirky, ein geistvoller Social-Media-Theoretiker, sich in höchsten Tönen über dieses Buch geäußert hat, gab ich der one-Click-Buy-Versuchung nach.

Um es vorwegzunehmen. Das Buch wird den Lobeshymnen nur teilweise gerecht. Allerdings sind gerade seine Schwachpunkte sehr lehrreich.

Fangen wir mit den positiven Aspekten an: Mayer-Schonberger/Cukier  schlagen einen weiten Bogen – von der  Sozialhistorie des Messen und Quantifizierens und kausaler Denkmodelle bis hin zu neueren Erkenntnisse führender Behavorial Economists bzw. empirischen Psychologen (wie z.B. Kahnemann). Diese intellektuellen Ausflüge sind nicht Selbstzweck, sondern verorten das Thema in einem breiteren, die reine BWL-Perspektive erfreulicherweise überschreitenden Kontext.

Erfreulich ist zudem, dass sich die Autoren um eine grundlegende Beschreibung des Big Data- Phänomens bemühen. Danach zeichnet sich Big Data durch folgende Merkmale bzw. Eigenschaften aus (ich zitiere hier einige Kernsätze aus dem englischen Original):

  • „Big data refers to things one can do ta large scale that cannot be done a a smaller one, to extract new insights or create new forms of value, in ways that change markets, organizations, the relationship between citizens and governments, and more.“ (S. 6)
  • „Big data gives us an expecially clear view of the granular: subcategories and submarkets that samples can’t access.“(S. 13)
  • „Processing big data entails an inevitable loss of information“ (S. 45)
  • What we lose in accuracy at the micro level we gain in insight at the macro level.“ (S. 13)
  • „Big data is about what, not why“ (S. 14)
  • „Causality won’t be discarded, but it is being knocked off its pedestal as the primary fountain of meaning (S. 68)
  • „In place of the hypothesis-driven approach, we can use a data driven one“ (55)
  • „At its core, big data is about predictions“ (S. 11)

Bis auf den letzten Punkt, zu dem ich eine abweichende Auffassung vertrete (dazu später mehr), beschreiben diese pointierten Sätze wesentliche Kennzeichen des Big Data-Ansatzes. In der Tat geht die Verarbeitung operativer Massendaten in Echtzeit mit einer Reduzierung von Genauigkeit und Kontrolle einher. Anders als bei relationalen Datenbanken werden die Daten nicht auf die x-te Ebene normalisiert, um dann auf unterschiedlichste Weise miteinander in Beziehung  gesetzt werden zu können. Vielmehr werden Daten unterschiedlichster Provenienz in verteilten Dateisystemen (z.B. Hadoop-Cluster) geladen, um umfassendes Monitoring und Analysen zugänglich gemacht zu werden. Mit Hilfe von Key Value-Stores, die einfache korrelative Beziehungen abbilden, gelingt es, die erforderliche Geschwindigkeit bei der Analyse zu gewährleisten. Dabei geht – wie die Autoren richtigerweise betonen – nicht um Kausalanalyse, sondern um das Erfassen korrelativer Beziehungen und deren Veränderungen im Zeitverlauf.

Die Aussage der Autoren, dass Big Data ein Hypothesen-freier Ansatz sei, ist insofern korrekt, als die Integration unterschiedlichster Datenquellen weitgehend unabhängig von konkreten Annahmen zu Wirkungs-zusammenhängen erfolgt.  Leider versäumen es die Autoren darauf hinzuweisen, dass hypothesenfreie Mustererkennung keine Big Data-Innovation ist,  sondern bereits seit mehr als 20 Jahren unter der Bezeichnung „Data Mining“ praktiziert wird.  Die eigentliche Innovation von Big Data besteht darin, Analysen nicht mehr auf Stichproben, sondern auf der Grundgesamtheit durchzuführen („n=all“). Das macht vor allem dann einen qualitativen Unterschied, wenn es sich um selten auftretende Muster, Nischenregeln bzw. „Outlier“ handelt, wie es Mayer-Schonberger/Cukier  nennen. Die Autoren versäumen es allerdings darauf hinzuweisen, dass es in allen anderen Fällen hinreichend ist, Muster auf Sample-Ebene zu detektieren und die ihnen zugrunde liegenden Regeln auf die Grundgesamtheit automatisiert anzuwenden.

Aber auch letzteres  ist nur ein Anwendungsfall von Big Data. Es lassich auch jenseits von automatisierter Regelerkennung Vorgänge explorieren. Bei komplexem Cybecrime z.B. bewegen sich die Täter oft jenseits bekannter Muster und so sehr an den Rändern der Datenbeobachtung, dass klassisches Data Mining zu kurz greift. Wie sich derartige Probleme bewältigen lassen, zeigt das US-Unternehmen Palantir mit seiner mächtigen Datenintegrationsplattfrom, auf der indivuell auffällige Vorgänge entlang unterschiedlichster Datenspuren individuell zurückverfolgt werden – eine gleichsam detektivische Vorgehensweise, um die Nadel im Heuhaufen zu finden. Dabei werden nicht selten eigens für die individuelle Exploration neue Datenquellen angeschlossen werden, um den „Drill-Down“ fortsetzen zu können.

Der mit Abstand wichtigste Use Case ist meines Erachtens das umfassende Monitoring von Abweichungen von Normwerten. Dazu geben Mayer-Schonberger/Cukier selbst eine Vielzahl von Beispielen. So lassen sich Werte aus operativen Anlangen zeitnah auswerten, so dass Irregularitäten und Verschleißerscheinungen früh sichtbar werden. In der Medizin gibt es analoge Beispiele, wo kontinuierliche Messungen und automatisierte Auswertungen zu effektiverer Behandlung führen.

Gerade weil kontinuierlich gemessen und analysiert werden kann, werden Prognosen tendenziell durch Wissen über Zustandsveränderungen ersetzt. Es ist daher zumindest irreführend, wenn Mayer-Schonberger/Cukier davon sprechen, dass es bei „Big Data“ im Kern um Predictions gehe. Es ist klar, was sie meinen: Je mehr ich beobachte und auswerte, desto besser kann ich Trends erkennen und Zustandsveränderungen vorhersagen. Aber sie unterschlagen dabei einen zentralen Strukturwandel: Vor dem Big Data-Zeitalter musste man von relativ kleinen Samples Schlüsse auf die Grundgesamtheit ziehen. Die Unsicherheit dieser „Old-School“-Predictions entfällt dank Big Data. Die Big Data-Vorhersagen sind viel weniger Risiko-behaftet und methodisch „sauberer“, weil das Problem der Repräsentativität von Strichproben nicht mehr besteht. Big Data räumt mit dem dem Problem der schiefen Verteilungen auf.

Möglicherweise haben die Autoren angenommen, derartige Differenzierungen würden eine breitere Leserschaft überfordern. M.E. ist dieser Aspekt zu wesentlich, um ihn unter den Tisch fallen zu lassen. Aber hier zeigt sich wieder einmal, wie schwer es ist, einen Beststeller zu schreiben UND das Fachpublikum zufrieden zu stellen.

This content is published under the Attribution-Noncommercial-No Derivative Works 3.0 Unported license.

 

Leave a Reply