Wissenschaftsjahr 2014 - Die Digitale Gesellschaft

Die Vermessung der Informationsflut

Wie Datenmengen kontrollierbar gemacht werden können

Die Datenmengen steigen exponentiell, die Analyserechner werden immer leistungsfähiger und die Algorithmen können immer komplexere Aufgaben lösen. Die ersten Erfolge von Big-Data-Anwendungen verblüffen Beobachter. Doch den Algorithmen sind beim Durchkämmen der Informationsflut auch Grenzen gesetzt.

Chaos ordnen? (©zhangyang13576997233/shutterstock)

Ein Blogbeitrag von Burkhard Järisch

Im Jahr 1995 umfasste das World Wide Web Schätzungen zufolge etwa 30 Gigabyte. Heute würde es damit auf einen handelsüblichen USB-Stick passen. Über die aktuelle Größe des WWW sind kaum noch ernsthafte Schätzungen möglich. Experten, die sich dennoch zu Aussagen hinreißen lassen, sprechen von Umfängen im Zettabyte-Bereich, mehreren Billionen Gigabytes - unvorstellbar große Datenmengen. Und das Ende dieses Wachstums ist noch lange nicht in Sicht. Auch in anderen Bereichen wachsen die Datenmengen exponentiell an: Ein 2000 in Betrieb gegangenes Radioteleskop erzeugte in den ersten vier Wochen mehr Daten als in der gesamten bisherigen Geschichte der Astronomie. Das Large Synoptic Survey Telescope, das 2016 starten soll, wird diese Datenmenge alle fünf Tage sammeln. Immer mehr Menschen konsumieren immer datenintensivere Inhalte - von Text zu Bild zu Video zu HD zu 3D und 4K. Zugleich nimmt die Anzahl der Datenquellen und Sensoren zu, in Smartphones, Autos und Häusern. Sie erzeugen immer detailliertere und höher aufgelöste Abbilder der Wirklichkeit. Und dies nicht mehr nur zu einem gewissen Zeitpunkt, sondern rund um die Uhr, 365 Tage im Jahr.

Ordnung im Datenchaos

Einer der Pioniere und bis heute an vorderster Front bei der Analyse dieser Informationsflut ist Google. Nur mithilfe von speziellen Algorithmen wie MapReduce kann die Suchmaschine die nahezu unendlichen Weiten des Internet nach beliebigen Suchbegriffen durchstöbern und korrekte Resultate liefern - innerhalb von Millisekunden. Ähnliches gilt für den Google-Übersetzungsdienst, der aus dem Vergleich von hunderten Millionen mehrsprachigen Dokumenten automatisiert Übersetzungsregeln erstellt. In den vergangenen Jahren sorgten weitere Anwendungen für erstaunliche Schlagzeilen: So konnte Google mit seinem Projekt Flu Trends Grippewellen über eine Auswertung von Millionen Suchergebnissen quasi in Echtzeit verfolgen - und den Ausbruch der Krankheit oft deutlich vor den örtlichen Gesundheitsbehörden vermelden. Der Daten-Wissenschaftler Nate Silver sorgte für eine Sensation, als er im US-Präsidentschaftswahlkampf 2008 nicht nur den Sieg von Barack Obama, sondern auch die Ergebnisse sämtlicher US-Bundesstaaten korrekt aus Umfragedaten vorhersagte, mit der Ausnahme von Indiana. Auch bei der Präsidentschaftswahl im Jahr 2012 war seine Prognose korrekt - diesmal fehlerlos für alle Bundesstaaten.

Unvorstellbare Datenmengen (©IM_photo/shutterstock)

N=All?

Es ist wenig erstaunlich, dass bei derartigen Erfolgen das Thema Big Data schnell zum medialen Hype avancierte. Im "Hype Cycle" der Beratungsfirma Gartner, der neben der Reife und Durchdringung auch Aufstieg und Fall der öffentlichen Aufmerksamkeit von Technologiethemen verfolgt, stand das Thema Big Data bereits im Jahr 2013 an oberster Stelle. Das Sammeln großer Datenmengen verleitet schnell zum Glauben, einen umfassenden Überblick über eine Situation oder ein System zu haben. Big-Data-Anhänger umschreiben dies gerne mit der Formel N = All - die gesammelte Anzahl der Fälle (N) sei also nicht nur eine Stichprobe, sondern umfasse alle Datensätze und entspreche daher einem genauen Abbild der Wirklichkeit. Wirklich allumfassende Datensammlungen sind jedoch sehr seltene Ausnahmen, und das Verlassen auf das genaue Abbild der Wirklichkeit kann in der folgenden Planung gefährlicher sein als das bewusste Arbeiten mit kleineren Stichproben. Auch im Zeitalter riesiger Datensammlungen ist in den allermeisten Fällen die Stichprobenauswahl und -güte wichtiger als die schiere Größe des Samples. Ein fiktives, vereinfachtes Beispiel zur Verdeutlichung: Eine Großstadt will ihren öffentlichen Verkehr neu planen und analysiert dazu Bewegungsprofile von Smartphone-Nutzern. Da rund 60 Prozent der Bewohner Smartphones nutzen, wähnt sich die Verwaltung auf der sicheren Seite, schließlich werden damit die täglichen Wege von Millionen von Menschen ausgewertet. Diese Datensammlung mag auch in der Tat "big" sein, vollständig ist sie jedoch keineswegs, denn sie vernachlässigt systematisch einen großen Teil der Bevölkerung, der sich bislang kein Smartphone leisten kann oder will.

Algorithmen fragen nicht nach dem Wieso

Big-Data-Analysen finden Muster und Korrelationen in großen Datenmengen. Sie beantworten die Frage nach dem "Was", nicht aber das "Wieso". Zwar liefern die Algorithmen erstaunliche Korrelationen zwischen Datensätzen, die genauen Hintergründe bleiben jedoch meist verborgen. Dieses Vernachlässigen von Kausalitäten ist in manchen Fällen durchaus sinnvoll - die Wirkung und die Sicherheit eines Medikamentes ist zunächst wichtiger als die Kenntnis der genauen Wirkmechanismen. Wer aber blind gegenüber den Gründen bleibt, hat keine Handhabe, um Erfolgsfaktoren langfristig zu sichern oder um korrigierend einzugreifen. So beeindruckend die Erfolge der Datenwissenschaften auch sein mögen, so wird doch immer klarer, dass sich nicht jedes Problem gleichermaßen für diese Vorgehensweise eignet. Wie gefährlich ein blindes Vertrauen in die nackten Daten sein kann, zeigt gerade ein jüngerer Fall, der besonders mit dem Durchbruch von Big Data Analyse verbunden ist. So lag das Google-Projekt Flu Trends nach einigen eindrucksvollen Prognosen in der Grippesaison 2013/2014 fast um den Faktor 2 daneben und prognostizierte eine Epidemie, wo in der Realität nur ein ganz normaler Verlauf von Erkrankungen zu beobachten war. Die genauen Faktoren, die in den Vorjahren zum Erfolg führten, blieben dabei ebenso im Dunkeln wie die Gründe dafür, dass das Modell in diesem Jahr so ungenau war.

Exakte Resultate in Millisekunden (©Fedor Selivanov/shutterstock)

Maschinen brauchen Menschen

Auch wenn die Leistungsfähigkeit von Big-Data-Analysen bislang noch nicht den extremen Erwartungen gerecht werden mag, ist doch eines klar: Unser Leben, unser Alltag, unsere Welt wird immer stärker von großen Datenmengen durchdrungen. Für die Analyse und Verarbeitung dieser Informationen ist die ständige Weiterentwicklung der Algorithmen erforderlich. Wenn die Datenberge immer weiter wachsen und wir auch Relationen zwischen Daten analysieren wollen, wird ein exponentieller Anstieg der Rechenleistung alleine nicht ausreichen. Zugleich ist aber auch ein Einsatz der Software mit Augenmaß nötig. Erst die Klärung von Kausalität und Kontext komplettiert das Bild und ermöglicht langfristige und nachhaltige Strategien. Ein blindes Vertrauen in die Datenwissenschaften ist ebenso falsch wie ihre kategorische Ablehnung. Im Bereich der künstlichen Intelligenz reift die Erkenntnis, dass der aktuell sinnvollste Weg eine enge Kooperation des Teams aus Mensch und Maschine ist: Diese Kombination ist enorm leistungsfähig, da sich Fähigkeiten und Defizite beider Seiten optimal ergänzen. Bei datenintensiven Anwendungen scheint die Lage ähnlich zu sein: Empirische Untersuchungen legen nahe, dass die Arbeitsteilung von Mensch und Computer die Qualität von Analysen und Prognosen deutlich verbessern kann, etwa bei Wetter- oder Wirtschaftsdaten. Für eine maximale Leistungsfähigkeit scheinen also kreative und kompetente „Daten-Wissenschaftler“ mindestens ebenso wichtig zu sein wie Software- und Hardware-Tools. Noch immer ist der Mensch ein wesentlicher Faktor, um über das „Was“ hinaus das „Wieso“ besser zu verstehen.

 

Burkhard Järisch arbeitet seit 1997 in der Forschungsgruppe "Gesellschaft und Technik" der Daimler AG, wo er sich insbesondere mit dem Thema Digital Life beschäftigt. Er untersucht zentrale Entwicklungen in den Bereichen IT, Mobilkommunikation, Internet und Telematik und ihre gesellschaftlichen Auswirkungen. Nach seinem Studium der Physik an der Universität Stuttgart promovierte er im Bereich Wirtschaftswissenschaften an der Privaten Universität Witten-Herdecke.