Über unsMediaKontaktImpressum
Enno Schulte 26. Februar 2019

Predictive Analytics: Moderne Schauermärchen

Wer in der heutigen Zeit eine IT-Konferenz besucht, kann sich dem Trend um "Künstliche Intelligenz" und "Machine Learning" kaum entziehen. Dabei werden die Begriffe "Künstliche Intelligenz", "Maschine Learning" und "Big Data" substitut verwendet und beschreiben letztendlich meist dieselben Anwendungsfälle. Die Fachzeitschriften sind voll von Beiträgen zu Deep Learning und Data Science. Daten werden als Rohstoff des 21. Jahrhunderts gefeiert. Sie bilden den Nährboden für moderne Systeme mit künstlicher Intelligenz. Diese Systeme werden als Heilbringer für unsere aktuellen und zukünftigen Probleme angepriesen. Man könnte meinen, ohne eine künstliche Intelligenz im Einsatz, sei in 5 Jahren kaum noch ein Unternehmen konkurrenzfähig.

Entsprechend starten schon seit längerem Unternehmen, in einem teilweise bedenklichen Aktionismus, ihre Data-Science-Initiativen. Wie bei jedem Hype findet man Enthusiasten, die sofort auf den Big-Data-Zug aufspringen wollen, wie auch energische Gegner. Besagte Gegner fürchten oft die analytischen Möglichkeiten von künstlicher Intelligenz und den Verlust jeglicher Privatsphäre. Die allgegenwärtigen Diskussionen über Datenschutz gießen entsprechend Öl ins Feuer der Anti Big Data Bewegung. Es stellt sich die Frage, ob diese Bedenken überhaupt begründet sind. Oder entsprechen sie eher einer Panikmache, die den technologischen Fortschritt ausbremst?

Woher kommt die Angst vor Big-Data-Systemen? In der Serie "Elementary" finden wir ein gutes Beispiel dafür, wie unangenehm es ist, wenn die Privatsphäre ein offenes Buch ist: Hauptcharakter der Serie ist eine moderne Interpretation von Sherlock Holmes, der in New York lebt und dort die Polizei beim Lösen schwieriger Fälle unterstützt. Durch sein immenses Wissen und die Fähigkeit, kleinste Hinweise miteinander zu kombinieren, durchschaut er auf einen Blick Personen, die er nie zuvor gesehen hat. Dabei erfasst er auch die dunkelsten Geheimnisse der Menschen. Sei es ein Familienvater mit einer Affäre, ein Staatsanwalt mit Drogenproblem oder ein Professor mit Spielsucht. Niemand ist vor diesen analytischen Fähigkeiten sicher. Nun stelle man sich vor, es handelt sich nicht um eine Person, die in New York jeden im eigenen Umkreis analysiert, stattdessen reden wir über Systeme, welche Milliarden Menschen jede Sekunde auf ähnliche Art und Weise analysieren und durchschauen.

Stand Oktober 2018 hat Facebook über 1,5 Milliarden aktiver Nutzer – täglich. Die gesamte Menge an Nutzern beträgt sogar 2,3 Milliarden. Es scheint durchaus berechtigt, eine gewisse Sorge um den Umgang mit diesen Informationen zu haben. Spätestens der Fall um Camebridge Analytica sollte allen gezeigt haben, dass ein Ausnutzen dieser Informationen kein Problem der Zukunft ist, sondern gegenwärtiger denn je.

Die Sorgen um Big Data scheinen also durchaus berechtigt zu sein. Nun betrachten wir die Thematik einmal von der Seite der Machbarkeit. Ist es wirklich so leicht, uns alle zu durchschauen? Und wie funktioniert es? Behalten die Oppositionellen Recht?

Ein Vorhersagemodell zu erstellen ist grundsätzlich nicht besonders schwer. In einer Kurzfassung könnte man den Prozess wie folgt beschreiben: Es existiert eine Datenmenge, von der man glaubt, dass sie genutzt werden kann, um ein Vorhersagemodell zu trainieren. Dieses soll anhand von Eingabewerten eine Aussage über einen wahrscheinlichen Ausgabewert machen. Beispielsweise, wie hoch ist die Wahrscheinlichkeit, dass eine Störung (Ausgabewert 0 oder 1) eintritt, wenn Sensoren A1 – A7 bestimmte Werte erreichen.

Es macht den Eindruck, die Entwicklung von Vorhersagenmodell und künstlicher Intelligenz sei kinderleicht.

Angenommen, die historischen Daten über entsprechende Störungen liegen bereits gesäubert und vorbereitet vor. So wird ein kleinerer Teil dieser Daten aus der Gesamtmenge entnommen, um später zur Validierung des Modells verwendet zu werden. Die verbleibenden Daten dienen anschließend als Input für einen Algorithmus. Dieser entwickelt aus den Daten besagtes Vorhersagemodell. Mithilfe der vorher extrahierten Testdaten kann nun die Genauigkeit des Modells validiert werden. Das heißt, es wird überprüft, wie häufig das Ergebnis des Vorhersagemodells mit dem wahren Wert aus den historischen Daten übereinstimmt. Anschließend weiß man, wie treffsicher das Modell ist. Häufig wiederholt man diese Schritte mit unterschiedlichen Algorithmen und Eingabewerten um die Genauigkeit des am besten passenden Algorithmus zu finden.

Es macht den Eindruck, die Entwicklung von Vorhersagenmodell und künstlicher Intelligenz sei kinderleicht. Gleichzeitig steigt die verfügbare Datenmenge von Tag zu Tag. Also wird es nicht mehr lange dauern, bis wir alle zu gläsernen Bürger in einem orwellschen Zukunftsszenario werden? Der Eindruck täuscht.

Daten, Herkunft und Wissensdomäne

So einfach es ist, ein datenbasiertes Vorhersagemodell zu erzeugen, so schwer ist es, ein qualitativ hochwertiges Modell zu erzeugen. Eines das tatsächliche Geheimnisse und unbekannte Korrelationen aufdeckt. In nahezu jeder Datenmenge kann man Signale entdecken. Diese basieren jedoch nicht zwangsläufig auf Kausalitäten. Ein gutes Beispiel für eine zufällige Korrelation, ist die Übereinstimmung zwischen geburtenreichen Regionen und Orten, an denen Störche nisten. Die Daten korrelieren zwar, dennoch werden die wenigsten Menschen an einen echten Zusammenhang glauben [1].

Um Zusammenhänge erkennen zu können, ist ein gutes Verständnis der Daten, ihrer Herkunft und ihrer Wissensdomäne unumgänglich. Nehmen wir beispielsweise einen großen Datensatz über Krankheitsbilder, Medikamente und deren Nebenwirkungen. Einem Data-Scientist würde wahrscheinlich sehr schnell auffallen, dass eine Korrelation zwischen Patienten welche Medikamente zur Bekämpfung von Übelkeit nehmen und Patienten mit Krebs existiert. Eine erste Vermutung könnte nun sein, dass diese Medikamente Krebs verursachen. Wenn man jedoch die Wissensdomäne kennt, so weiß man, dass diese Medikamente häufig verabreicht werden, um die Nebenwirkungen einer Chemotherapie zu lindern. Für eine finale Beurteilung, ob ein kausaler Zusammenhang besteht, muss also nahezu immer ein Experte herangezogen werden.

Es gibt viele Systeme, die nur in der Theorie gute Resultate liefern.

Neben der Entdeckung von Zusammenhängen, welche nicht existieren, kann das Problem auch in den verwendeten Trainings-Daten liegen. Forschern der Stanford-University gelang es zum Beispiel, ein Modell zu trainieren, welches dazu in der Lage ist, eine Person hinsichtlich ihrer Sexualität zu klassifizieren [2]. Mit bis zu 91 Prozent Wahrscheinlichkeit kann das System einen Menschen anhand von 5 Portraits als homosexuell oder heterosexuell einordnen. Um das Modell zu trainieren wurden Profilbilder von Dating-Plattformen verwendet. Auf solchen Bildern versucht kaum jemand ein Geheimnis aus seiner Orientierung zu machen, viel mehr gibt es ein Bestreben, die eigenen Präferenzen auf diesen Bildern in den Vordergrund zu stellen. Mit Bildern einer Überwachungskamera wäre das Modell wahrscheinlich kaum treffsicherer als der Zufall. Wenn die zum Trainieren verwendeten Datensätze nicht vielfältig genug sind, ist das Modell letztlich nur unter Laborbedingungen nutzbar und somit ohne realen Wert.  

Es ist also gar nicht so einfach, ein gutes Vorhersagemodell zu erzeugen. Die Grundvoraussetzungen sind geeignete Datenmengen und Datenstrukturen. KI-System ist also nicht gleich KI-System. Es gibt viele Systeme, die nur in der Theorie gute Resultate liefern. Dennoch werden diese natürlich zu Werbezwecken in den Medien hochgespielt.

Neben den bekannten guten und schlechten Vorhersagemodellen gibt es jedoch noch eine weitere Kategorie. Die berühmt-berüchtigten Systeme, von denen jeder schon mal die eine oder andere Geschichte gehört hat: Geschichten, die irgendwo bei einem Kaffee aufgeschnappt wurden. In Workshops zum Thema "Machine Learning" und "Künstliche Intelligenz" gibt es immer wieder Stimmen, welche sich kritisch äußern und versuchen, ihre Bedenken mit eben solchen Geschichten zu untermauern.

Big Data als Schwangerschaftstest

Eine immer wieder gerne zitierte Story ist die von der Teenagerin, welche von einer künstlichen Intelligenz als schwanger klassifiziert wurde, obwohl sie es selbst noch nicht wusste. In Deutschland wird dann häufig Amazons Produktempfehlungssystem als Beispiel genannt. Dann werden Sätze in den Raum geworfen wie: "Die von Amazon wissen doch auch anhand des Kaufverhaltens, dass eine Frau schwanger ist, noch bevor sie es selbst weiß!". Doch stimmt das wirklich? Woher kommt diese Geschichte?

Wenn man nachforscht, wird schnell klar, dass es sich dabei um eine von den Medien aufgebauschte Geschichte über den amerikanischen Einzelhändler Target handelt [3]. Target ist in Amerika nach Walmart der zweitgrößte Einzelhändler des Landes. Die in den Medien diskutierte Geschichte ist aus dem Jahre 2012 und wurde vom "New York Times Magazine" veröffentlicht. Darin wird folgende Geschichte erzählt:

Eines Tages betrat ein Vater einen Markt der Handelskette Target und verlangte den Manager zu sprechen. Er war zornig und in seinen Händen hielt er Marketingmaterial, welches offensichtlich von besagtem Einzelhändler stammte. Beim Manager angekommen, verlangte er eine Entschuldigung. Die Flyer in seiner Hand wurden von Target an seine Tochter gesandt. Darin wurde primär für Produkte geworben, die für Frauen in der Schwangerschaft und junge Eltern gedacht sind. Seine Tochter war jedoch noch minderjährig. Er empfand das Material würde seine Tochter ermutigen, schwanger zu werden. Der Filial-Manager von Target wusste nicht, warum dieses Marketingmaterial an die junge Tochter versandt wurde. Dennoch entschuldigte er sich und versprach, Nachforschungen anzustellen. Eine Woche später rief der Vater den Manager an. Er erzählte dem Manager, dass es wohl Vorgänge in seinem Haus gab, von denen er nichts wusste. Seine Tochter war tatsächlich schwanger und er schulde dem Manager nun eine Entschuldigung.

So wurde die Geschichte über die Big-Data-Systeme geboren, die angeblich wissen, ob Frauen schwanger sind, noch bevor sie es selbst ahnen. Doch stimmt es, dass Target dieses Marketingmaterial basierend auf einer intelligenten Vorhersage versendet hat?

Im Jahre 2010 hielt Andrew Pole von Target auf der Predictive Analytics World die Keynote und berichtete dort über die vielen Predictive-Analytics-Projekte, die bei Target laufen. Eines davon beschäftigte sich mit der Vorhersage, ob Frauen schwanger sind oder nicht. Für Einzelhändler ist die Information, ob Nachwuchs erwartet wird, Gold wert. Für das neue Familienmitglied gilt es eine Menge Anschaffungen zu machen. Da möchte sich natürlich jeder Händler mit entsprechend platziertem Werbematerial in Position bringen.

Also wird tatsächlich daran gearbeitet, entsprechende Vorhersagen zu machen. Doch wie findet Target heraus, ob eine Frau schwanger ist oder nicht? Ganz einfach, sie fragen nach. Kundinnen können bei Target in ihrem Kundenkonto hinterlegen, ob sie schwanger sind und in welcher Woche. Für diese Informationen erhalten die Kundinnen anschließend entsprechende Angebote und Rabatte. Sobald Target diese Information hat, ist es natürlich leicht, die Einkäufe der Kundinnen in denselben Schwangerschaftswochen miteinander zu vergleichen und entsprechende Muster zu entdecken.

Nun könnte man denken, dass die Geschichte wahr ist. Es trifft zu, dass Einzelhändler versuchen, so früh wie möglich zu erkennen, wann bei einer Familie Nachwuchs ansteht. Das macht nicht nur Target. Aber es ist nicht so, dass eine KI dazu in der Lage ist, eine Schwangerschaft zu erkennen, noch bevor eine Frau selbst davon weiß. Somit steht noch immer die Frage im Raum, warum die junge Frau aus der Geschichte das Werbematerial von Target zugesandt bekommen hat. Die Antwort darauf ist sehr einfach. Das Material wurde an alle Frauen unter einer Altersgrenze verschickt. Dass die junge Frau dann letztlich tatsächlich schwanger war, war reiner Zufall.

Psychopath oder nicht?

Eine weitere spannende Geschichte handelt davon, uns als Psychopathen zu entlarven. Und das nur anhand der Muster in unserem Schreibstil. Unter dem sogenannten "dunklen Dreiklang" werden die Persönlichkeitsmerkmale Psychopathie, Machiavellismus und Narzissmus zusammengefasst. Wer von sich selbst weiß, dass er Tendenzen zu einem oder mehreren der Merkmale aufweist, versucht dies häufig zu verbergen. Denn gesellschaftlich sind die Eigenschaften eher unerwünscht. Wer gibt schon gerne zu, dass er kaltblütig berechnend oder sehr selbstverliebt ist? Jedoch wird vermutet, dass der dunkle Dreiklang in einer meist positiven Beziehung zum beruflichen Erfolg steht. Also gibt es wahrscheinlich einige, die ganz glücklich damit sind, den Psychopathen in sich entdeckt zu haben. Preisgeben wollen diese Menschen es aber sicherlich niemandem. Was wäre nun also, wenn es eine Möglichkeit gäbe, unsere geheimen, dunklen Persönlichkeitsmerkmale einfach anhand unseres Schreibstils zu erahnen?

Grundlage für die Idee ist eine Studie, in der Briefe von Gefängnisinsassen analysiert wurden [4]. Die Personen waren alle nachweislich psychisch gestört. Es stellte sich heraus, dass es Muster in den Formulierungen gab, welche bei Menschen ohne entsprechende Störung nicht oder seltener auftauchen.

Psychopathen sprechen wesentlich häufiger über materielle Dinge wie Geld, Essen oder Autos als über Familie oder Religion. Bei emotionalen Themen tendieren sie außerdem dazu, wesentlich häufiger Füllwörter wie "ähm" und "äh" etc. zu verwenden und sprechen in der Vergangenheitsform.

In einem Wettbewerb auf Kaggle wurde versucht, diese Muster in Tweets zu erkennen [5]. Die große Frage war: Kann man anhand von 140 Zeichen erkennen, ob jemand ein Psychopath ist oder nicht? 

Schon lange haben Menschen sich angewöhnt, in den sozialen Medien ihre Meinungen und Bedürfnisse der breiten Öffentlichkeit zu präsentieren. Dabei gibt jeder mehr oder weniger von sich selbst preis. Viele glauben dabei, sie hätte Kontrolle darüber, welche Informationen sie preisgeben und welche nicht. Jedoch wird es wohl kaum ein Twitter-Benutzer für möglich halten, dass jemand anhand seines Schreibstils eine Diagnose hinsichtlich einer psychischen Störung ausstellt.

Insbesondere Entscheidungsunterstützungssysteme haben das Potenzial, die Welt entscheidend zu verbessern.

Anhand eines einzelnen Tweets lässt sich auch kaum eine sinnvolle Aussage darüber treffen, ob ein Mensch psychopatische Neigungen hat oder nicht. Aber die wenigsten Twitter-Benutzer setzen nur einen einzigen Tweet ab. Unter Verwendung mehrerer Tweets war es jedoch tatsächlich möglich, psychopathische Tendenzen zu erkennen.

Es gibt noch viele weitere Geschichten über Systeme mit künstlicher Intelligenz, die bei einigen Menschen die Science-Fiction-Phantasie anregen. Leider wird auch zu häufig die Erinnerung an Geschichten über Endzeitszenarien mit einer unterjochten Menschheit und einer maschinellen Dominanz geweckt – Terminator und Skynet lassen grüßen. Sicherlich sind Big Data und künstliche Intelligenz nicht die Alleskönner, die viele darin sehen. Doch lassen sich mit den heutigen Möglichkeiten häufig Prozesse unterstützen oder verbessern, die kritisch oder teuer sind. Insbesondere Entscheidungsunterstützungssysteme haben das Potenzial, die Welt entscheidend zu verbessern.

Mittels Deep Learning können Programme zur Bilderkennung entwickelt werden, die in der Medizin die Zeit für Diagnosen drastisch reduzieren und gleichzeitig günstiger und treffsicherer sind als die Verarbeitung durch einen Menschen. In der öffentlichen Verwaltung könnte durch Verfahren zur semantischen Dokumentenanalyse der Bearbeitungsaufwand erheblich reduziert werden. Es gibt viele Beispiele, wo künstliche Intelligenz zur Verbesserung beigetragen hat. Und das nicht nur bei den Big Playern.

Leider unterschätzen viele Unternehmen die Potenziale im eigenen Hause. Auch in kleinen und mittelständischen Unternehmen gibt es viele Anwendungsfälle. Ein Beispiel dafür sind Prozesse, die einen Schritt zur Genehmigung beinhalten. In vielen solcher Prozesse könnte ein Machine-Learning-Modell einen weniger erfahrenen Kollegen dabei unterstützen, bessere Entscheidungen zu treffen. Leider werden häufig Argumente angeführt wie: "Wir haben gar nicht so viele Daten" oder "Wir sind viel zu klein, um so etwas nutzen zu können".

Den Blick über den Tellerrand sollte jeder einmal wagen und die Potenziale im eigenen Unternehmen nicht unterschätzen.

Quellen
  1. Wikipedia: Scheinkorrelation
    R. Matthews: Storks deliver babies. In: Teaching Statistics. 22(2), 2000, S. 36–38
  2. Stanford-University: Deep neural networks are more accurate than humans at detecting sexual orientation from facial images
  3. G. Piatetsky, KDNuggets: Did Target Really Predict a Teen’s Pregnancy? The Inside Story, Predictive Analytic Times, May 9, 2014 (originally published KDNuggets).
  4. Forbes: Using Twitter To Identify Psychopaths
  5. Kaggle: Psychopathy Prediction Based on Twitter Usage

Autor

Enno Schulte

Mit einem starken Hintergrund aus Softwareentwicklung und -architektur interessiert sich Enno Schulte besonders für Integrationsszenarien mit modernen und skalierbaren Softwaresystemen.
>> Weiterlesen
Das könnte Sie auch interessieren
botMessage_toctoc_comments_9210