Über unsMediaKontaktImpressum
Martin Demel 12. Januar 2016

Bootstrapping und Boosting als robuste Alternativen zu Standardverfahren in der Vorhersagemodellierung und Ursachenforschung

Was haben Hightech-Produkte, Produktionsprozesse, Konsumenten, Medikamente, Medizinische Geräte, Elektrogeräte, Autos, Flugzeuge und Investitionen gemeinsam? Alle haben meist mehr als eine Einflussgröße und oft mehrere Zielgrößen, die es zu optimieren oder vorherzusagen gilt. Durch die immer komplexer werdenden Zusammenhänge ist es selbst bei einfachsten Produkten eine Herausforderung, die wirklich wichtigen Einflussgrößen zu bestimmen und Fehlentscheidungen zu vermeiden. Meiner Meinung nach gibt es nicht die eine goldene Lösung oder Methode, die immer und für alle Zeit funktioniert. Gleichzeitig bin ich überzeugt, das manche Lösungswege und Methoden oft besser geeignet sind als andere. Ich stelle Ihnen anhand eines realen Beispiels Bootstrapping- und Boosting-Verfahren vor, die eine robuste Alternative zu den meist verwendeten Standardregressionsverfahren darstellen. Dabei gehe ich sowohl auf die grundlegende Theorie, als auch die Verwendbarkeit der Verfahren ein. Zudem möchte ich auf die Ausgangslage und auch die Problemstellung in der Fallstudie eingehen, um eine bessere Antizipation zu ermöglichen.

Die wirkliche Herausforderung in der heutigen Zeit ist das teilweise fehlende Wissen über die komplexen Zusammenhänge, die uns heute nahezu überall begegnen. Daten werden gesammelt, Big Data überall als die goldene Lösung präsentiert. Werden wirklich die vergangenen Strukturen so leicht ausgehebelt? Bedeuten statistische Vorgehensweisen in der Datenanalyse und Prozessoptimierung nichts mehr? Brauchen wir einfach nur mehr Daten? Ich glaube, dass mehr Daten erst einmal nicht verkehrt sind. Es ist jedoch noch wichtiger, informative Daten zu haben. Erst dann kann aus den Daten eine sinnvolle Schlussfolgerung gezogen werden, doch dazu später. Stellen Sie sich die Frage, bleiben Sie reaktiv oder wollen Sie proaktiv dazu beitragen, Ihr Produkt- und Prozessverständnis effizienter zu erhöhen? Wollen Sie die Möglichkeit für Fehlentscheidungen durch Auffinden sinnvoller Modelle reduzieren? Wollen Sie Kapital in wiederauftretende Probleme investieren oder lieber für weitere Innovationen und Verbesserungen einsetzen?

Einige Unternehmen setzen statistische Datenanalyse erfolgreich und konsequent ein und schaffen sich damit einen Wettbewerbsvorsprung. Sie schaffen es, den Lernzyklus zu verkürzen, der für die Anpassung unserer Vorstellungen bzw. Modelle an die Realität durchlaufen wird. Sie schaffen damit eine schnellere Markteinführung und das insbesondere mit reduzierten Rückläufen und Problembehebungen. Die Folge ist mehr Zeit und Investitionskraft für neue Entwicklungen und Innovationen. Eines dieser Unternehmen möchte ich als einleitendes Beispiel für die auf Boosting und Bootstrapping basierenden Verfahren herausgreifen:

Durchbruch mit Bootstrap Forest bei der Stabilisierung und Optimierung eines Mahlprozesses von Farbpigmenten für LCD Bildschirme.

Ein multidisziplinäres Arbeitsteam ist für die Herstellung von Farbpigmenten für hochauflösende Flüssigkristallbildschime (LCD) in einem weltweit tätigen Chemieunternehmen verantwortlich. Durch die gestiegene Nachfrage musste die Produktion verdoppelt werden. Allerdings konnte die aktuelle Anlage diese Steigerung nicht bewältigen. Aufgrund einer großen Varianz im Produktionsprozess wurde nur ein Ertrag von 70 Prozent erreicht. Entweder sie bringen den Prozess unter Kontrolle und erhöhen damit die Auslastung erheblich oder eine neue Anlage muss angeschafft werden. Bei der Herstellung von LCD-Bildschirmen müssen Farbpigmente z. B. in einer Perlenmühle auf unter 200nm gemahlen werden, damit die hohe Auflösung im Bildschirm erreicht werden kann. Dieser Prozess ist sehr zeitaufwändig aber auch energie- und somit kostenintensiv.

Als Einflussfaktoren stehen verschiedenen Temperaturen innerhalb und außerhalb des Kessels, mehrere Drücke, die Anzahl an Perlen im Mahlkessel, die Menge der hinzugefügten Pigmente und weitere Variablen zur Verfügung. Datenanalyse mit Regressionsverfahren wie Standard Least Squares oder selbst schrittweise Regression zeigten nur die Temperatur als Haupteffekt an. Das stand allerdings im Widerspruch mit der Erfahrung, dass die Anzahl an Perlen und Pigmenten allein technisch bedingt auch einen Einfluss haben musste. Explorative Datenanalyse bestätigte diesen Verdacht und zeigte auch den sehr dominanten Einfluss der Temperatur (s. Abb.1).

Auch Verfahren wie einfache Entscheidungsbäume konnten keine weiteren Faktoren als signifikant wichtig ausmachen. Durch eine multivariate Analyse erkannte das Team moderat starke Abhängigkeiten zwischen den anderen Einflussgrößen und der Temperatur, jedoch nicht mit der Zielgröße. Somit lag die Vermutung nahe, dass der dominante Effekt der Temperatur andere Einflüsse abhält ins Modell zu gelangen. Das Team brauchte aber ein genaueres Verständnis des Prozesses und der Zusammenhänge der Faktoren, um die Produktion zu stabilisieren und bezüglich der Zeit und des Energieaufwands zu optimieren.

Nach einigen wenig von Erfolg gekrönten Versuchen, andere Einstellungen zu testen, machte jemand im Team den Vorschlag ein anderes statistisches Verfahren zu verwenden: Bootstrap Forest – ein Random Forest basiertes Verfahren. Mit Hilfe dieses Verfahrens soll man anscheinend robuster gegenüber Wechselwirkungen in den Faktoren und Ausreißern in den Daten sein. Der Einsatz dieser Methode erforderte nur wenige Mausklicks in JMP Pro, brachte aber weitere potentiell wichtige Einflussgrößen zu Tage (Abb.2). Mit Hilfe eines optimalen Versuchsplans generierte man gezielt neue Daten zur Prüfung des Ergebnisses und schaffte es, den Prozess zu optimieren. Dabei stellte man fest, dass es neben starken Wechselwirkungen auch quadratische Effekte gab, die man vorher nicht vermutet hat. Am Ende konnte das Team die Zeit für den Mahlprozess halbieren und den Prozess stabilisieren. Die Anforderung der doppelten Nachfrage wurde erfüllt und es benötigte nun auch keine neue Anlage mehr. Eine riesige Einsparung, die somit für neue Entwicklungen zur Verfügung stand.

Bootstrap Forest – Den Wald vor lauter Bäumen nicht sehen?

Wie war das möglich? Das Verfahren konnte den dominanten Einfluss von Temperatur aushebeln und andere in Wechselwirkung stehende Faktoren die Chance geben, auch ins Modell einzugehen. Sie können sich sicher bereits jetzt vorstellen, dass ein Verfahren, welches robust gegenüber Wechselwirkungen in den Einflussgrößen ist, ein mächtiges Werkzeug sein kann. Damit hat man eine Möglichkeit, schneller zum besseren Modell zu kommen, oder gleich beim ersten Mal viel mehr potentiell signifikante Ursachen aufzuspüren. Insbesondere wenn es viele Faktoren gibt, die es unmöglich machen alle Einstellungen oder alle möglichen Modelle auszutesten.

Bootstrap Forest-Verfahren basieren auf einem Entscheidungsbaum. So ein Entscheidungsbaum versucht durch Teilung der Daten an bestimmten Werten einzelner Faktoren zwei Datengruppen zu finden, die sich möglichst groß unterscheiden: entweder im Mittelwert (kontinuierliche Ergebnisdaten) oder in der Häufigkeit (kategorische Zielgröße). Ein einfacher Entscheidungsbaum ist zwar robuster gegen fehlende Werte oder Ausreißer als gewöhnliche Regressionsverfahren, kann aber auch bei Wechselwirkungen nur den zuerst gefundenen – und meist dominanteren – Faktor im Modell zulassen. Die in Wechselwirkung mit dem dominanten Faktor stehenden Größen schaffen es nicht ins Modell, weil sie ja bereits durch den dominanten Effekt beschrieben werden.

Bootstrap Forest nutzt zwei Methoden, die auch in der optimalen Versuchsplanung eine wichtige Rolle spielen: Randomisierung und Wiederholung. In Abb.3 wird das Prinzip dargestellt. Zuerst wird aus allen Daten eine Stichprobe gezogen, die für die Bildung eines Entscheidungsbaums verwendet wird. Der Entscheidungsbaum wird dabei leicht modifiziert erstellt. Zuerst wird ein zufälliges Sample aus den Einflussgrößen gezogen und berechnet, welcher Faktor teilt das Datensample wo am besten. Nun werden die gezogenen Faktoren wieder zurückgelegt. Für den nächsten Teilungsschritt wird erneut nur ein Teil aller Faktoren gezogen und geprüft, welcher Faktor nun am besten wo teilt. So geht es weiter bis der Entscheidungsbaum fertig erstellt ist. Dadurch erhalten auch die in Wechselwirkung stehenden, aber nicht ganz so dominanten Variablen die Möglichkeit, wichtig zu werden.

Der entscheidende zweite Unterschied zu herkömmlichen Verfahren ist, dass nun die Stichprobendaten zurückgelegt werden und eine neue Stichprobe aus allen Daten gezogen wird. Ein neuer Entscheidungsbaum wird wie zuvor erstellt. Das wird hunderte oder tausende Male wiederholt (Boosting) und man hat einen Wald aus einzelnen unterschiedlichen Bäumen erstellt. Nun werden die einzelnen Entscheidungsbaummodelle aufsummiert und gemittelt. Diese Mittelung vieler Modelle wird auch in anderen Bereichen erfolgreich eingesetzt, um bessere und flexiblere Vorhersagemodelle zu erstellen.

Hilfreich sind Bootstrap Forest-Verfahren insbesondere in der Ursachenforschung. Aber auch für die Vorhersagemodellierung liefern sie meist sehr gute Modelle. Durch die Entscheidungsbaumstruktur erhält man jedoch Stufen in den Modellen. Deshalb sollte man bei sehr stark nichtlinearen anzupassenden Zielgrößen lieber auf andere Verfahren wie z. B. hochflexible neuronale Netze zurückgreifen, die u. a. auch mit Boosting-Techniken erweitert werden können.

Boosted Trees – Schnelles robustes Scoring-Modell erzeugen

Boosting wird u. a. auch bei Boosted Trees-Verfahren eingesetzt, welche ebenfalls auf Entscheidungsbäumen basiert. Es eignet sich insbesondere für die Vorhersagemodellierung, in der es mehr auf die Güte des Modells ankommt und weniger darauf, welche Faktoren im Modell enthalten sind. Das Verfahren wird in Abb.4 verdeutlicht. Es wird ein einfacher Entscheidungsbaum mit sehr wenigen Teilungen erstellt und die Residuen berechnet. Dieser Fehler wird nun mit einem weiteren einfachen Entscheidungsbaum erneut angepasst und dessen Fehler erneut. Das geht so lange, bis der Fehler entweder klein genug ist oder man die angegebene Zahl der maximalen Fehleranpassungen erreicht hat. Diese einzelnen Anpassungsmodelle werden mit einer Lernrate multipliziert und aufsummiert. Damit erhält man ein einfaches Summationsmodell, welches schnell berechnet werden kann und dadurch für Scoring gut geeignet ist.

Es kann auch für Ursachenforschung verwendet werden, liefert im Allgemeinen allerdings schlechtere Ergebnisse als das Bootstrap Forest-Verfahren. Hier liegt der Fokus auf einem guten Modell und weniger auf dem Auffinden der einflussreichsten Faktoren. Darum ist ihre Anwendung in der Vorhersagemodellierung geschätzt.

Zwei sinnvolle Modelle – doch wofür entscheiden? Ein ganzheitliches Vorgehen!

Bootstrap Forest-, wie auch Boosted Tree-Verfahren helfen in sehr vielen Fällen, die Lernzyklen zu reduzieren und beim ersten Mal gleich besser zu liegen. Sie sollten zum Standardrepertoire gehören, weil sie robuster gegen Ausreißer und Wechselwirkungen in den Einflussgrößen sind als häufig verwendete Standardverfahren. Die Gefahr einfaktoriell signifikanten Einflüssen nachzulaufen, deren Verhalten eigentlich durch einen oder mehrere in Wechselwirkung stehenden Faktoren beeinflusst wird, ist groß. Insbesondere in der heutigen Zeit immer komplexer werdender Produkte und Prozesse, in der das Kundenverhalten und die Kundenmeinung immer genauer vorhergesagt und beeinflusst wird.

Meiner Erfahrung nach – und ich stütze mich dabei auf viele Beispiele von mir betreuter Kunden – helfen beide Verfahren, eine sinnvollere Entscheidung schneller treffen zu können. Gleichzeitig rate ich jedem, der in der Datenanalyse, Ursachenforschung und Vorhersagemodllierung involviert ist – sei es nun in der F&E, im Qualitätsmanagement, in der Markt- und Verbraucherforschung, im Banken- und Versicherungsumfeld und vielem mehr –, sich nicht nur auf ein Modell zu verlassen oder gleich mit der Modellbildung zu beginnen.
Vielmehr sollte man ganzheitlich operieren, unabhängig vom Einsatzgebiet. Das bedeutet ein Verbinden von

  • gutem Datenmanagement,
  • explorativer Datenanalyse, die schnelle visuelle, aber auch statistisch abgesichterte Eindrücke ermöglicht,
  • schnelle Modellbildung mehrerer verschiedener Modelle (immer mit Holdback Strategien/Validierung) und einem
  • Modellvergleich zur Auswahl der geeignetsten Modelle (muss nicht zwangsläufig das mit der besten Güte sein!).

JMP kann Sie in all diesen Bereichen aber auch in der Versuchsplanung, im Qualitätsmanagement, in Zuverlässigkeitsanalysen, Markt- und Verbraucherforschung durch seine interaktive und dynamische Arbeitsweise unterstützen. Seien Sie offen für neue Entdeckungen, wie auch das Team in dem Fallbeispiel. Visualisieren und vergleichen Sie, gestützt durch statistische Kennzahlen, und finden Sie schneller zum erhofften Ziel: Einem sinnvollen Modell, welches Ihr Verständnis erhöht, Risiken für Fehlentscheidungen und somit die Anzahl an Lernzyklen reduziert und mehr Raum für Innovationen und neue Herausforderungen schafft.

Autor

Martin Demel

Martin Demel ist ein Systems Engineer für JMP, Software zur statistischen Datenanalyse von SAS. Er ist hauptsächlich verantwortlich für die Produkte JMP, JMP Pro und JMP Clinical.
>> Weiterlesen
botMessage_toctoc_comments_9210