Über unsMediaKontaktImpressum
Dr. Robert Kolter & Christian Städing 21. Juni 2022

Stornoprophylaxe mit Support Vector Machines

Vermeidung von Vertragsstornierungen mittels ML-Methoden und theoretischer Informatik: Abschätzungen für die maximal notwendige Anzahl an Trainingsdaten

Im Rahmen von Migrationsprojekten im Bereich der Versicherungswirtschaft wurden verschiedene Anwendungsfälle (Use Cases) für die Anwendung KI-basierter Methoden identifiziert. Einer dieser Use Cases ist die vorsorgliche Identifikation von Verträgen, welche ein potenziell erhöhtes Risiko einer Kündigung aufweisen (Stornoprophylaxe). Im Folgenden wird beschrieben, wie der Use Case angegangen wurde, welche theoretischen Schranken für die Anzahl nötiger Trainingsdaten bestehen und welche potenziell weiteren Ansätze es zur Realisierung des Use Cases gibt.

Motivation des Anwendungsfalls

Alle Versicherungsunternehmen (VU) haben mit dem Problem zu kämpfen, dass Kunden Lebensversicherungs-Verträge kündigen. Eine Stornierung hat zur Folge, dass zum einen ein Profitabilitätsrisiko entsteht, das heißt, dass Gewinne nicht eingefahren werden können und das VU eventuelle Prognosen für ein Geschäftsjahr nicht einhalten kann. Zum anderen entsteht ein Liquiditätsproblem. Der Rückkaufswert, also der Betrag, den ein Lebensversicherer bei Rückkauf der Rechte des Versicherungsnehmers (VN) auf zukünftige Leistungen aus einem Lebensversicherungsvertrag an den VN bezahlt, muss eventuell bei mehreren stornierten Verträgen erstattet werden. Die Folge daraus sind höhere Rückstellungen in der Bilanz des VUs, sowie weniger mögliche Investitionen. Das hat wiederum zur Folge, dass die Profitabilität des Versicherungsunternehmens zurückgehen kann. Des Weiteren müssen Rückstellungen neu berechnet werden, um die Solvency-II-Ansprüche zu erfüllen [1].

Um diejenigen Verträge eines VUs, die mit höherer Wahrscheinlichkeit in der nächsten Zeit zu Stornierungen führen können zu ermitteln, wurde aufbauend auf bekannten Resultaten aus dem Bereich des Maschinellen Lernens ein statistisches Verfahren angewandt, die sog. Support Vector Machine (SVM). Dieses Verfahren basiert grob gesagt auf dem Ansatz, den Raum, in dem sich die Eingabedaten eines Klassifikators (in vorliegenden Fall: Stornierung ja oder nein) befinden, in zwei Bereiche zu zerlegen, in dem eine Hyperebene in den Raum gelegt wird, die die beiden Bereiche (linear) trennt [2]. Dies ist in vielen Fällen möglich, jedoch nicht in allen. Die folgende Grafik illustriert die Trennbarkeit im zweidimensionalen Raum: Der linke Teil zeigt den Fall linear trennbarer Elemente, der rechte den entgegengesetzten Fall.

In Abb. 1 ist im linken Bild zu sehen, dass die beiden Mengen durch eine Gerade getrennt werden können, während dies im rechten Bild nicht möglich ist. Dies ist hier im zweidimensionalen Raum gut optisch darstellbar. Im dreidimensionalen Raum käme die Trennung nicht mehr durch eine Gerade (eindimensional), sondern durch eine Ebene (zweidimensional) zustande. Allgemein trennt man in einem x-dimensionalen Raum Mengen durch x-dimensionale Hyperebenen.

Bei nicht-linear trennbaren Mengen kann in vielen Fällen ein weiteres Verfahren – der sogenannte Kernel-Trick – angewandt werden, der die dem Problem zugrundeliegende Menge in eine höhere Dimension transformiert, in der dann wiederum eine solche trennende Hyperebene konstruiert werden kann.

Datenbasis und erste Ergebnisse mit der SVM

Basierend auf einer Menge synthetisch konstruierter Daten wurde eine SVM konstruiert, die bereits sehr gute Ergebnisse hinsichtlich der Klassifizierung erreichte. Dies zeigt die folgende Confusion-Matrix, in der die Menge der vorhandenen Daten (30.000 Datensätze) in 20.100 Trainingsdaten und 9.900 Testdaten zerlegt wurde:

 Predicted NegativePredicted Negative
Actual Negative96080
Actual Positive22666

Hierbei bezeichnet Predicted Negative (Positive) diejenigen Datensätze, die als storniert (beziehungsweise nicht storniert) klassifiziert wurden, während Actual Negative (Positive) diejenigen Datensätze bezeichnet, die tatsächlich storniert (nicht storniert) wurden. Damit wurden ca. 97,7 Prozent bereits korrekt klassifiziert.

Abschätzungen für die Größe der Trainingsdatenmenge

Allerdings war die Menge der zur Erzeugung der SVM notwendigen Trainingsdaten noch ziemlich groß, weshalb mittels Techniken aus dem Bereich der theoretischen Informatik versucht wurde, obere und untere Schranken für die Menge der notwendigen Trainingsdaten zu ermitteln. Dies erfolgt unter Verwendung der VC-Dimension, eines kombinatorischen Parameters (eingeführt in [3], der zu einer Menge C von Mengen eine Aussage ermöglicht, wie schwer es im schlimmsten Fall ist, zwei Elemente voneinander zu unterscheiden, indem unter bestimmten Umständen ein Parameter VCDim(C) ermittelt werden kann. Die nachfolgenden Resultate basieren auf dem Modell des sogenannten PAC-Lernens (Probably Approximately Correct Learning[4]). Dieses Modell erlaubt den betrachteten Lernverfahren eine gewisse Abweichung der produzierten Hypothesen von den tatsächlich zu klassifizierenden Konzepten. Dies ist eine realistischere Betrachtung als Lernmodelle, die exakte Korrektheit verlangen, wie das Lernen im Limes (auch Explanatory Learning genannt [5]) oder das BC-Lernen (Behaviourally Correct Learning[6]).

Das für die weiteren Betrachtungen zentrale Resultat ist nun folgendes: Wenn |C|<∞ , so gilt |VCDim(C)|log2|C| .

Die obige Abschätzung ist grundlegend, da man mit endlicher VC-Dimension Aussagen über die minimal und maximal notwendige Anzahl an Trainingsdaten herleiten kann. Dazu nimmt man an, dass zwei Parameter ε und δ fixiert sind, die einerseits die gewünschte Güte der Klassifikation beschreiben und andererseits die Wahrscheinlichkeit, dass eine Klassifikation diese Güte nicht besitzt. Damit kann man dann eine Funktion m(ε,δ)  angeben, die die minimal und maximal nötige Anzahl an Trainingsdaten angibt, die bezüglich der beiden Parameter nötig sind. Für gegebene Mengen C, sowie eine Zielmenge H (den Hypothesenraum) gilt unter bestimmten Umständen speziell [7]:

sowie

Die dem synthetisierten Datensatz zugrundeliegende Menge konnte geeignet strukturiert werden, so dass ihre Größe abgeschätzt werden konnte zu |C| = 169.530.032.237.837.587.223.268.556.800, woraus man dann den Wert der VC-Dimension mittels VCDim(C)≤log2 169.530.032.237.837.587.223.268.556.800≈97,097 ermitteln kann.

Die prozentuale Genauigkeit beträgt bei einer Trainingsdatenmenge von 40 exakt 93,36 Prozent. Zwar ist diese Genauigkeit nicht so hoch wie zuvor, jedoch wurde eine Abweichung von 4,35 Prozent im Hinblick auf Komplexität und Laufzeit der SVM als vertretbar akzeptiert. Der Vorteil, der sich hier andeutet, ist noch größer, wenn man die VC-Dimension der SVM analysiert (genauer gesagt: die VC-Dimension der Menge, auf der die SVM arbeitet). Für eine SVM auf einer Menge C gilt allgemein, dass die VC-Dimension von der Menge der benutzten Stützvektoren n anhängt, genauer VCDim(C)≤n+1. Beim synthetisierten Datensatz ergab sich ein Wert von n=1612, d.h. VCDim(C)≤1613.

Fazit und Ausblick

Das beschriebene Beispiel zeigt, dass die tatsächlich notwendige Menge an Trainingsdaten signifikant von der Menge der bei der Klassifizierung durch eine SVM theoretisch benötigten Trainingsdaten abweichen kann. Das belegt, dass es viel Optimierungsspielraum gibt, was zu verwendende Verfahren angeht. Als weiteren potentiellen Ansatz für die Anwendung KI-basierter Techniken wurde außerdem bereits das Modell des Induktiven Logischen Programmierens (ILP, [8;9]) identifiziert, das weitere positive Effekte verspricht. Zusätzlich zu den durchgeführten Migrationsprojekten bei VUs können dann basierend auf den bei der Migration verarbeiteten Daten tiefergehende Analysen durchgeführt werden, was zu weiteren Optimierungen in den Geschäftsprozessen der VUs führen kann.

Quellen
  1. Bundesanstalt für Finanzdienstleistungsaufsicht: Solvency II
  2. V. Vapnik: The Nature of Statistical Learning Theory, Springer Verlag, New York, NY, USA, 1995
  3. V. N. Vapnik, A. Ya. Chervonenkis: On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities. Theory of Probability & Its Applications, Volume 16 (2), 1971, pp. 264-280
  4. L.G. Valiant: A Theory of the Learnable. Communications of the ACM, Volume 27, Issue 11, November 1984, pp. 1134_1142
  5. E.M. Gold: Language identification in the Limit. Information and Control, Volume 10 (5), 1967, pp. 447–474.
  6. J. Case, C. Smith: Comparison of Identification Criteria for Machine Inductive Inference. Theoretical Computer Science, Volume 25, 1983, pp. 193-220
  7. A. Blumer, A. Ehrenfeucht, D. Haussler, M.K. Warmuth: Learnability and the Vapnik-Chervonenkis dimension. Journal of the ACM, Volume 36, Issue 4, October 1989, pp. 929-965
  8. S. Muggleton, L. De Raedt: Inductive Logic Programming: Theory and Methods. Journal of Logic Programming. Volume 19/20, 1994, pp. 629—679
  9. S.-H. Nienhuys-Cheng, R. de Wolf: Foundations of Inductive Logic Programming, Springer Verlag 1997 (LNCS Vol. 1228)

Autoren

Dr. Robert Kolter

Robert Kolter ist Softwarearchitekt bei adesso insurance solutions. Er verfügt über langjährige Erfahrung im Bereich Entwurf von Software für Versicherungen in allen Branchen, sowie in der Beratung von Versicherungsunternehmen.
>> Weiterlesen

Christian Städing

Christian Städing ist Werkstudent der adesso insurance solutions GmbH. Durch sein Mathematik-Studium erlangte er tiefe Kenntnisse im Bereich der Künstlichen Intelligenz und wendet diese in verschiedenen Bereichen der…
>> Weiterlesen
Das könnte Sie auch interessieren
Kommentare (0)

Neuen Kommentar schreiben