Christopher Helm 24. November 2020

Das Magische Dreieck bei KI-Projekten

Die Themen Künstliche Intelligenz und lernende Systeme spielen bei wissensintensiven Dienstleistungen eine zunehmend wichtige Rolle, um die Effektivität und Effizienz der Mitarbeitenden zu steigern. Im Gegensatz zu herkömmlicher IT verändern sich lernende Systeme nach der Implementierung und dies hoffentlich zum Besseren. Lernende Systeme führen jedoch in der Praxis dazu, dass sich Entscheider bei der Einführung oder dem Betrieb mit neuen Fragestellungen konfrontiert sehen.

KI befähigt Maschinen zum menschlichen Denken, Entscheiden und Handeln. Dafür braucht KI Daten. Auf dieser Basis kann sie Menschen "beobachten" und von getroffenen Entscheidungen und somit der natürlichen Intelligenz des Menschen lernen. Während des Trainings lernen Maschinen die Erkennung von Mustern und nutzen dies für künftige Entscheidungen.

Die Entscheidungen von Menschen ändern sich jedoch stetig. Deshalb gibt menschliches Feedback der KI die Möglichkeit, ihre Künstliche Intelligenz feingranular auch für spezifische Anwendungsfälle zu adjustieren oder Entscheidungen neu zu definieren. Doch wie steuert man das Lernen der KI?

Die neue ISO 92001 bietet eine erste Annäherung an dieses Thema [1]. Die DIN SPEC 92001-1 definiert ein Qualitäts-Metamodell über den Lebenszyklus der KI. Dieses Metamodell identifiziert Leistung, Stabilität und Funktionalität und stellt die Nachvollziehbarkeit als übergeordnetes Ziel der Qualitätssicherung dar. Im Vergleich zu herkömmlicher Software ist von der KI erlerntes Entscheiden und Handeln jedoch nur selten durch die Sichtung des Quelltexts kontrollierbar. Auch das 800 Seiten umfassende Ergebnis der Enquete-Kommission bestehend aus 19 Abgeordneten und 19 Sachverständigen, das am 28. September 2020 im Bundestag vorgestellt wurde, bietet nur erste Ansatzpunkte für den Umgang von KI in der Praxis [2]. Dieser Artikel bietet erprobte Vorgehensweisen aus der Praxis zur Qualitätssicherung bei KI-Modellen während der Entwicklung und während des Betriebs, die Praktikern und Entscheidern Optionen für qualitätssichernde Maßnahmen aufzeigen, die über die allgemeinen Qualitätssicherungen gemäß ISO 9001 und ISO 12207 hinausgehen.

Das Konzept des Magischen KI-Dreiecks und die Aufzählung der qualitätssichernden Maßnahmen werden aktiv weiterentwickelt und erheben keinen Anspruch auf Vollständigkeit, sind jedoch bei der Entwicklung und dem Betrieb von KI-Modellen mehrfach erprobt.

Das Magische KI-Dreieck

Abb. 1: Es besteht stets ein Zielkonflikt zwischen den drei Zielgrößen des Magischen KI-Dreiecks. Quelle: Helm & Nagel GmbH

Die Qualität von KI kann durch drei Zielgrößen gesteuert werden (s. Abb. 1):

Trainingsdaten: Die gewählte KI-Methode benötigt Daten, um menschliches Denken, Entscheidungen und Handeln zu beobachten und davon lernen zu können. Rohdaten können Dokumente, Bilder oder auch Sprachaufzeichnungen sein. Häufig müssen diese Rohdaten aufbereitet werden, bevor KI-Methoden diese zum Training und Lernen verwenden können. Diese Daten unterscheiden sich in Trainingsdaten und Testdaten. Während des Trainings an Daten erlernen Maschinen die Erkennung von Mustern und nutzen dieses verallgemeinerte Verständnis bei künftigen Entscheidungen [3]. Das Training der gewählten KI-Methode stellt den Produktionsprozess bzw. Entstehungsprozess von Künstlicher Intelligenz dar.

Funktionsumfang: Der Funktionsumfang beschreibt die Fähigkeiten der KI und die Breite der Anwendbarkeit. Diese Zielgröße beschreibt somit den Anwendungsumfang der KI bzw. die Anzahl der Fälle bei denen die KI angewendet werden kann.

Genauigkeit: Die Genauigkeit quantifiziert wie stark das Entscheiden und Handeln eines KI-Modells dem Entscheiden und Handeln eines Menschen ähnelt. Technisch können hierfür unterschiedliche Genauigkeitsmaße verwendet werden, auf die in diesem Artikel jedoch nicht weiter eingegangen werden soll.

Die drei Zielgrößen des Magischen KI-Dreiecks stehen wie im Folgenden weiter erklärt in einer Austauschbeziehung, bzw. einem Trade-Off-Verhältnis, also einer Art Zielkonflikt zueinander, welches man in einem Dreieck veranschaulichen kann.

Schauen wir uns zuerst die Beziehung zwischen Trainingsdaten und Funktionsumfang an. Nehmen wir an, dass die KI den geforderten Funktionsumfang mit den gegebenen Trainingsdaten nicht erlernen kann. Nun könnte man zum einen eine Reduzierung des Funktionsumfangs anstreben. Zum anderen ließe sich der Funktionsumfang beibehalten und stattdessen müssen der KI mehr Trainingsdaten aufbereitet werden. In derartigen Situationen gilt es, sich zwischen der Einhaltung des Funktionsumfangs oder dem Arbeitsaufwand für die Vorbereitung der Trainingsdaten zu entscheiden.

Kommen wir nun zum Verhältnis zwischen Funktionsumfang und Genauigkeit. Wir greifen wieder das obige Beispiel auf, bei dem die KI den Funktionsumfang nicht vollständig erlernen kann. Es besteht die Option, den Funktionsumfang zu reduzieren. Bei Beibehaltung des ursprünglichen Funktionsumfangs kann alternativ die geforderte Genauigkeit reduziert werden. Auch hier muss zwischen beiden Optionen gewählt werden, sofern der Umfang der Trainingsdaten beibehalten werden soll.

Schließlich gibt es noch die Beziehung zwischen Genauigkeit und Trainingsdaten. Dazu betrachten wir nun eine andere Situation: Es sind weniger Trainingsdaten brauchbar als zuvor angenommen. Man steht vor dem Zielkonflikt nur die verfügbaren Trainingsdaten zu nutzen oder die zuvor festgelegte Genauigkeit zu gewährleisten. Möchte man seine Zeit nicht in die Aufbereitung weiterer Trainingsdaten investieren, geht dies zu Lasten der Genauigkeit. Auch hier muss zwischen beiden Optionen entschieden werden, wobei die eine Variante wieder zu Lasten von der anderen Zieldimension geht, sofern der Funktionsumfang beibehalten werden soll.

Qualitätssicherung durch Testdaten

Aus dem Magischen KI-Dreieck ergibt sich, dass ein umfassendes KI-Modell mit sehr hoher Genauigkeit nur durch qualitativ hochwertige Trainingsdaten erstellt werden kann, die hohe Investitionen erfordern. In der Praxis empfiehlt es sich daher, Qualität und Funktionsumfang der KI ökonomisch abzuwägen. Dafür sollten Testdaten verwendet werden anhand derer die Genauigkeit des KI-Modells und der Funktionsumfang laufend im Betrieb und nach jedem Training evaluiert werden.

Um zu überprüfen, ob die KI ein Verständnis der Entscheidung während des Trainings erlernen konnte, werden Testdaten verwendet. Diese Testdaten werden anders als die Trainingsdaten der KI vorenthalten, um so die tatsächliche Befähigung der Maschine nach dem Training anhand von ungesehenen Fällen zu überprüfen.

Abb. 2: Qualitätssteigerung von lernender KI über die Zeit in Form der Lernkurve. Quelle: Helm & Nagel GmbH

Bereits vor dem Betrieb der KI wird ein initialer Testdatensatz aufgebaut, um eine gewählte KI-Methode zu evaluieren. Die Testdaten sollten so umfangreich sein, dass diese den Arbeitsalltag eines Mitarbeitenden widerspiegeln. Häufig werden hier Daten im Zeitraum von einem Tag, einem Monat oder einem Jahr verwendet. Im Betrieb der KI kann dieser Testdatensatz zudem erweitert werden. Dies geschieht durch die Entnahme von Stichproben aus dem Betrieb und die Kontrolle durch Mitarbeitende. So lässt sich feststellen, ob der Mensch bei neu eingehenden Daten die gleichen Entscheidungen treffen würde wie zuvor die KI. Die gezogenen Stichproben können schließlich dem Testdatensatz hinzugefügt werden. Die kontinuierliche Evaluation der KI ermöglicht es, die Qualität der KI über die Zeit hinweg zu betrachten. Dies ist exemplarisch in der Abb. 2 veranschaulicht.

Die Testdaten bieten einen elementaren Baustein für die Qualitätssicherung von KI-Modellen. Ist der Datensatz frei von Fehlerquellen, bietet dieser in vielen KI-Projekten einen heute meist unbeachteten Erfahrungsschatz. Der Testdatensatz gibt Entscheidern ein Evaluationsinstrument für KI-Modelle im Betrieb an die Hand. Doch verschiedene Ereignisse können die Qualität der KI beeinflussen. An dieser Stelle möchten wir exemplarische Ereignisse mit Einfluss auf die Genauigkeit und den Funktionsumfang eines KI-Modells auflisten:

Funktionsumfang: Über die Zeit nimmt typischerweise der gewünschte Funktionsumfang zu: Viele KI-Betreiber beginnen mit einer abgegrenzten KI-Lösung, die stetig erweitert werden soll. Häufig unterschätzen Entscheider den Aufwand Trainingsdaten aufzubereiten, um mehr Funktionsumfang realisieren zu können. KI-Anwendungen mit einem spezialisierten Funktionsumfang realisieren in der Regel einen besseren Wirkungsgrad. Dies erklärt sich wie folgt: Bei einem Prozess reicht es meist, die häufigsten Fälle zu erkennen und diese zu automatisieren. Wird versucht, der KI zu viel beizubringen, scheitert es häufig nicht an der Lernfähigkeit der KI, sondern an der Konsistenz der durch die Mitarbeitenden erzeugten Trainingsdaten. Die Testdaten bieten hier die Möglichkeit, den zusätzlichen Funktionsumfang im Verhältnis zu den tatsächlich auftretenden Fällen abzuwägen.

Eingangsprüfung: Stichprobenkontrollen sind nicht nur ein bedeutender Teil einer Qualitätskontrolle bei Wareneingangsprüfungen im produzierenden Gewerbe, sondern auch bei KI Anwendungen. Starke Veränderungen der eingehenden Rohdaten führen meist zu unkontrollierten Verhaltensweisen der KI. Der Testdatensatz kann verwendet werden, um besonders auffällige bzw. stark abweichende neue Einzelfälle nicht von der KI verarbeiten zu lassen, sondern durch Menschen zu prüfen.

Inkonsistentes Feedback: Trainingsdaten werden durch verschiedene Mitarbeitende schnell inkonsistent, vor allem wenn es sich um selbst geschaffene Definitionen handelt, z. B. die Kategorisierung in A-, B- oder C-Kunde. Solche Kategorisierungen sind häufig nicht eindeutig definiert. Wenn über die Zeit des KI-Betriebs unterschiedliche menschliche Bearbeiter der KI Feedback geben, muss sichergestellt werden, dass ein Konsens unter den Mitarbeitenden herrscht, andernfalls kann die KI nicht lernen. Von Einzelpersonen bearbeitete Stichproben können durch den automatischen Vergleich mit bestehenden Testdaten oder durch einen Zweiten kontrolliert werden. Dadurch steigt die Konsistenz der menschlichen Entscheidungen, die Qualität der Trainings- und Testdaten und damit auch die Qualität des aus den Trainingsdaten generierten Wissens der KI.

Umentscheiden: Bereits nach dem ersten Tag im Betrieb fangen Testdaten an zu veralten. Stichproben helfen nicht nur die Qualität zu kontrollieren, sondern auch Veränderungen von menschlichem Denken, Entscheiden und Handeln widerzuspiegeln. Was nach ehemaliger menschlicher Definition noch ein A-Kunde war, kann über die Firmenhistorie schnell zum B-Kunden werden. Der Anwender sollte daher die KI stichprobenartig prüfen, um Veränderungen frühzeitig zu bemerken und diese Korrekturen der KI als menschliches Feedback zu spiegeln. Stark abweichende Stichproben ggü. dem initialen Testdatensatz deuten menschliches Umentscheiden an.

Software-Update: Außerdem ist in diversen KI-Projekten zu beobachten, dass technische Innovationen und neue Software-Releases Fehler beheben oder sogar verbesserte Genauigkeiten erzielen. Gerade durch die Open-Source-Gemeinschaft werden auch in Unternehmen externe Quellcodes verwendet. Ein Update des verwendeten Quellcodes, das ermöglicht, die KI zu trainieren, kann einen Einfluss auf die Qualität der KI haben. Testdaten helfen bei der Bewertung externer Einflüsse auf die KI.

Dateninnovation: Viele KI-Modelle nutzen sogenannte vortrainierte Modelle. Diese vortrainierten Modelle wurden meist auf einem großen, jedoch unspezifischen Datensatz trainiert. Gerade bei Deep Learning Modellen sparen sich Betreiber einer KI viele Trainingsdaten, da die Modelle nicht von Grund auf neu trainiert werden müssen, sondern lediglich an einen spezifischen Anwendungsfall anhand weniger Trainingsdaten individualisiert werden. Es kommt häufig vor, dass diese vortrainierten Modelle auf neuen oder geänderten Daten neu trainiert werden. Dies gleicht häufig einem neuen Software Release. Solche Änderungen im vortrainierten Modell können dazu führen, dass sich die Qualität der eigenen KI ändert. Diese Änderung kann durch die Testdaten gemessen werden.

Abb. 3: Exemplarisch dargestellter Einfluss von diversen Ereignissen auf die Qualität von KI. Quelle: Helm & Nagel GmbH

Prozessänderung: Ungeachtet der technischen Änderungen können auch Prozessänderungen dazu führen, dass sich die tatsächliche Qualität ändert. So können Prozessverschlankungen z. B. dazu führen, dass Sonderfälle seltener auftreten. Prozessänderungen haben daher meist einen Einfluss auf die Qualität der KI. Zudem gilt: je höher die Prozessreife desto günstiger können Trainingsdaten erzeugt werden, um den Funktionsumfang und die Genauigkeit zu verbessern. Stichproben helfen die Aktualität der in den Testdaten abgebildeten Einzelfälle zu kontrollieren.

Über die Zeit ist es so möglich, einzelne Ereignisse und deren Einfluss auf die Qualität des KI-Modells zu analysieren. Durch dieses Vorgehen steigt die Transparenz von KI-Modellen, da deren Qualitätsbeitrag im Unternehmen qualitativ erklärbar wird.

Ausblick

Die Bedeutung von KI für die Wirtschaft und die Gesellschaft wird immer weiter zunehmen. Heute sind noch viele Tätigkeit in unserer Ökonomie ohne funktionierende KI vorstellbar. Jedoch wird mit zunehmender Digitalisierung der Stellenwert von KI zusätzlich angeheizt. Ein weiterer Treiber für die Nutzung von KI ist der wachsende Anteil zentral bereitgestellter IT-Leistung über die Cloud.

Das Magische KI-Dreieck kann Entscheidern in der Praxis bei der Einführung oder während des Betriebs von KI helfen, die Genauigkeit, den Funktionsumfang und die Investitionen in Trainingsdaten ökonomisch abzuwägen. Auch wenn der Einfluss von Investitionen in Prozesse und Trainingsdaten auf das KI-Modell durch dieses Dreieck nur abschätzbar wird, können Änderungen des Funktionsumfangs und der Genauigkeit somit besser prognostiziert werden. Die Fragen nach dem Trainingsintervall, der maximalen Genauigkeit im Betrieb und der Wirtschaftlichkeit der KI kann mit diesem Rahmenwerk im Einzelfall bewertet werden.

Festzuhalten bleibt: KI ist schon lange kein Hype mehr! Nun gilt es, die großen Potenziale zu nutzen und den Wirkungsgrad in der Praxis durch eine explizite Abwägung von Funktionsumfang, Genauigkeit und Umfang der verfügbaren Daten weiter zu steigern.

Quellen

KI-Qualität sichern: Neue DIN SPEC 92001-1 für die Qualität von KI-Modulen
Unterrichtung der Enquete-Kommission Künstliche Intelligenz – Gesellschaftliche Verantwortung und wirtschaftliche, soziale und ökologische Potenziale
Vgl. Lochner & Preuß, 2018: Digitales Recruiting – Die Evolution des Assessments mittels künstlicher Intelligenz

Autor

Christopher Helm

Christopher Helm ist ein Digital Native der InsurTech- und FinTech-Szene. Durch diverse Software Produkte schafft die Helm & Nagel GmbH Synergien zwischen...

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Christian Ullenboom

Mensch oder KI? Erkennen von KI-generierten Texten mit Convolutional Neural Networks

Kevin Bönisch & Manuel Schaaf

Deutsche KI-Startups haben die Chance, eine führende Rolle einzunehmen

KI-basierte Geschäftsmodelle für Startups: Chancen und Herausforderungen

Sebastian Köffer

Kommentare (0)

Christopher Helm

Aktuelles

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Das Magische Dreieck bei KI-Projekten

Das Magische KI-Dreieck

Qualitätssicherung durch Testdaten

Ausblick

Christopher Helm

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Generative KI sicher einführen

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten

Evaluationswerkzeuge für GenAI: Ein Praxisleitfaden für Entwickler und Tester

Mensch oder KI? Erkennen von KI-generierten Texten mit Convolutional Neural Networks

KI-basierte Geschäftsmodelle für Startups: Chancen und Herausforderungen

Neuen Kommentar schreiben

Christopher Helm

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Christopher Helm

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Generative KI sicher einführen

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten

Evaluationswerkzeuge für GenAI: Ein Praxisleitfaden für Entwickler und Tester

Mensch oder KI? Erkennen von KI-generierten Texten mit Convolutional Neural Networks

KI-basierte Geschäftsmodelle für Startups: Chancen und Herausforderungen

Neuen Kommentar schreiben

KI & Datenschutz: DSGVO-konforme Anonymisierung sensibler Daten