Einblick geben und Vertrauen ermöglichen: Bessere User Experience mit Erklärbarer KI
Längst sind es nicht mehr nur Data Scientists, Machine-Learning-Engineers oder andere IT-Fachkräfte, die mit KI-Systemen konfrontiert sind. Der zunehmende Einsatz von KI-Technologie zur Automatisierung von Prozessen und Anwendungen in Unternehmen und Verwaltungen führt bereits heute dazu, dass auch Kund:innen und Mitarbeiter:innen ohne technischen Hintergrund mit KI-Systemen und den von ihnen erzeugten Entscheidungen, Empfehlungen und Prognosen interagieren.
Sich einer undurchschaubaren "Black Box" gegenüber zu sehen, birgt erhebliches Frustrationspotenzial, welches sich bis zum Gefühl des Ausgeliefertseins verstärken kann. Die Folge sind mangelnde Akzeptanz für das KI-System und die Ablehnung der von ihm produzierten Ausgaben.
Doch auch der umgekehrte Fall lässt sich beobachten. Beeindruckt von der Geschwindigkeit und der vermuteten mathematisch-technischen Präzision eines KI-Systems schenken Nutzer:innen seinen Ausgaben allzu viel Vertrauen. Auch dieses Extrem führt nicht zu guten Ergebnissen und einem zielgerichteten Umgang.
Was den meisten heutigen KI-Systemen fehlt, ist die Möglichkeit, den Nutzer:innen die eigenen Entscheidungswege und -gründe zu vermitteln. Diese große Lücke schließen Ansätze aus dem Feld der Erklärbaren Künstlichen Intelligenz (Explainable AI, kurz XAI), die die Ausgabe von KI-Systemen um automatisiert erzeugte Erklärungen ergänzen.
Ursprünglich vor allem entwickelt, um Data Scientists und KI-Forscher:innen Einblicke in die inneren Abläufe etwa von großen Deep-Learning-Modellen zu verschaffen, können XAI-Methoden auch zur Gestaltung der User Experience eingesetzt werden. Eine XAI-Methode ist ein Algorithmus, der durch Analyse des KI-Systems die von den Nutzer:innen als Erklärung benötigten Informationen extrahiert. Diese werden anschließend für die Zielgruppe verständlich aufbereitet.
Übergreifendes Ziel dieses als User-Centric XAI bezeichneten, auf Endanwender:innen zugeschnittenen Einsatzes von Erklärbarer KI ist es, Menschen einen selbstbestimmten und zielführenden Umgang mit KI-Systemen zu ermöglichen. Nur, wenn Nutzer:innen die Hintergründe einer Entscheidung oder Empfehlung verstehen, sind sie in der Lage, diese kritisch zu prüfen.
Dieses Ziel in der Praxis zu erreichen, erweist sich angesichts der Komplexität von KI-Systemen und der Vielfalt ihrer Anwendungsbereiche als große Herausforderung. Einerseits muss eine Erklärkomponente für ein KI-System technisch umgesetzt werden, andererseits dürfen die Bedürfnisse der Nutzer:innen nicht aus den Augen verloren werden. Sonst droht die Gefahr, fehlende Akzeptanz oder übermäßiges, ungerechtfertigtes Vertrauen in ein KI-System noch zu verstärken.
Im Folgenden stellen wir ein strukturiertes Vorgehen für die Entwicklung von Erklärkomponenten vor, das sich über zahlreiche Projekte in Forschung und Praxis hinweg bewährt hat. In vier aufeinander aufbauenden Phasen werden zunächst Zielgruppe und Anwendungskontext erfasst, dann geeignete XAI-Methoden identifiziert, die anschließend mit einem Prototypen erprobt und schließlich zu einer anwendungsreifen Erklärkomponente entwickelt werden.
Zur Illustration der einzelnen Entwicklungsschritte betrachten wir ein KI-System zur Bewertung von Immobilien. Daten über die Immobilie selbst, das Grundstück und die Lage werden ausgewertet und zu einer Prognose des Marktwerts verrechnet. Solche Problemstellungen sind ein typisches Einsatzgebiet von machine-learning-basierten Systemen, die aus großen Datenbeständen angelernt werden.
Der Vorteil gegenüber klassischen Bewertungsverfahren besteht darin, dass eine größere Vielfalt von Datentypen einbezogen werden kann (etwa Geodaten), wodurch mehr Informationen einfließen können. In Kombination mit der Fähigkeit von Machine-Learning-Modellen, in der Trainingsphase auch schwache Muster und Strukturen in Daten erkennen zu können, führt dies zu individuelleren Bewertungen. Die hierzu notwendige algorithmische Komplexität führt jedoch zu dem Problem, das wir mit einer Erklärkomponente lösen möchten: Für seine Anwender:innen ist ein solches KI-System eine "Black Box".
Phase 1: Zielgruppe und Anwendungskontext erfassen
Am Anfang der Entwicklung einer Erklärkomponente für ein KI-System steht die Frage, wer die Zielgruppe für die Erklärungen ist und in welchem Kontext diese mit den Erklärungen interagieren wird. Ohne ein genaues Verständnis hiervon laufen Erklärungen Gefahr, die gewünschte Wirkung zu verfehlen oder sogar einen gegenteiligen Effekt zu bewirken. So können etwa Erklärungen, die aus Sicht ihrer Zielgruppe unverständlich sind, die fehlende Akzeptanz eines KI-System noch verschärfen.
Je nach Anwendungskontext und Rolle des KI-Systems in der Organisation unterscheiden sich die Informationsbedürfnisse und Anforderungen verschiedener Zielgruppen. Auch dem individuellen Hintergrund der Anwender:innen – beispielsweise in Bezug auf Ausbildung, Erfahrung im Umgang mit IT-Systemen oder demografische Merkmale – kommt eine wichtige Bedeutung zu.
So können Immobilien-Makler:innen oder Sachbearbeiter:innen bei einer Pfandbriefbank mit Fachbegriffen umgehen und möchten häufig eine vom KI-System vorgenommene Bewertung im Detail verstehen. Die Enkel, die das Haus der verstorbenen Großeltern auf einer Onlineplattform zum Verkauf anbieten möchten, haben dagegen in der Regel keine tiefere Erfahrung mit dem Immobilienmarkt.
Abb. 2 zeigt beispielhaft, wie sich verschiedene Zielgruppen im Hinblick auf ihr technisches und fachliches Verständnis des zu erklärenden KI-Systems unterscheiden.
Schon einige wenige strukturierte Gespräche, sowohl mit Mitgliedern der Zielgruppe als auch mit weiteren Stakeholdern, ergeben in aller Regel einen enormen Informationsgewinn. In dieser frühen Entwicklungsphase sollte der Schwerpunkt darauf liegen, den Informationsbedarf in Form möglichst konkreter "Fragen an das KI-System" zu definieren. Auch sollte analysiert werden, welche weiterführenden Konsequenzen die Nutzer:innen des KI-Systems aus den Erklärungen ziehen möchten. Also etwa, ob konkrete Handlungsempfehlungen ableitbar sein sollen.
Die Anforderungen an die Aufbereitung und Präsentation der zu generierenden Erklärungen können ermittelt werden, indem gemeinsam mit den zukünftigen Nutzer:innen die Situation betrachtet wird, in der sie mit der Erklärkomponente interagieren werden. Daraus können dann beispielsweise der Zeitbedarf für das Erfassen und Verstehen der Erklärungen und die erforderliche Informationstiefe abgeleitet werden. Oft bietet sich neben direkten Gesprächen auch eine genaue Beobachtung des Arbeitskontexts der Zielgruppe an.
Sind Mitglieder der Zielgruppe nicht direkt greifbar, beispielsweise wenn es sich um Nutzer:innen einer für Kund:innen entwickelten Smartphone-App handelt, kann anstelle direkter Gespräche auf bewährte Methoden aus der Nutzer:innenforschung zurückgegriffen werden. Dazu zählen Umfragen, Tests von Designbeispielen mit Fokusgruppen und der Rückgriff auf Daten zum Nutzer:innenverhalten einer möglicherweise bereits bestehenden Version der Anwendung.
Wie seit vielen Jahren im Human-centered Design etabliert, sollten keinesfalls allein eigene Vermutungen und Annahmen der Entwickler:innen die Grundlage bilden. Zu groß ist die Gefahr, den Bedürfnissen der Zielgruppe nicht gerecht zu werden. Gleichzeitig sollten jedoch auch Aussagen von Mitgliedern der Zielgruppe mit einer gewissen Skepsis betrachtet werden, da diese sowohl durch soziale Erwünschtheit als auch durch ein fehlendes Verständnis der technischen und methodischen Möglichkeiten verfärbt sein können.
Aus den auf diese Weise gesammelten Informationen kann ein erster Rahmen abgeleitet werden. Dieser umfasst die Darstellungsformen, den inhaltlichen Umfang und die erforderliche Detailtiefe der Erklärungen. Abb. 3 zeigt einen Leitfaden, an dem sich diese Analysen orientieren können.
Es ist darüber hinaus wichtig, transparent festzulegen, ob in erster Linie die technische Integrität des KI-Systems überwacht werden soll oder ob die generierten Erklärungen fachliche Anforderungen erfüllen müssen. Im ersten Fall kann es beispielsweise ausreichen, die in eine Entscheidung eingeflossenen Datenpunkte sowie die zugrundeliegenden Kriterien transparent zu machen. Sollen jedoch aus einer Erklärung Handlungsmöglichkeiten abgeleitet oder diese zur Vermittlung eines Sachverhalts genutzt werden, muss die Erklärung nicht nur technisch-mathematisch zutreffend sein, sondern auch einen hohen Realitätsgrad aufweisen.
Beispielsweise sind die Größe und Lage eines Grundstücks wichtige Einflussfaktoren für den Marktwert einer Immobilie, entziehen sich aber dem Einfluss der Verkäufer:innen. Suchen diese nach Wegen, den Verkaufspreis zu steigern, sollte eine Erklärung für das Zustandekommen einer Preisprognose also auf Aspekte fokussieren, die durch eigenes Zutun verändert werden können, etwa ein Austausch der Heizungsanlage oder Einbau neuer Fenster.
Der Schutz von Daten und Informationen sollte ebenfalls bereits an dieser Stelle bedacht werden. Da die generierten Erklärungen Details zu Entscheidungswegen und -kriterien offenlegen, besteht die Gefahr, auf diese Weise Angreifer:innen Lücken und Schwachstellen des KI-Systems zu offenbaren. Insbesondere in Fällen, in denen Externe mit dem KI-System interagieren, sollte von vornherein darauf geachtet werden, dass durch Erklärungen keine vertraulichen oder sicherheitsrelevanten Informationen nach außen gelangen.
Phase 2: Geeignete XAI-Methoden identifizieren
Sobald die Bedürfnisse der Zielgruppe und die Anforderungen des Anwendungskontexts herausgearbeitet wurden, steht die Auswahl der XAI-Methoden an, die zur Erzeugung der Erklärungen in Frage kommen. Dabei müssen sowohl technische als auch fachliche Kriterien herangezogen werden.
Auf technischer Ebene sind dies zunächst einmal die zu verarbeitenden Datentypen. Verarbeitet beispielsweise das zu erklärende KI-System Textdokumente und gibt als Ergebnis numerische Werte aus, so muss auch die XAI-Methode damit umgehen können.
Darüber hinaus spielen auch Überlegungen hinsichtlich der Performance (Laufzeit) sowie der Stabilität und Robustheit der XAI-Methode eine Rolle. Auf diese werden wir in Phase 4 im Detail eingehen. An dieser Stelle im Entwicklungsprozess sollte darauf geachtet werden, dass der einer XAI-Methode zugrundeliegende Algorithmus zumindest prinzipiell ein für den Anwendungskontext passendes Skalierungsverhalten aufweist. Sollen beispielsweise Erklärungen in Echtzeit auf einem Smartphone erzeugt werden, fallen XAI-Methoden heraus, die einen hohen Speicherbedarf haben oder auf umfangreiche Datensätze zugreifen müssen.
Auf fachlicher Ebene ist entscheidend, dass die XAI-Methode in der Lage ist, alle zur Erklärung benötigten Informationen aus dem KI-System zu extrahieren. Oft ist in dieser Phase der Entwicklung einer Erklärkomponente zu beobachten, dass technische Anforderungen oder schlichtweg die Vertrautheit mit einer bestimmten XAI-Methode ausschlaggebend für die Auswahl sind. Die in Phase 1 durch Analyse von Zielgruppe und Kontext gewonnenen Informationen fallen unter den Tisch. Für die Entwicklung effektiver und verständlicher Erklärungen ist es jedoch unerlässlich, die Bedürfnisse der Nutzer:innen in den Mittelpunkt zu stellen.
Wie auch bei der Entwicklung von Machine-Learning-Systemen ist es schwer, an dieser Stelle pauschale Empfehlungen oder gar eine abschließende Liste möglicher XAI-Methoden zu präsentieren, zumal nahezu wöchentlich neue Ansätze oder verbesserte Algorithmen wissenschaftlich publiziert werden und ihren Weg in die Praxis finden.
In Abb. 4 geben wir daher lediglich einen groben Überblick als Orientierungshilfe, der nach der zu beantwortenden Fragestellung der Zielgruppe sowie den technischen Eigenschaften des KI-Systems gegliedert ist.
Bevor sie einen Immobilienkredit gewähren, möchten die fachlich versierten Mitarbeiter:innen einer Bank überprüfen, ob das KI-System alle relevanten Faktoren berücksichtigt und korrekt in die Bewertung einbezogen hat. Dann ist die Extraktion dieser Informationen in Form von Regeln zielführend, die beispielsweise in Form eines Kriterienkatalogs dargestellt werden können.
Für Makler:innen, die ihren Kund:innen eine Bewertung vermitteln möchten, ist hingegen oft eine kontrafaktische Erklärung hilfreich. Diese in der zwischenmenschlichen Interaktion typische Form zieht zur Erklärung eines Sachverhalts ein fiktives Gegenbeispiel heran. Wäre das zu verkaufende Haus etwa zehn Jahre jünger und würde fußläufig zum Supermarkt liegen, könnte ein fünfzehn Prozent höherer Kaufpreis erzielt werden.
Phase 3: Prototypen entwickeln und erproben
Nachdem in Phase 1 Kontext und Zielgruppe analysiert und in Phase 2 eine geeignete XAI-Methode identifiziert wurden, steht in Phase 3 nun die Validierung an.
Dabei hat sich als sinnvoll erwiesen, einen Prototypen der Erklärkomponente umzusetzen. Hierbei kommt es noch nicht auf die Qualität der generierten Erklärungen oder die technischen Details der Implementierung an. Vielmehr soll zunächst sichergestellt werden, dass es unter den gegebenen Rahmenbedingungen überhaupt möglich ist, die ausgewählte XAI-Methode einzusetzen. Typische Problemstellen sind inkompatible Datentypen, lange Laufzeiten sowie inkonsistente Ergebnisse bei wiederholter Berechnung.
Um die von der XAI-Methode errechneten Informationen zu validieren, kann die Aufbereitung zunächst händisch vorgenommen und beispielsweise auf Mock-Ups zurückgegriffen werden. Wichtig ist jedoch, dass – im Gegensatz zu möglicherweise in Phase 1 bereits entworfenen Designbeispielen – möglichst realitätsnahe Erklärungen präsentiert werden. Weder sollten Informationen in die Darstellung der Erklärungen einfließen, die bei automatisierter Erzeugung nicht zur Verfügung stehen, noch sollten die Entwickler:innen ausschließlich Erklärungen auswählen, die in ihren Augen von besonders hoher Qualität sind.
Um zu überprüfen, ob die Zielgruppe mit den Erklärungen etwas anfangen kann, kann im ersten Schritt auf qualitative, halbstrukturierte Interviews zurückgegriffen werden. Diese werden aufgezeichnet, transkribiert und mittels thematischer Analyse ausgewertet. Das Ziel ist, die Wahrnehmung der Nutzer:innen zu erfassen und Optimierungspotenziale zu identifizieren.
Auf dieser Grundlage kann der Prototyp angepasst und so weit implementiert werden, dass er von den zukünftigen Nutzer:innen der Erklärkomponente eigenständig bedient werden kann. Dazu ist es noch nicht unbedingt erforderlich, dass später benötigte Rechenzeiten erreicht oder zu erwartende Datenmengen vollständig verarbeitet werden können. Stattdessen kann auf vorberechnete Beispiele zurückgegriffen werden. Jedoch sollten solche Maßnahmen zur Reduzierung des Implementierungsaufwands von den Nutzer:innen unbemerkt bleiben.
Nachdem oder während die Nutzer:innen mit dem Prototypen interagieren, beantworten sie Fragen zur Einschätzung des empfundenen Aufwands, des eigenen Informationsstands sowie der Vertrauenswürdigkeit des KI-Systems. Auch wahrgenommene Eigenschaften der Erklärungen können erfragt werden. Die Antworten können sowohl in Form von vorgegebenen Skalen als auch über Freitextfelder erhoben werden.
Neben einer möglichst gesicherten Bewertung des Prototyps sollen aus dieser Evaluation auch erste Referenzwerte abgeleitet werden, mit denen im Betrieb die Funktionsfähigkeit der Erklärkomponente überprüft werden kann. So kristallisieren sich bei der Auswertung der Antworten der Nutzer:innen oft Merkmale heraus, die als besonders geeignet oder ungeeignet empfundene Erklärungen auszeichnen.
Gelingt es, diese subjektiven Eindrücke mit technisch-quantitativ fassbaren Eigenschaften zu korrelieren, können sogenannte Proxy-Maße für Erklärungen definiert werden. Ein klassisches Beispiel ist die Länge einer Erklärung, gemessen in Anzahl der enthaltenen Wörter, als Proxy-Maß für ihre empfundene Komplexität. Kann ein solcher Zusammenhang mit ausreichender Sicherheit festgestellt werden, kann die Erklärkomponente mittels dieser Proxy-Maße optimiert und überprüft werden.
So könnte, um den Realitätsgrad der als Gegenbeispiele errechneten fiktiven Immobilien bei kontrafaktischen Erklärungen zu ermitteln, ihre mathematische Ähnlichkeit mit real existierenden Immobilien bestimmt werden. Inwieweit ein solches Proxy-Maß jedoch mit der Wahrnehmung der Nutzer:innen übereinstimmt, muss in jedem Fall empirisch im Anwendungskontext überprüft werden.
Phase 4: Die Anwendung entwickeln und zum Einsatz bringen
Die letzte Phase in der Entwicklung einer Erklärkomponente umfasst die Weiterentwicklung des Prototyps zu einer produktionsreifen Anwendung und deren Inbetriebnahme.
Im Hinblick auf den eingesetzten Tech Stack sowie die Anforderungen an Rechenleistung und Speicherkapazität unterscheidet sich eine Erklärkomponente nicht von anderen KI-Anwendungen. In der Regel kann auf die Technologien, Entwicklungsumgebungen und Deployment-Infrastruktur zurückgegriffen werden, die für das zu erklärende KI-System bereits etabliert wurden.
Während für Machine-Learning- oder Recommender-Systeme seit vielen Jahren ausgereifte Bibliotheken existieren und sich im Data-Science-Bereich etwa die scikit-learn- und Pandas-APIs de facto als Standard durchgesetzt haben, ist die Situation im Bereich Explainable AI derzeit noch wenig ausgereift und unübersichtlich.
Neben einigen Frameworks mit spezifischem Fokus (z. B. die PyTorch-Bibliothek Captum) existieren zahllose Implementierungen einzelner Algorithmen, die oft gemeinsam mit deren wissenschaftlicher Erstveröffentlichung bereitgestellt werden. In der Regel eignen sich diese nur bedingt direkt für einen Produktiveinsatz. So werden vom Großteil der Forscher:innen – verständlicherweise – Skalierbarkeit und Konfigurierbarkeit bei der Implementierung nicht berücksichtigt. An dieser Stelle muss also ein entsprechender Entwicklungsaufwand eingeplant werden.
Wie schon beim Prototyping ist es sowohl bei der weiteren Entwicklung als auch dem späteren Betrieb notwendig, die Qualität der erzeugten Erklärungen mit Hilfe von Feedback der Nutzer:innen zu überprüfen. Die vielen Dimensionen, die die Qualität einer Erklärung ausmachen, lassen sich – anders als etwa die Korrektheit einer Klassifikation – nicht durch Gütemaße abbilden. Hinzu kommt, dass sich das Informationsbedürfnis der Empfänger:innen im Laufe der Zeit verändern kann. Als zielführend hat es sich erwiesen, den bereits in Phase 3 durchgeführten Abgleich zwischen Proxy-Maßen und subjektiver Wahrnehmung der Erklärungen regelmäßig zu wiederholen.
Analog zu KI-Systemen lassen sich Erklärungen in drei verschiedenen Modi generieren: Im Batch- bzw. Offline-Modus, im Online- bzw. Echtzeit-Modus und asynchron.
Wird das KI-System im Batch-Modus betrieben, können auch die Erklärungen im Batch-Modus erzeugt werden. Vorteilhaft ist, dass die zur Generierung der Erklärungen benötigte Rechenzeit eine untergeordnete Rolle spielt und der Ressourcenbedarf gut planbar ist. Nachteilig ist, dass keine Interaktivität möglich ist und unter Umständen aufwändig Erklärungen errechnet werden, die letztlich nicht benötigt werden.
Die Erzeugung von Erklärungen im Online-Modus (Echtzeit-Modus) ist nur möglich, wenn sowohl das KI-System als auch die Erklärkomponente hinreichend schnell sind. In Hinblick auf Interaktivität sind in diesem Modus kaum Grenzen gesetzt. Der für eine zuverlässige Echtzeit-Berechnung nötige Ressourcenbedarf kann jedoch selbst bei optimierter Implementierung der XAI-Algorithmik erheblich sein. Dank schnell und praktisch unbegrenzt skalierbarer Deployment-Infrastruktur, wie sie viele Cloud-Provider zur Verfügung stellen, ist die Bereitstellung dieser Ressourcen jedoch technisch kein Problem.
Einen Mittelweg stellt die asynchrone Erzeugung von Erklärungen dar, die vorrangig für im Online-Modus betriebene KI-Systeme infrage kommt. Wird eine neue Anfrage an das KI-System gestellt, wird parallel auch die Erzeugung einer Erklärung angestoßen. Die Ausgabe des KI-Systems wird schnellstmöglich bereitgestellt, während die Erklärung erst im Nachgang ausgespielt wird. Hierdurch wird einerseits die Anzahl später ungenutzter Erklärungen minimiert, andererseits entstehen auch bei langwierigen Berechnungen keine Verzögerungen aus Sicht der Nutzer:innen.
In jedem Fall sollten die Erklärungen gemeinsam mit den zugehörigen Ausgaben des KI-Systems abgelegt werden, um später für einen erneuten Abruf oder Analysen zur Verfügung zu stehen.
Zusammenfassung und Fazit
Der Einsatz von Erklärbarer KI kann ein Gamechanger für den Einsatz von Künstlicher Intelligenz sein. Automatisch generierte Erklärungen ermöglichen Nutzer:innen einen souveränen Umgang mit KI-Systemen, schaffen die Grundlage für Vertrauen und erhöhen dadurch die Akzeptanz für die neue Technologie. Jedoch ist nicht jede technisch mögliche Erklärung auch geeignet, diese Ziele zu erreichen.
Unabdingbar bei der Entwicklung von Erklärkomponenten ist die Einbindung ihrer späteren Nutzer:innen. Nur so können ihre Bedürfnisse erfasst und erfüllt werden. Doch nicht nur in Bezug auf die Zielgruppe, sondern auch im Hinblick auf fachliche und technische Anforderungen ist jede Erklärkomponente eine individuelle Anwendung. Ihre Umsetzung erfordert gleichermaßen eine technisch-methodische als auch eine fachliche Perspektive auf den Anwendungsfall.
Das in diesem Artikel vorgestellte und in der Praxis bewährte Entwicklungsvorgehen schafft einen Rahmen, diese Komplexität strukturiert zu bewältigen. Es stellt in jeder Phase sicher, dass nicht an den Anforderungen des Anwendungskontexts und den Bedürfnissen der Nutzer:innen einer Erklärkomponente vorbei entwickelt wird.