KI und Datenschutz zusammenbringen: Ein Praxisbericht
Es gibt so viele Nachrichten über Lecks und missbräuchliche oder illegale Nutzung von Daten, dass man den Eindruck gewinnen kann, dass moderne KI-Anwendungen und Schutz persönlicher Daten in unauflöslicher Konkurrenz stehen – aber ist das wirklich so? Kann man ethische und rechtliche Grenzen respektieren und trotzdem eine effektive KI-Anwendung bauen? Und wenn ja, wie?
Die gute Nachricht ist: Ja, das geht! Und es ist gar nicht mal so schwer – wenn man die richtigen Entwurfsentscheidungen trifft. Welche das sind, zeige ich am Beispiel der digitalen Sprachplattform der Deutschen Telekom. Dieser Artikel ist eine Erweiterung zu einem älteren Konferenzbeitrag [1].
Einleitung
In den 2010er-Jahren wurde die jahrzehntelange Stagnation bei künstlichen neuronalen Netzen durch "Deep Learning"-Konvolutionsnetzwerke überwunden. Drei Faktoren waren dafür entscheidend [2]:
- tief geschichtete neuronale Netze mit verbesserter Konvergenz beim Training
- erheblich gesteigerte Rechenleistung durch massiv parallele GPUs
- die Verfügbarkeit großer Mengen menschlich annotierter Daten für Schulung und Tests.
Für Anwendungen würde man aus heutiger Sicht wahrscheinlich zwei weitere Faktoren hinzufügen:
- neue Architekturen neuronaler Netzwerke, insbesondere des Attention-Mechanismus [3]
- Bots, deren Leistung unentgeltlich von Milliarden Freiwilligen bewertet werden (Reinforcement Learning from Human Feedback, RLHF [4]).
Nach der ersten Welle von Anwendungen wie ChatGPT, DALLE und Midjourney, die vor allem spielerisch und von Individuen genutzt wurden, kommen jetzt auch verstärkt industrielle Anwendungen in den Blick. In solchen Anwendungsszenarien fügen sich KI-Komponenten als Bausteine in ein großes Ökosystem von Anwendungen und Prozessen ein. Alle bekannten Prinzipien zur Erstellung, Prüfung und zum Betrieb von herkömmlichen IT-Systemen gelten weiter, es kommen aber neue Aufgaben hinzu, insbesondere beim Datenmanagement. Woher stammen die großen Mengen qualitativ hochwertiger Daten für Training, Tuning und Testing (TTT)? Synthetische Daten lösen das Problem nur zu einem kleinen Teil. Außerdem sind sie viel zu teuer, um KI rentabel zu betreiben. Und ob sie wirklich repräsentativ sind, ist auch zumindest unklar.
Daher ist die Verwendung von "realen" Daten für TTT verlockend. Solche Daten sind leicht verfügbar und, aus Sicht der KI-Entwickler, billig. Allerdings gehören diese Daten oft nicht den Entwicklern der KI, sondern deren Nutzern. Erschwerend kommt hinzu, dass diese Daten oft persönliche Daten sind, manchmal sogar biometrisch identifizierende Daten (z.B. Sprachaufnahmen). Daher sind diese Daten vielfach ohne Zustimmung der Nutzer und ohne besonderen technischen Schutz nicht legal verwendbar.
Datenschutz
GDPR ist DS-GVO
Das Recht auf Privatsphäre auch im Cyberraum ist nach §12 der Allgemeinen Erklärung der Menschenrechte der Vereinten Nationen ein allgemeines Menschenrecht im selben Rang wie beispielsweise Meinungsfreiheit. Dieses Recht wurde 2018 in der Europäischen Union als General Data Protection Regulation (GDPR) in Kraft gesetzt und ist in Deutschland als Datenschutz-Grundverordnung (DSGVO) in nationales Recht umgesetzt worden [5]. Daten werden in verschiedene Schutzstufen eingeteilt. Unter besonderem Schutz stehen genetische und biometrische Daten (z.B. Bild- und Tonaufnahmen, Fingerabdrücke), politische, kulturelle oder sexuelle Orientierung und Gesundheitsdaten.
Die GDPR gilt für alle Daten, die von Einwohnern und Bürgern der EU stammen, unabhängig von deren Staatsangehörigkeit und Aufenthaltsort und auch unabhängig davon, von wem, wo und unter welcher Rechtsordnung diese Daten verarbeitet werden. Jedes Unternehmen, welches Daten von Einwohnern oder Bürgern der EU verarbeitet, muss die GDPR einhalten. Dazu gehören insbesondere auch Unternehmen außerhalb der EU, die Websites, Apps, soziale Medien usw. bereitstellen, wie beispielsweise US-amerikanische Technologieunternehmen.
Aufgrund ihrer historischen Vorreiterrolle hat die GDPR auch nachfolgende Regelungen weltweit stark beeinflusst, z.B. CCPA in Kalifornien, PIPA in Südkorea und APPI in Japan. Kurz gesagt, die GDPR ist effektiv eine globale Regelung – und deren Nichteinhaltung kann empfindliche Geldstrafen nach sich ziehen.
Geldstrafen nach GDPR können bis zu 2 % des weltweiten Umsatzes betragen – bei Wiederholungsverstößen und mangelnder Kooperation bis zu 4 %. Während die Datenschutzbehörden anfangs erhebliche Zurückhaltung bei der Verhängung von hohen Strafen übten, wurden inzwischen immer mehr Strafen verhängt. Der "Enforcement Tracker" listet bis Ende 2024 insgesamt über 2200 Geldbußen mit einem Gesamtwert von als 5,6 Mrd. € auf. Unangefochtener Spitzenreiter unter den Top-10 der Geldbußen ist die Meta-Gruppe mit sechs von zehn Einträgen mit einem Gesamtvolumen von 2,736 Mrd. €, also knapp die Hälfte des gesamten Volumens verhängter Geldbußen.
Davon abgesehen kann auch nur der Anschein der Verletzung der gesetzlichen Pflichten erhebliche Rufschäden verursachen. Je nach kolportiertem Schaden und vor allem je nach Wert einer Marke und der Bedeutung von Vertrauen für die Marke, kann der Schaden durch Vertrauensverlust um Größenordnungen über der eigentlichen Geldbuße liegen. Für Großunternehmen ist dieses Risiko kaum zu unterschätzen.
Cloud-Anwendungen
Datenverarbeitung in der Cloud erfreut sich großer Beliebtheit und taucht in der Datenschutzdiskussion oft mit kuriosen Argumenten auf. Grundsätzlich steht der Verarbeitung von Daten durch Dritte ("Auftragsdatenverarbeitung") aus Sicht der GDPR nichts entgegen – aber natürlich gelten dieselben Maßstäbe und Regularien weiter. Die Delegation an Dritte entbindet den Auftraggeber nicht von seinen Pflichten; ein Datenverarbeitungsvertrag erlaubt nur, den Auftragnehmer bei etwaigen Datenschutzverstößen in Regress zu nehmen. Der Rufschaden in einem solchen Fall betrifft aber sowohl Auftraggeber als auch Auftragnehmer.
Häufig wird "Cloud" gleichgesetzt mit "Public Cloud", betrieben von den einschlägig bekannten Hyperscalern, allen voran Amazon und Microsoft. In diesen Fällen wird regelmäßig angeführt, dass die Verarbeitung (gegen Aufpreis) ausschließlich in Rechenzentren in der EU stattfindet, wodurch der Datenschutz sichergestellt sei. Zum einen gilt die GDPR per Definition auch bei Verarbeitung außerhalb der EU, wenn auch die Durchsetzbarkeit von Rechten schwieriger ist. Aber selbst wenn ein Rechenzentrum in der EU ansässig ist und die Betreiber eine rechtlich getrennte Tochterfirma mit Sitz in der EU haben, unterliegen diese de facto dennoch US-Gesetzen (siehe "Patriot Act"), so dass es legale Durchgriffsmöglichkeiten für verschiedenste Stellen der USA gibt. Diese Bedrohung des Datenschutzes lässt sich nur dann wirksam verhindern, wenn die Verarbeitung von Firmen ohne entscheidende Geschäftsinteressen außerhalb der EU durchgeführt wird.
Provenienz von Large-Language-Model-Trainingsdaten (LLM)
Für vortrainierte LLMs sind gigantische Datenmengen notwendig, noch wesentlich mehr als für konventionelle Klassifikationskomponenten. Während anfangs viele Firmen die Herkunft ihrer LLM-Trainingsdaten noch öffentlich machten, gibt es inzwischen dazu kaum mehr Aussagen. Es besteht der Verdacht, dass vielfach Daten benutzt wurden, ohne dass die dazu erforderliche Berechtigung in Form einer Lizenz vorhanden war. Dazu sind Hunderte Klagen von Rechteinhabern anhängig. Die beklagten LLM-Anbieter argumentieren, dass ihre Praxis von der US-Rechtsdoktrin des "Fair Use" gedeckt sei. Dies gilt nach aktueller Lage des Rechts vermutlich für wissenschaftliche Zwecke, ob kommerzielle Zwecke abgedeckt sind, ist auch in den USA zumindest fraglich. In der EU gilt dies absehbar nicht. Es drängt sich der Vergleich mit dem Google Book Settlement auf [6]. Mit Bußgeldern für Anwender ist allerdings kaum zu rechnen. Dieses Problem ist aber primär eines von Urheber- und Verwertungsrechten und vermutlich nur zu kleinen Teilen ein Problem des Schutzes von persönlichen Daten.
Datenschutz und Retrieval Augmented Generation
In vielen Firmen werden Anwendungsfälle diskutiert, in denen Retrieval Augmented Generation (RAG) zum Einsatz kommt. Kurz gesagt werden dazu Datenbestände mit Hilfe von LLMs semantisch indexiert und darüber zur Laufzeit in die Abfrage integriert. Auch hier gilt die GDPR, sofern Kundendaten verwendet werden. Für viele Anwendungsfälle ist es aber ausreichend, Firmendaten zu verwenden, etwa Handbücher, Vertrags-AGB, interne Handlungsanweisungen und vieles mehr, was keinerlei Problem aus datenschutzrechtlicher Sicht darstellt. Sollen aber tatsächlich potentiell sensitive Kundendaten verarbeitet werden (z. B. die Fallhistorien in einer Krankenversicherung), gelten, wie immer, die Maßstäbe der GDPR.
Wie "Hallo Magenta" die Privatsphäre schützt
Seit 2015, als Amazons Alexa eingeführt wurde, gehören digitale Sprachassistenten ("Voice Bots") zu den prominentesten Beispielen KI-gestützter Systeme. 2019 brachte die Deutsche Telekom den digitalen Sprachassistenten "Hallo Magenta" auf den Markt, basierend auf der Telekom Voicification Suite (TVS), einer Plattform für vielfältige Sprachanwendungen. Neben verschiedenen Modellen des inzwischen eingestellten SmartSpeakers der Telekom und der Smartphone-App gibt es weiterhin eine Sprach-Fernbedienung für Magenta TV und verschiedene Angebote rund um die Telefoniedienste der Telekom. Die vielversprechendste Anwendung war der Terminfinder, der die Vereinbarung von Arztterminen per Sprache am Telefon ermöglichte.
Offensichtlich verarbeiten Systeme wie TVS Sprachdaten, die als biometrische Daten den höchsten Schutz nach GDPR genießen. Die Deutsche Telekom hat daher erheblichen Aufwand betrieben, um die Privatsphäre ihrer Kunden zu gewährleisten. Neben umfassender IT-Sicherheit liegt der Fokus auf einem Design, das Datenschutz gewährleistet und dennoch die Nutzung von Daten für Schulung und Tests ermöglicht.
Funktionsweise des Sprachassistenten "Hallo Magenta"
Im Folgenden illustrieren wir die Funktionsweise von TVS am Beispiel des Sprachassistenten auf dem SmartSpeaker. Nehmen wir an, der Nutzer fragt die Wettervorhersage ab. Dazu sagt er vielleicht: "Magenta, wie wird das Wetter morgen in München?" Die Verarbeitung geht in fünf Schritten vor sich, die auch in Abb. 1 gezeigt werden.
Attention: Wake-Up-Word-Erkennung erkennt eine bestimmte Lautsequenz, die den Beginn eines an den Sprachassistenten gerichteten Befehls markiert, wie "Alexa", "Hey Siri" oder "Magenta". Nur Äußerungen nach dem Wake-Up-Word sind für die maschinelle Verarbeitung bestimmt; Fehler hierbei können schwerwiegende Folgen haben.
Listen: Automatische Spracherkennung (ASR) wandelt Audiodaten in Text um. Unter idealen Bedingungen funktioniert dies recht gut, doch Hintergrundgeräusche, Dialekte, parallele Stimmen aus Fernsehern oder Radios sowie Sprachwechsel innerhalb eines Satzes können die Qualität der ASR erheblich beeinträchtigen ("Spiele Homeland!").
Understand: Natürliche Sprachverarbeitung (NLU) versucht, aus dem Audio-Transkript die Bedeutung zu extrahieren, um eine Intention (die beabsichtigte Handlung des Sprechers) und zugehörige Entitäten (grammatikalische Objekte eines Satzes) zu identifizieren. Im Beispiel wäre die Intention die Aktivierung der "Wetter"-Funktion, wobei die Entitäten "München" und "morgen" die Typen "Ort" und "Datum" hätten.
Act: Ausführung eines Sprachdienstes (Skill) übersetzt die erkannte Absicht und die Entitäten in Parameter zum Aufruf eines Dienstes. Dessen Antwort kann z.B. in Form eines zu sprechenden Textes oder in Form eines am Smartphone anzuzeigenden Bildes bestehen.
Es ist wichtig zu beachten, dass das System mehrere Deep-Learning-Modelle als funktionale Kerne für unterschiedliche, klar abgegrenzte Aufgaben verwendet. Diese Kerne sind in ein großes, cloudbasiertes IT-System eingebettet. Die Erstellung und der Betrieb eines solchen Systems erfordert die Zusammenarbeit von Hunderten von Experten über Jahre hinweg – eine enorme Herausforderung.
Architektur

TVS implementiert "Privacy by Design" basierend auf der übergreifenden Facharchitektur. Wir teilen die Plattform in zwei Domänen (oder "Ringe"), die unabhängig voneinander arbeiten (siehe Abb. 2). Der erste Ring (Abb. 2, links) enthält alle Komponenten, die zur Ausführung einer Kundenanfrage erforderlich sind. Die Nutzung der Plattform bedeutet, dass der Verarbeitung genau in diesem Umfang implizit zugestimmt wird. Eine separate Freigabe durch den Nutzer ist nicht erforderlich.
Im Gegensatz dazu enthält der zweite Ring (Abb. 2, rechts) alle Komponenten zur Verbesserung der Plattform, d. h. zum Trainieren und Testen von KI-Komponenten, aber auch zur Fehleranalyse und zur Wirtschaftlichkeitsanalyse. Die Nutzung von nicht-anonymisierten Kundendaten in diesem Ring erfordert die ausdrückliche Zustimmung des Kunden zu dem jeweiligen Anwendungsfall. Die TVS isoliert die beiden Ringe voneinander, was entscheidend für GDPR-Compliance ist.
Die einzige Verbindung zwischen den Ringen besteht aus einer Reihe von ETL-Prozessen (Extract, Transform, Load), die Daten vom ersten in den zweiten Ring übertragen – und das nur, wenn die Zustimmung des Kunden für einen gegebenen Zweck erteilt wurde. Eine Darstellung der technischen Komponenten der TVS ist in Abbildung 3 zu sehen.
Hier werden die einzelnen Komponenten und Subsysteme sowie ihre Daten- und Kontrollflüsse gezeigt. Die Farben korrespondieren mit denen in Abbildung 2. Die gestrichelten Linien stellen abgesicherte Zuständigkeitsbereiche in der Cloud dar, deren Kommunikation vollständig verschlüsselt ist. Zentral ist der auf den ersten Blick unscheinbare Datenfluss am oberen Rand. Er zeigt den Datenfluss von Trainingsdaten aus der Annotation und Analyse zurück in die KI-Komponenten. Dieser Datenfluss läuft vollständig innerhalb von, und dadurch vollständig unter der Kontrolle durch das System. Ein "Lecken" der Daten wird so verhindert; der Verbleib der einzelnen Daten kann so nachvollzogen werden, um vollständige Transparenz und Rechenschaft über die Nutzung persönlicher Daten herzustellen. Dieser technisch geschlossene Kreislauf ist zwingend notwendig für eine glaubwürdige Umsetzung der GDPR.
Vorfilterung, Maskierung und Arbeitsschutz
Damit Rohdaten für das Training geeignet sind, müssen sie in einem aufwendigen manuellen Annotationsprozess zu "Ground Truths" verarbeitet werden, also zu Daten, die als 100% korrekt gelten. Die genaue Vorgehensweise bei der Annotation hängt von der Art der Daten und des Modells ab. Beispielsweise müssen für die Schulung eines ASR-Klassifikators Sprachaufnahmen von Menschen angehört und korrekt transkribiert werden. Da Sprachaufnahmen biometrisch sind und Sprecher identifizieren, unterliegen diese Daten den höchsten Datenschutzanforderungen. Daher werden Daten, wenn sie in den zweiten Ring übertragen werden, in Sensitivitätsstufen eingruppiert (siehe Abb. 4).
Nur freigegebene ("cleared") und unempfindliche ("insensitive") Daten dürfen für nachfolgende Aktivitäten wie Inspektion, Analyse und Training verwendet werden. Daten, die als sensibel ("sensitive") deklariert werden, sind für alle regulären Nutzer und Anwendungen der Plattform sofort verborgen.
Daten mit unbekannter Sensitivität ("unknown") freizugeben, erfordert eine manuelle Deklaration, die nur ein kleiner Kreis speziell ausgestatteter und geschulter Mitarbeiter der Deutschen Telekom vornehmen darf. Eine der Einschränkungen ist, dass diese Arbeit ausschließlich in den Geschäftsräumen der Deutschen Telekom und nur mit der hauseigenen Ausstattung durchgeführt wird. Während der Pandemie mussten Homeoffice-Umgebungen entsprechend gehärtet werden.
Unabhängig von der manuellen Überprüfung können einige sensible Details automatisch verborgen werden. Dies ist besonders relevant für Anwendungsfälle wie die Nutzung eines "Hallo Magenta"-SmartSpeakers als DECT-Gerät. In diesem Fall werden z. B. Kontakte oder verpasste Anrufe angekündigt und erscheinen als solche im Transkript. Verbindungsdaten unterliegen aber dem Fernmeldegeheimnis – eine weit strengere Regelung als die GDPR. Solche Daten werden daher maskiert, indem konkrete Informationen durch Sternchen ersetzt werden. Statt "Fünf Anrufe von Hilde Dalik" sieht ein Mitarbeiter nur "Fünf Anrufe von ***** ***** <Kontakt>". Dieser Mechanismus kann auch verwendet werden, um die Mitarbeiter der Deutschen Telekom vor unangemessener Sprache zu schützen.
Berechtigungen und Fähigkeitsstufen
Ergänzend zu den technischen Maßnahmen zum Schutz der Privatsphäre gibt es organisatorische Regeln. Beispielsweise werden die Hunderte technisch verfügbaren Dienste in 14 disjunkte Pakete aufgeteilt, die unabhängig voneinander vergeben werden können, um eine feingranulare Kontrolle über die Sichtbarkeit von Daten zu ermöglichen. Der Prozess zur Vergabe von Fähigkeiten wird mit zunehmendem Einfluss der jeweiligen Fähigkeiten immer anspruchsvoller.
Dieser Vergabeprozess wird durch einen Offboarding-Prozess ergänzt. Zum Beispiel laufen Fähigkeiten mit hohem Einfluss nach einem Monat ab und müssen manuell erneuert werden. Zusätzlich werden die vergebenen Fähigkeiten ständig überwacht, um zu verhindern, dass einzelne Nutzer übermäßig viele oder unangemessene Fähigkeiten anhäufen.
Datenlöschung
Um die strengen Vorschriften zu Speicherfristen einzuhalten, nutzen wir eine Funktion der zugrunde liegenden Datenbank (CosmosDB), die es ermöglicht, für jeden Dateneintrag eine Lebensdauer (Time-to-Live) festzulegen. Bei der Erstellung von Datenpaketen mit Nutzeräußerungen wird ihre Lebensdauer gemäß den zu diesem Zeitpunkt geltenden Speicherfristen eingestellt.
Wenn das Ablaufdatum erreicht ist, werden die Daten automatisch gelöscht. Diese Löschung kaskadiert automatisch auf alle sekundären Systeme, die die Daten durch die gleichen ETL-Prozesse erhalten haben. Dies wird durch eine UUID für jeden Dateneintrag ermöglicht.
Der gleiche Mechanismus wird verwendet, um individuelle Löschanforderungen umzusetzen, z. B. wenn Kunden über die gekoppelte Smartphone-App alle oder einige ihrer Konversationsdaten aus dem System löschen möchten.
Die Löschung wird nicht aktiv auf inaktive Backups übertragen. Stattdessen werden Backups nach einer gewissen Zeit insgesamt gelöscht, falls sie nicht genutzt werden. Backups, die genutzt werden, unterliegen denselben Löschrichtlinien wie Live-Daten: Abgelaufene Daten werden beim Laden als abgelaufen erkannt und sofort verworfen. Ebenso werden Daten, die zuvor vom Eigentümer zur Löschung markiert wurden, beim Laden gelöscht.
Transparenz
Ein zentrales Ziel der GDPR ist es, Verbrauchern Transparenz und Kontrolle über ihre Daten zu geben. Zur automatischen und gezielten Löschung wie oben beschrieben kommt daher noch die Beauskunftung nach §15 GDPR. Technisch kommt der gleiche Mechanismus zum Tragen wie bei der Löschung: Ein gesondertes System kann die ID des Benutzers mit den UUIDs der jeweiligen Konversationsdaten verknüpfen und von allen TVS-Subsystemen die Nutzung der jeweiligen Daten abfragen und dem Benutzer dadurch Informationen liefern. Selbstverständlich gelten diese Rechte für alle Teile der Plattform, einschließlich der Komponenten von Drittanbietern.
Damit diese Auskunft (und die o.g. Löschung) wirklich funktionieren und nicht etwa aus dem System "lecken", haben wir einen geschlossenen Datenkreislauf geschaffen: Nutzerdaten verlassen nie die Plattform, unabhängig davon, für welchen Anwendungsfall sie genutzt werden: Es gibt für "normale" Mitarbeiter keine Möglichkeit – und keine Notwendigkeit! – potentiell sensitive Daten abzuziehen und dann versehentlich auf persönlicher Hardware wie dem sprichwörtlich berüchtigten USB-Stick zu vergessen.
Einige wenige besonders berechtigte Mitarbeiter sind technisch in der Lage, zu Diagnosezwecken Daten zu entnehmen. Jedoch kann dies nicht unbemerkt geschehen: Der Zugriff wird registriert und dauerhaft gespeichert. Um auch den Arbeitsschutz zu gewährleisten, ist dieses Protokoll verschlüsselt und kann nur manuell und in Einzelfällen geöffnet werden.
Erkenntnisse
Wir ziehen eine Reihe von Lehren aus unserer Erfahrung mit der Telekom Voicification Suite, die für viele KI-Anwendungen, inklusive Generative-AI-Anwendungen (GenAI), gelten.
Technologieangemessenheit
Seit ChatGPT erhalten LLM-basierte KI-Anwendungen sehr große Aufmerksamkeit. Vielfach ist zu hören, dass ältere Ansätze jetzt nicht mehr zeitgemäß seien. Dies ist ein Fehler.
Die Dienste auf der TVS erfüllen ihre Aufgaben vollständig ohne GenAI-Komponenten. Zum einen entstand die TVS ab 2017, also lange vor dem Aufkommen von LLMs. Zum anderen besteht für den Einsatz von LLMs auch gar kein Grund. Zwar sind LLMs erheblich leistungsfähiger, was die Komplexität, Natürlichkeit und thematische Breite von Konversationen angeht. Andererseits bringen sie auch sehr viel höhere Kosten, technische Komplexität und Risiken mit sich. Verbreitete LLM-Phänomene wie Halluzination, Jailbreaking oder unerwünschte Themen und Ausdrucksweisen sind mit "konventionellen" Komponenten, wie sie in der TVS verbaut sind, konstruktionsbedingt unmöglich. Außerdem ist die Diagnose der Leistung von LLMs heute praktisch unmöglich: Ihr Verhalten lässt sich nicht zuverlässig nachvollziehen, erst recht gibt es keine Einzelfallbetrachtung.
Für industrielle Anwendungen muss man also die verschiedenen Faktoren abwägen und die Technik passend zum Anwendungsfall auswählen. Abbildung 5 zeigt das Spektrum verschiedener Technologien und die darin jeweils genutzten KI-Komponenten.
Statt einseitig nur auf die technologischen Möglichkeiten zu schauen, sollten für einen Unternehmenseinsatz von KI Kosten und Risiken ebenfalls berücksichtigt werden. Wenn diese Faktoren einbezogen werden, wird sich der Einsatz von LLMs in vielen Anwendungsfällen kaum rechtfertigen lassen.
Architekturmuster für Datenschutz
Unabhängig von der eingesetzten Technologie gibt es eine Reihe von architektonischen Mustern, die für eine adäquate und wirtschaftlich erfolgreiche Umsetzung von Datenschutz erforderlich sind.
Trennung der Domänen: Fachliche Domänen sollen technisch getrennt werden, um Datenflüsse zu kontrollieren und eine feingranulare Fähigkeitskontrolle auszuüben. Domänen dürfen nur durch spezifische Mechanismen verbunden werden, nicht durch implizites Teilen von Daten.
Zentrale Berechtigungsverwaltung: Das Verfolgen und Verwalten von Fähigkeiten muss zentralisiert erfolgen, um Inkonsistenzen und Datenlecks zu vermeiden. Die Nutzung von Berechtigungen muss feingranular erfolgen, muss aber gleichzeitig ihrerseits gegen missbräuchliche Nutzung durch vollständige Verschlüsselung der DB im Regelbetrieb ("write only") abgesichert sein.
Modularität auf allen Ebenen: Um sich an wechselnde geschäftliche Anforderungen anzupassen, ist Modularität auf allen Ebenen essenziell. Eine Planung, die auf Veränderung ausgelegt ist, ist entscheidend.
Plattform-Denken: Das Skalieren eines Prototyps wird unerschwinglich teuer, wenn das ursprüngliche Konzeptdesign nicht auf Skalierbarkeit ausgelegt war. Eine Plattform-Perspektive von Anfang an kann dem entgegenwirken.
GDPR ermöglicht Geschäft
Abgesehen von den inhärenten technischen Problemen von LLMs kommt noch hinzu, dass diese zumindest heute in der Regel von Anbietern bereitgestellt werden, bei denen in Frage steht, ob sie geltendes Recht erfüllen können und/oder wollen. Für private, wissenschaftliche oder kommerziell-experimentelle Anwendungen mag dies ausreichen, für skalierte industrielle Anwendungen und B2B-Szenarien sicher nicht. Man stelle sich vor, eine führende Versicherung bietet einen Kundendienst-Sprachdienst auf Basis von LLMs von Meta an, und Kundendaten gelangen aus dem Dienst an die Öffentlichkeit. Oder ein Versicherungsnehmer klagt auf Herausgabe, Löschung oder Korrektur seiner Daten, und der Versicherer kann nicht plausibel nachweisen, dass diese nicht in das LLM des Anbieters eingegangen sind. Abgesehen von den möglicherweise nicht durchzusetzenden Strafen kann der Rufschaden dennoch verheerend sein.
Für den industriellen Einsatz stellen LLMs in der heutigen Lage ein unkalkulierbares Risiko dar. Konventionelle KI hingegen ist beherrschbar. Dazu kommen, wie oben schon beschrieben, erhebliche Kostenvorteile, so dass unter dem Strich LLMs für Sprachroboter mit Kundenkontakt keine gute Ausgangsbasis sind. Für die Verarbeitung interner Daten, für semantische Suche oder nur intern genutzte Sprachroboter kommt es im Einzelfall auf das Kosten-Nutzen-Verhältnis an.
Sprachroboter und Digitalisierung
Kritiker mögen Chatbots bzw. Sprachassistenten im Allgemeinen als Spielerei abtun, doch ihre Akzeptanz und potenziellen Anwendungen sind beachtlich. Beispielsweise ermöglicht der "Terminfinder"-Sprachassistent der Deutschen Telekom eine Terminvereinbarung per Telefon, ohne Internetzugang, Smartphone, Computer oder sonstige digitale Geräte – eine einfache Telefonverbindung reicht aus.
Es ist auch zu bedenken, dass signifikante Teile der Bevölkerung zeitweilig oder permanent mit grafischen Oberflächen nicht gut arbeiten können. Das reicht von Menschen mit schlechtem Sehvermögen oder geringer Lesefähigkeit bis zu Handschuhträgern oder Autofahrern. Aus eigener Erfahrung weiß ich: Eine Terminvereinbarung beim Augenarzt ist manchmal per Telefon wesentlich einfacher als mit einer App.
Sprachroboter können ein kritischer Baustein sein, um die Akzeptanz der Digitalisierung entscheidend zu verbessern. Damit Sprachassistenten auch wirtschaftlich erfolgreich sind, brauchen sie aber Vertrauen und Transparenz, und daher muss Datenschutz die oberste Priorität haben. Technische Leistungsfähigkeit kommt erst auf Platz zwei.
Fazit
LLM-basierte Systeme sind Stand heute nur für manche Anwendungsfälle nutzbar, sehr komplex in der Handhabung und vor allem teuer und extrem datenhungrig. Konventionelle KI-Systeme sind vielfach gut genug, beherrschbar und erheblich billiger. Zudem können sie den Schutz persönlicher Daten vollumfänglich sicherstellen. Wie wir in der Realität gezeigt haben, ist dazu nur ein durchdachtes Systemdesign erforderlich – und, dass der Datenschutz von Anfang an mitgedacht wird. Nachträgliche Anpassungen an bestehende Systeme sind äußerst schwierig.
Für die Akzeptanz der Digitalisierung braucht es Vertrauen, und für Vertrauen braucht es Transparenz. Dies gilt für B2B noch mehr als für B2C. Insofern ist stringenter Datenschutz keine lästige Hürde, sondern, ganz im Gegenteil, die notwendige Voraussetzung für wirtschaftlichen Erfolg. Der Fall von "Hallo Magenta" zeigt, dass GDPR-konforme KI-Systeme möglich sind, wenn Datenschutz eine Priorität ist.
- Harald Störrle: Have your cake and eat it: Reconciling AI and Privacy in Deutsche Telekom’s "Hallo Magenta" Digital Assistant. Softwaretechnik-Trends 42(4), Ges. für Informatik, 2022, online
- Yoshua Bengio, Yann Lecun, and Geoffrey Hinton. "Deep learning for AI". In: Com. ACM 64.7 (2021), pp. 58–65. DOI.org/10.1145/344825.
- Vaswani et al. "Attention is all you need." Advances in Neural Information Processing Systems, NIPS, 2017
- Lin et al. "A review on interactive reinforcement learning from human social feedback." IEEE Access 8 (2020): 120757-120765.
- Der Text der GDPR ist leicht zugänglich und überraschend einfach zu lesen, siehe z.B. https://advisera.com/eugdpracademy/gdpr.
- Kai Biermann: Google Books verzichtet auf weltweiten Anspruch. Die Zeit, 7.2.2012, siehe https://www.zeit.de/digital/internet/2009-11/Google-Book-Settlement
Neuen Kommentar schreiben