KI entwickeln ohne Datenschutzverstöße

Training von KI-Modellen, Daten für die General Purpose AI, Feinjustierung von KI-Systemen und Personaldaten in den Prompts: KI-Anwendungen (Modelle und Systeme) benötigen Daten, oft auch personenbezogene Daten. Die Entwicklung und Nutzung von KI-Anwendungen berührt damit unmittelbar den Datenschutz: Immer, wenn personenbezogene Daten bei Training, Feinjustierung, In- oder Output genutzt werden, muss das Datenschutzrecht eingehalten werden. Dies bringt etliche Hürden mit sich, zumal die KI-Verordnung kaum spezielle Regelungen hierfür enthält. Mit Blick auf zunehmend detaillierte Handreichungen der Datenschutzaufsichtsbehörden lassen sich indes auch in der EU KI-Anwendungen mit minimierten Datenschutzrechtsrisiken im Einklang mit der Datenschutzgrundverordnung anbieten und betreiben. Der nachfolgende Artikel zeigt Ihnen, wie Sie Künstliche Intelligenz ohne Datenschutzverstöße entwickeln, anbieten, betreiben und nutzen können.
KI meets Datenschutz: Wann das Datenschutzrecht für KI relevant ist
KI und personenbezogene Daten
Eingehalten werden muss das Datenschutzrecht nur dann, wenn personenbezogene Daten verarbeitet werden. Das Training von KI-Modellen mit anonymen oder synthetischen Daten ist daher von vornherein datenschutzrechtlich irrelevant: Für diese Daten greift der Schutz der EU-Datenschutzgrundverordnung (DSGVO) nicht. In vielen Fällen werden für das Training und die Nutzung von KI-Modellen und -Systemen (nachfolgend zusammen auch KI-Anwendungen) aber personenbezogene Daten benötigt. Personenbezogen sind nicht nur der Name einer Person oder ein Foto von ihr, sondern alle Informationen, die mit einer natürlichen Person verknüpft werden können. Personenbezogene Daten sind also etwa auch die IP-Adresse, eine UserID, die Telefonnummer oder ein Kfz-Kennzeichen vom Privatwagen.
Immer, wenn innerhalb der EU mit einer KI-Anwendung solche personenbezogenen Daten verarbeitet werden, dann müssen Sie dabei das Datenschutzrecht beachten. Das gilt übrigens auch dann, wenn Sie von außerhalb der EU gezielt die Daten von EU-Bürgern verarbeiten. Typische KI-bezogene Verarbeitungsvorgänge, bei denen das Datenschutzrecht eingehalten werden muss, sind:
- Erhebung von Trainingsdaten
- Durchführung des Trainings
- Feinjustierung / RAG-Erstellung
- Input und Prompting
- Output-Verwendung.
Sind Tokens und Vektoren personenbezogen?
Diskutiert wird, ob auch ein KI-Modell als solches personenbezogene Daten speichert. Also in dem Zeitraum, in dem das Training abgeschlossen ist und das KI-Modell bereitsteht, aber noch nicht aktuell genutzt wird. Relevant wird das etwa, wenn Sie als Anbieter von KI-Modellen Auskunftsrersuchen Betroffener erhalten. Müssen (können) Sie diese auch für die Modelle beantworten, für die das Training schon abgeschlossen wurde? Relevant wird das auch, wenn Sie als Nutzer von KI ein Modell einsetzen, das womöglich datenschutzrechtswidrig trainiert wurde. Handeln Sie selbst datenschutzrechtswidrig, weil das KI-Modell unter Verletzung der DSGVO entstanden ist und sich die Datenschutzverletzung quasi fortsetzt?
Stellung genommen haben zu dieser Frage inzwischen mehrere Datenschutzaufsichtsbehörden, insbesondere der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit (HmbBfDI) und der Europäische Datenschutzausschuss (EDSA). Beim Training von KI-Modellen werden Texte in kleine, mathematisch verarbeitbare Einheiten (Tokens) umgewandelt. Dabei gehen individuelle Merkmale in abstrakte Zusammenhänge über, sodass direkte Rückschlüsse auf die Trainingsdaten nicht mehr immer möglich sind. Erhalten bleiben im Modell keine Rohdaten, sondern Tokens, Gewichtungen und Vektoren. Sind das noch personenbezogene Daten, auch wenn sie aus personenbezogenen Daten entwickelt wurden? Für eine Qualifikation auch der Tokens, Gewichte und Vektoren als personenbezogene Daten spricht, dass im Rahmen der Anwendung des KI-Modells Informationen über einzelne Personen extrahiert werden können. Es gibt immer wieder Fälle, in denen Trainingsdaten rückverfolgt werden können. Letztlich wird das KI-Modell in aller Regel aber nicht die eigentlichen personenbezogenen Daten aus dem Trainingsdatensatz reproduzieren, sondern nur ähnliche, auf Wahrscheinlichkeitswerten beruhende Informationen.
Der HmbBfDI hat daher in einem Papier aus Juli 2024 die These vertreten, dass KI-Modelle selbst keine personenbezogenen Daten enthalten [1]. Der EDSA ist dem in seiner Opinion 28/2024 entgegengetreten und hat, typisch juristisch, eine variable Betrachtungsweise empfohlen, die auf den Einzelfall abstellt [2]. Ein KI-Modell enthält nach Ansicht des EDSA personenbezogene Daten, wenn personenbezogene Informationen aus den Trainingsdaten in den Modellparametern erhalten bleiben. Dies ist jedenfalls dann der Fall, wenn das KI-Modell gerade darauf ausgerichtet ist, Auskünfte über Personen zu geben. Und selbst wenn das Modell nicht explizit darauf ausgelegt wurde, personenbezogene Daten auszugeben, kann es vorkommen, dass bei einer Abfrage Informationen über Individuen extrahiert werden. Sobald Mitteilungen oder Ausgaben, die auf den Trainingsdaten basieren, Rückschlüsse auf Betroffene zulassen, soll auch das KI-Modell selbst personenbezogen sein. Kann mit verhältnismäßigem Aufwand und verfügbaren technischen Mitteln ein Zusammenhang zwischen den Modellparametern und den ursprünglichen persönlichen Daten hergestellt werden, verarbeitet das Modell selbst personenbezogene Daten.
In der Praxis bedeutet das, dass auch der Anbieter des KI-Modells die Datenschutzrechte der Betroffenen umfassend beachten muss. Also z. B. nicht nur für das Training selbst, sondern auch für das Vorhalten des Modells muss er eine ausreichende Datenschutzerklärung bereitstellen und Auskunftsrechte erfüllen.
Für die Nutzer des KI-Modells bedeutet das, dass sie unter Umständen für frühere Datenschutzverletzungen beim Training haftbar gemacht werden können, wenn diese im Modell fortwirken und durch ihre Nutzung des Modells vertieft werden. Dieses Risiko dürfte aber nur im Ausnahmefall bestehen. Für Datenschutzverstöße in der Entwicklungsphase ist nämlich primär der Entwickler des KI-Modells haftbar. Voraussetzung für eine spätere Nutzung des KI-Modells ist jedoch, dass keine weiteren unzulässigen personenbezogenen Daten verarbeitet oder offengelegt werden. Sie müssen mithin sicherstellen, dass sich im Output keine erneuten Datenschutzverstöße zeigen.
KI-Anwendungen und personenbezogene Daten: Erfordernis einer Erlaubnisgrundlage
Wenn in KI-Anwendungen personenbezogene Daten verarbeitet werden, muss es dafür eine Erlaubnisgrundlage geben: Die DSGVO enthält ein Verbot mit Erlaubnisvorbehalt. Immer, wenn personenbezogene Daten außerhalb des rein privaten, familiären Umfelds verarbeitet werden, muss der Verantwortliche deshalb eine Erlaubnis für die konkrete Verarbeitung personenbezogener Daten nachweisen können. Merken Sie sich, dass diese Erlaubnis für jeden Verarbeitungszweck vorliegen muss, also
- für die Erhebung von Trainingsdaten
- für die Durchführung des Trainings
- für eine Feinjustierung/RAG-Erstellung
- für das konkrete Input und Prompting sowie
- für die Output-Verwendung.
Wenn Sie personenbezogene Daten für die Erfüllung eines Vertrages erhalten haben, dürfen Sie diese also nicht automatisch auch für das KI-Training verwenden. Aber Sie dürfen den Vertrag auch unter Einsatz von KI erfüllen. Für das Datenschutzrecht ist immer der konkrete Verarbeitungszweck maßgeblich und ob dieser erlaubt ist. Bezeichnet wird das als Zweckbindungsgrundsatz. Die KI-Verordnung gibt eine solche Erlaubnis für den Fall, dass besonders sensitive Daten wie Gesundheitsdaten in Hochrisiko-KI-Systemen verarbeitet werden, um Bias und Diskriminierungen zu erkennen und zu verhindern.
Können Sie synthetische Daten mit demselben Erfolg nutzen, müssen Sie das vorziehen.
In allen anderen Fällen kommt es für die Erlaubnis auf die Vorgaben der DSGVO an. Sie müssen die allgemeinen Rechtfertigungsgründe nutzen, KI-spezifische Regelungen gibt es hier nicht. Aber es gibt in der Praxis bereits etliche KI-Anwendungsfälle, für die die Erlaubnisgrundlagen der DSGVO konkretisiert worden sind. Zu unterscheiden ist dabei regelmäßig zwischen der Erhebung und Nutzung von Trainingsdaten und dem späteren Input sowie der Verwendung des KI-Outputs.
Für das Training eines KI-Systems werden große oder jedenfalls spezifische Datenmengen benötigt. Oft enthalten diese Datenmengen auch personenbezogene Daten, so dass eine Verarbeitungserlaubnis benötigt wird.
KI-Training, personenbezogene Datennutzung und Verarbeitungserlaubnis: Ist das auch wirklich notwendig?
Das Training mit personenbezogenen Daten kann dabei von vornherein nur erlaubt sein, wenn es nachweisbar erforderlich ist. Das ist nicht der Fall, wenn gleiche Ergebnisse mit anonymen oder synthetischen Daten erzielt werden können. Dies bedeutet für Sie in der Praxis, dass Sie sowohl für die Erhebung von Trainingsdaten als auch für das anschließende Training belegen müssen, dass Sie den Personenbezug in den Datensätzen benötigen, um das gewünschte Ergebnis zu erzielen. Können Sie synthetische Daten mit demselben Erfolg nutzen, müssen Sie das vorziehen. Und wenn Sie erhobene Trainingsdaten vor der Durchführung des Trainings anonymisieren können, müssen Sie auch das in Erwägung ziehen. Ursache dafür ist ein fundamentaler Grundsatz, der das gesamte Datenschutzrecht durchzieht: Personenbezogene Daten dürfen immer nur verarbeitet werden, wenn dies auch erforderlich ist.
Von der Einwilligung zu den berechtigten Interessen
Für Training und Nutzung von KI-Anwendungen bringt das Datenschutzrecht verschiedene Erlaubnisgrundlagen. So können Sie z. B. alle betroffenen Personen um ihre Zustimmung bitten. Das wird notwendig, wenn Sie KI-Anwendungen für individualisierte Werbung im Online-Marketing einsetzen und dafür Verhaltensweisen der betroffenen Personen analysieren wollen. Wenn Sie KI-Systeme im Gesundheitssektor für konkrete medizinische Hinweise trainieren, müssen Sie auch dort in der Regel zuvor die Patientinnen und Patienten um ihre Einwilligung bitten, um die Behandlungsdaten auch zum KI-Training zu verwenden. In diesen Fällen bringt die Einwilligung die Erlaubnis für die konkrete Datenverarbeitung.
Gerade, wenn Sie umfangreiche und repräsentative Datenmengen benötigen, stößt die Einwilligung allerdings oft an ihre Grenzen. Für eine wirksame Einwilligung benötigen Sie die aktive und individuelle Zustimmung jeder einzelnen betroffenen Person. Für eine wirksame Einwilligung müssen Sie die Personen vorab ausreichend informieren über das, was mit ihren Daten passieren wird. Und auch dann können die Personen ihre Einwilligung jederzeit für die Zukunft widerrufen. Kurzum: Die Einwilligung ist eine sehr sichere Erlaubnis, ihre Einholung aber aufwändig und mit Blick auf die Widerrufsmöglichkeit in ihrem Bestand nicht sicher.
Eine andere sehr rechtssichere Alternative ist der Vertrag. Sie können etwa mit Kunden vereinbaren, dass die geschuldete Leistung unter KI-Einsatz erbracht wird und Sie dafür die Kundendaten als Input in eine KI-Anwendung geben werden. In diesem Fall wird die Vertragserfüllung zur Erlaubnis nach DSGVO. Auch die Erlaubnis der Vertragserfüllung ist allerdings sehr begrenzt, weil sie nur für die Verarbeitung der Daten Ihrer Vertragspartner greift und außerdem der KI-Einsatz objektiv für die Leistungserbringung zumindest nützlich sein muss. Der EDSA vertritt sogar teilweise, dass eine reine Nützlichkeit nicht ausreicht, sondern die Verarbeitung zur Vertragserfüllung nur erlaubt ist, wenn sie objektiv notwendig ist.
In der Praxis werden Sie daher gerade für die Erhebung und Nutzung von Trainingsdaten häufig prüfen, ob die konkrete Datenverarbeitung aus berechtigten Interessen heraus erlaubt ist: Diese Erlaubnis kann ohne individuellen Vorab-Kontakt mit den betroffenen Personen genutzt werden, also ohne Zustimmung oder Vertragsschluss. Achten Sie aber darauf, dass Sie die betroffenen Personen dennoch in aller Regel vorab informieren müssen. Die Anforderungen daran erfahren Sie im nächsten Abschnitt. Auf die Erlaubnis "berechtigte Interessen" können Sie zurückgreifen, wenn Sie drei Schritte erfolgreich bejahen konnten (und dies auch entsprechend dokumentiert haben):
- Ziel: Sie verfolgen ein legitimes Ziel mit der Datenverarbeitung, wobei auch wirtschaftliche Ziele legitim sind.
- Notwendigkeit: Die konkrete Datenverarbeitung ist erforderlich, um dieses legitime Ziel zu erreichen.
- Interessenabwägung: Sie haben ihre Interessen an der Verarbeitung mit den gegenläufigen Interessen der betroffenen Personen, dass die Verarbeitung unterbleibt, abgewogen und sind zu dem Ergebnis gelangt, dass die gegenläufigen Betroffeneninteressen nicht schwerer wiegen als Ihre legitimen Verarbeitungsinteressen.
Die Interessenabwägung bildet regelmäßig den Schwerpunkt Ihrer Prüfung. Hierin liegt auch die größte Unsicherheit: Würde eine Behörde die Interessen gleich schwer gewichten? Haben Sie an alle gegenläufigen Betroffeneninteressen gedacht? Sie sehen: Dies ist zugleich die Schwäche der Erlaubnis. Eine Interessenabwägung kann schnell anders ausfallen, wenn sie von anderen Personen durchgeführt wird.
Wie schwer wiegen die Interessen gegen eine Verarbeitung?
Der EDSA hat in seiner Opinion 28/2024 Hinweise gegeben, welche Sicherheitsmaßnahmen für eine Absicherung der Interessenabwägung zugunsten der Nutzung von Daten als Trainingsdaten in KI-Modellen genutzt werden können. Diese sollten auch Sie in den Blick nehmen und wann immer möglich nutzen.
Das verfolgte Ziel muss danach rechtmäßig sein. Außerdem ist es klar und präzise zu formulieren. Das Ziel muss real und gegenwärtig sein und nicht nur spekulativ. Sie sollten daher möglichst genau ermitteln und formulieren, warum das von Ihnen entwickelte KI-Modell benötigt wird. Erforderlich ist die Datenverarbeitung für die Erreichung dieses Ziels, wenn sie nicht mit zumutbaren Mitteln auf andere Weise, mit weniger personenbezogenen Daten oder sogar ohne diese, erreicht werden kann. Hier ist auch zu prüfen, ob es Verarbeitungswege gibt, die weniger Risiken für die betroffenen Personen bringen, etwa weil die Daten pseudonymisiert oder verschlüsselt sind. Der EDSA meint zudem, dass möglichst wenige Daten genutzt werden sollten.
Bei der Interessenabwägung kommt es schließlich auf den Einzelfall an. Gegenläufige Betroffeneninteressen können etwa das Interesse an der Selbstbestimmung und Kontrolle über die eigenen Daten sein. Hier können auch finanzielle Interessen eine Rolle spielen, wenn etwa ein KI-Modell von der betroffenen Person zur Erzielung von Einnahmen oder von einer Person im Rahmen ihrer beruflichen Tätigkeit verwendet wird. Für eine Verarbeitungserlaubnis können persönliche Vorteile sprechen, wie eine Optimierung einer bestimmten Dienstleistung oder sozioökonomische Interessen, wenn etwa ein KI-Modell den Zugang zu einer besseren Gesundheitsversorgung ermöglicht oder die Ausübung eines Grundrechts wie den Zugang zu Bildung erleichtert. Wenn die betroffenen Personen vorab informiert werden und ihr Widerspruchsrecht nutzen können, um die Verarbeitung zu verhindern, ist auch das zugunsten der Verarbeitungserlaubnis in der Interessenabwägung zu berücksichtigen. Für eine Zulässigkeit kann auch sprechen, wenn die Daten alt sind und nicht eine ganz aktuelle Situation betreffen.
In jedem Fall können Betroffene einer Verarbeitung aus berechtigten Interessen jederzeit für die Zukunft widersprechen. Wenn die Daten zu Werbe- oder Forschungszwecken verarbeitet werden, gilt das voraussetzungslos. In anderen Fällen müssen die Betroffenen einen besonderen Grund anbringen, der gegen die Verarbeitung spricht. Sie können über das datenschutzrechtlich Zwingende hinaus aber auch dann ein voraussetzungsloses Widerspruchsrecht anbieten und so noch einen Pluspunkt für die Interessenabwägung sammeln. Wenn Sie besonders sensible Daten verarbeiten, z. B. Gesundheitsdaten, Informationen zur politischen Einstellung oder Gewerkschaftszugehörigkeit, benötigen Sie zusätzlich eine Sonderverarbeitungserlaubnis. Das kann oft nur die Einwilligung sein oder die Verarbeitung zu wissenschaftlichen Forschungszwecken. Berechtigte Interessen alleine können die Verarbeitung derart sensibler Daten regelmäßig nicht rechtfertigen.
Künstliche Intelligenz auf den diesjährigen IT-Tagen
Spannende Vorträge und Workshops zum Thema Künstliche Intelligenz erwarten Euch auch auf den IT-Tagen, der Jahreskonferenz von Informatik Aktuell. Die IT-Konferenz findet jedes Jahr im Dezember in Frankfurt statt – dieses Jahr vom 08.-11.12.
Transparenz und Betroffeneninformation
Nachdem Ihnen die Erlaubnis zur Datenverarbeitung die Tür hinaus aus dem Datenschutzrecht in die künstlich intelligente Welt geöffnet hat, müssen Sie auf die Einhaltung mehrerer flankierender Schutzrechte achten. Nur dann können Sie die Erlaubnisgrundlage auch ohne DSGVO-Verstoß nutzen. Der wohl wichtigste Grundsatz ist die Transparenz: Informieren Sie die betroffenen Personen über die Art und Weise Ihres Umgangs mit den personenbezogenen Daten! Im Online-Umfeld kennen Sie dies von der Datenschutzerklärung, die auf jeder Website zu finden ist. Auch über die Verarbeitung personenbezogener Daten zum Training von KI-Anwendungen müssen Sie – vorab – informieren, am besten gezielt gegenüber jeder betroffenen Person, zumindest aber durch eine entsprechende Erklärung auf Ihrer Website. Der Inhalt der Information ergibt sich unmittelbar aus der DSGVO. Sie müssen folgende Themen erläutern – transparent, verständlich und präzise zugleich:
- Verantwortlicher und Datenschutzbeauftragter mit Kontaktdaten
- Verarbeitete Datenarten
- Zwecke der Datenverarbeitung und Kategorien der betroffenen Personen
- Quelle der Daten und Empfänger, an die sie übermittelt werden
- Erlaubnisgrundlage (Rechtsgrundlage)
- Möglicher Drittlandtransfer und Absicherung des Datenschutzniveaus in diesem Fall
- Dauer der Datenverarbeitung
- Automatisierte Entscheidungen
- Möglichkeiten zu Widerruf und Widerspruch
- Betroffenenrechte von Auskunft über Beschwerde bis zur Löschung
Die Datenschutzerklärung muss den Betroffenen bereitgestellt werden. Die Grenzen sind eng, bei der Erhebung über dritte Quellen, etwa dem Web-Scraping, kann die Information auf verhältnismäßige Maßnahmen beschränkt werden. Eine Möglichkeit ist die Bereitstellung der Erläuterung auf der Website zum KI-Modell.
Data Privacy by Design und Datenminimierung
Personenbezogene Daten müssen sicher und in möglichst geringem Umfang verarbeitet werden. Ist das ein diametraler Widerspruch zur Datennutzung für und in KI-Anwendungen? Nein! Denn das Datenschutzrecht verlangt keine absolute Sicherheit und auch kein absolutes Minimum. Gewähren müssen Sie jederzeit eine angemessene Datensicherheit. Dafür müssen Datenübermittlungen verschlüsselt erfolgen. Sie sollten Daten wenn möglich pseudonymisieren und dort abspeichern, wo ausreichender Zugriffsschutz gegen unberechtigte Angriffe besteht. Sie sollten für Ihre KI-Anwendung alle technisch-organisatorischen Maßnahmen durchdenken, die Sie für den Fall einer gedachten Auftragsverarbeitung anwenden würden und im angemessenen Maß einsetzen. Folgende Aspekte sollten Sie dazu in den Blick nehmen und einer angemessenen Lösung zuführen:
- Vertraulichkeit: Zutritts-, Zugangs- und Zugriffskontrolle, Verschlüsselung und Pseudonymisierung
- Integrität: Weitergabe- und Eingabekontrolle
- Verfügbarkeit und Belastbarkeit: Backups und Wiederherstellbarkeit
Der Grundsatz der Datenminimierung verlangt, dass Daten nur dann verarbeitet werden, wenn dies wirklich notwendig ist.
Wenn die Daten derart sicher verarbeitet werden, muss dann trotzdem minimiert werden? Der Grundsatz der Datenminimierung scheint in diametralem Widerspruch zum KI-Wunsch nach möglichst vielen Daten zu stehen. Minimierung bedeutet aber nicht immer "wenig": Der Grundsatz der Datenminimierung verlangt bei verständiger Auslegung, dass Daten nur dann verarbeitet werden, wenn dies wirklich notwendig ist. Und es gibt Anwendungsfälle, in denen große Datenmengen unabdingbar sind, etwa beim Training von allgemeinen LLMs. Auch der EDSA verlangt daher nicht "wenig" um jeden Preis, sondern, dass in jedem Fall geprüft wird, ob die großen Datenmengen ohne Anonymisierung oder Pseudonymisierung wirklich notwendig sind. Auch Sie sollten daher in jedem Verarbeitungsfall als regulären Prüfschritt die Frage einbauen, ob alle Daten wirklich mit ihrem Personenbezug zur Zielerreichung benötigt werden. Oft sollten dafür auch Datenfilterungsprozesse eingebaut werden, die vor einem KI-Training durchgeführt wurden, um irrelevante personenbezogene Daten zu entfernen (die dann aus den Trainingsdatensätzen i. d. R. auch zu löschen sind).
Datenschutzfolgenabschätzung und das Fundamental Rights Impact Assessment
Wenn eine Datenverarbeitung etwa wegen neuer Technologien besondere Risiken für die betroffenen Personen mit sich bringt, müssen Sie vor dem Verarbeitungsstart eine Datenschutzfolgenabschätzung durchführen. Für KI-Anwendungen verlangt die Datenschutzkonferenz (DSK) das etwa für alle KI-Anwendungen, die zur Interaktion mit natürlichen Personen bestimmt sind. Das sind beispielsweise Chatbots. Und wenn Ihr KI-System außerdem als Hochrisiko-KI-System im Sinne der KI-Verordnung qualifiziert wird, müssen Sie zudem eine Grundrechtefolgenabschätzung durchführen, das sog. Fundamental Rights Impact Assessment. Beide Abwägungen sollten Sie kombinieren. Denn in beiden Fällen zählt die interdisziplinäre Zusammenarbeit zwischen Entwicklern, Projektverantwortlichen, IT, Informationssicherheit, Recht, Compliance und Datenschutz. So schaffen Sie es, alle möglichen Risiken zu identifizieren, zu bewerten und Maßnahmen zur Minimierung zu implementieren.
Zusammenfassung: Wer schreibt, der bleibt
Ein weiterer Grundsatz durchzieht das gesamte Datenschutzrecht, der auch für Ihre KI-Anwendung elementar wird: die Rechenschaftspflicht. Wer KI-Anwendungen anbietet und betreibt und dabei personenbezogene Daten verarbeitet, muss darlegen, dass und warum dies datenschutzkonform erfolgt. Wenn Sie sämtliche der hier beschriebenen Prüfschritte erfolgreich absolviert haben, denken Sie also daran, dies auch zu dokumentieren.
Basis hierfür ist das Verarbeitungsverzeichnis, welches nach der DSGVO ohnehin zu führen ist. Beachten Sie dabei, dass das Verarbeitungsverzeichnis nicht für einzelne Software-Anwendungen und damit auch nicht per se für ein einzelnes KI-System geführt werden muss, sondern für jeden Verarbeitungsprozess. Dies bedeutet konkret, dass Sie z. B. ein Verarbeitungsverzeichnis für die Verwendung von Trainingsdaten zum Training diverser KI-Modelle (und nicht für jedes einzelne Modell) anlegen können, wenn hier der Zweck jeweils gleichläuft und die Umstände in den wesentlichen Aspekten deckungsgleich sind. Dies bedeutet auch, dass Sie bei Einsatz eines KI-Systems etwa im Marketing nicht einen gesonderten Verarbeitungsprozess öffnen müssen, sondern Ihr für die Verwendung von E-Mail-Adressen von Bestandskunden zu Werbezwecken bestehendes Verzeichnis schlicht ergänzen können.
All das gelingt reibungslos, wenn Sie Ihr bestehendes Datenschutzmanagement mit der KI-Governance, die neu zu etablieren und auszutarieren ist, in Einklang bringen:
- KI-Mapping: Ausgangspunkt eines funktionierenden KI-Governance-Systems ist der Überblick über die bestehenden KI-Modelle und -Systeme und deren Einsatzbereiche. Bereits in diesem Schritt sollten Sie zugleich identifizieren, zu welchem Verarbeitungsprozess in Ihrem datenschutzrechtlichen Verarbeitungsverzeichnis die KI-Anwendung gehört.
- Definition der eigenen Rolle: Im nächsten Schritt müssen Sie feststellen, welche Rolle Ihr Unternehmen in Bezug auf die KI-Anwendung einnimmt. Sind Sie Anbieter oder Betreiber? Dies sind Begriffe der KI-Verordnung. Zugleich sollten Sie auch Ihre datenschutzrechtliche Rolle definieren: Sind Sie Verantwortlicher? Nutzen Sie womöglich einen Cloud-Service-Anbieter als Auftragsverarbeiter, bei dem die KI-Anwendung gehostet und betrieben wird? Dann könnte es erforderlich sein, mit diesem Anbieter einen Auftragsverarbeitungsvertrag nach der DSGVO zu schließen.
- Risikoklassifizierung: Wenn Sie nun noch das Risiko Ihrer KI-Anwendung identifizieren, gehen damit gleichzeitig auch Erkenntnisse für den Datenschutz einher: Für ein Hochrisiko-KI-System müssen Sie eine Grundrechtefolgenabschätzung durchführen, die Sie dann mit der Datenschutzfolgenabschätzung kombinieren können. Für Systeme zur Interaktion mit Menschen, z. B. Chatbots, schreibt die DSK eine Datenschutzfolgenabschätzung vor. Für diese Systeme sieht die KI-Verordnung bestimmte Transparenzpflichten vor, auch hier führt also die Risikoklassifizierung zu bestimmten Pflichten nach DSGVO und KI-Verordnung, dies können Sie kombinieren.
- Data Privacy by Design und Daten-Governance: Eine ausreichende Datensicherheit ist sowohl nach der Datenschutzgrundverordnung – in Bezug auf die verarbeiteten personenbezogenen Daten – als auch nach der KI-Verordnung für Hochrisiko-KI und bald nach dem Cyber Resilience Act für alle digitalen Produkte vorgeschrieben. Auch hier erfüllen Sie mit einem Prüf- und Umsetzungsschritt also gleichzeitig die Anforderungen von drei EU-Verordnungen.
- Richtlinien und Prozessvorgaben: Erstellen Sie Ihre KI-Richtlinie und Prozessvorgaben für eine ausreichende KI-Governance im Einklang mit Ihren schon für den Datenschutz, die IT-Sicherheit, das Qualitäts- und Risiko-Management bestehenden Anforderungen. So erleichtern Sie sich nicht nur die Erstellung der benötigten Dokumente, sondern insbesondere auch ihre Implementierung: In geübten Abläufen neue Anforderungen einzufügen, erweist sich regelmäßig deutlich einfacher und nachhaltiger als das Aufsetzen völlig neuer Prozesse. Ergänzen Sie Ihr Datenschutzmanagement um konkrete Anforderungen an KI-Anwendungen!
Sie sehen: Das Datenschutzrecht bringt gerade für die Entwicklung und Nutzung von KI-Anwendungen ganz besondere Herausforderungen mit sich, da für erfolgreiche KI-Anwendungen regelmäßig auch personenbezogene Daten benötigt werden. Das Datenschutzrecht muss daher von Anfang an mit bedacht werden, die bestehenden Rechtsrisiken lassen sich indes durch gutes Datenschutz- und KI-Management so weit verringern, dass die Vorteile und Innovationschancen der KI-Anwendungen in den meisten Fällen überwiegen werden.
- Hamburgischer Beauftragter für Datenschutz und Informationsfreiheit (HmbBfDI): Diskussionspapier: Large Language Models und personenbezogene Daten
- The European Data Protection Board: Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models