Andreea Munteanu 02. Juli 2024

Sicherheitsrisiken beim maschinellen Lernen reduzieren

Wer ML-Angriffsflächen und Risiken kennt, kann ML-Projekte besser absichern. Daten sind das Herzstück aller Initiativen im Bereich des maschinellen Lernens (ML) – das haben auch Kriminelle erkannt. KI bleibt das Trendthema in der IT. Kein Wunder also, dass ML-Systeme zu immer attraktiveren Zielen für Cyber-Attacken werden. In seinem Ende Januar vorgelegten "Data Breach Report 2023" vermeldete das Identity Theft Ressource Center einen Anstieg der Datenschutzverletzungen um 72 %. Allein diese Zunahme zeigt, wie wichtig es ist, Vorsichtsmaßnahmen zu treffen, damit ML-Projekte keine Hintertür zu geschäftskritischen Unternehmensdaten öffnen.

Die Angriffsflächen beim maschinellen Lernen

Jede Technologie ist mit Sicherheitsbedenken behaftet, beim maschinellen Lernen ist die Herausforderung allerdings aufgrund des Fachkräftemangels und innovativer KI-Anwendungen noch größer. Diese Faktoren können die Sicherheit betreffen.

Datensicherheit: Bei ML-Projekten werden viele Daten benötigt, oft auch hochsensible wie persönliche Informationen, Finanzdaten oder geografische Daten. Dies gilt es von Anfang an zu berücksichtigen, um nicht nur Unternehmen, sondern auch die Privatsphäre der Menschen zu schützen. Datenschutz und Datensicherheit müssen passen – sowohl wenn Daten übertragen werden als auch wenn sie gespeichert, aber nicht genutzt werden.
Sicherheit der Tools: Der Lebenszyklus des maschinellen Lernens ist komplex und umfasst oft mehrere Tools. Diese wiederum verwenden zahlreiche Pakete. Jedes einzelne ist eine potenzielle Sicherheitslücke im Gesamtsystem. Nicht sichere Pakete bergen die Gefahr, den Zugriff auf das maschinelle Lernmodell oder sogar auf die Daten selbst zu ermöglichen. Ein großes Sicherheitsrisiko! Unternehmen sollten ihre ML-Architektur sorgfältig aufbauen und dabei Best Practices berücksichtigen. Dazu gehören Tools, die immer auf dem neuesten Stand sind.
Sicherheit von ML-Modellen: ML-Modelle scheinen zwar kein offensichtliches Ziel für Angriffe zu sein, die Modelle sind aber das geistige Eigentum des jeweiligen Unternehmens. Modelldiebstahl stellt eine sehr reale Gefahr dar. Hinzu kommt: Angreifer können die Leistung der Modelle absichtlich beeinträchtigen, indem sie schadhafte Datenpunkte einfügen oder die Trainingsphase des Modells manipulieren. Wer ML-Modelle erstellt, muss daher Sicherheitsaspekte berücksichtigen und Aufgaben wie Modelltests und die Validierung der Modellabweichung in den üblichen Lebenszyklus integrieren.
Sicherheit der Hardware: ML-Projekte hängen von der nutzbaren Rechenleistung ab, die oft aus neu angeschaffter Hardware stammt. Die Hardware-Lieferkette, die Wartung und Firmware-Updates – oder das Fehlen regelmäßiger Updates – können allesamt potenzielle Risiken darstellen. Unternehmen sollten ihren Hardware-Lieferanten und ihre Wartungsstrategie sorgfältig prüfen.
Endgerätesicherheit: ML-Modelle werden jedes Jahr in Millionen von Geräten mit unterschiedlichen Architekturen, Sicherheitsvorschriften und Funktionen eingesetzt. Wer ML in der Produktion verwendet, muss unerwünschten Zugriff auf Endgeräte verhindern, einschließlich des Zugriffs auf das Modell sowohl auf dem Gerät als auch während der Übertragung. Edge-Geräte können besonders anfällig sein, wenn die ML-Modelle nicht angemessen verpackt, aktualisiert und mit Sicherheitseinschränkungen versehen sind.
Der menschliche Faktor: An ML-Projekten sind eine Vielzahl von Fachleuten beteiligt, z. B. Software-Architekten, Datenanalysten, Datenwissenschaftler und Dateningenieure. Ihr Ausbildungsstand, ihre Fähigkeiten und Qualifikationen sind unterschiedlich, besonders in Hinblick auf die Sicherheitsbelange eines ML-Projekts. Die an ML-Initiativen beteiligten Fachleute sind immer auch ein Risikofaktor. Entscheidend ist, dass sie entsprechend geschult und ihre Verantwortlichkeiten verfolgt werden.

Die vier größten Sicherheitsrisiken beim maschinellen Lernen

Bei so vielen beweglichen Teilen und potenziellen Angriffsvektoren sind ML-Projekte einer großen Anzahl von Sicherheitsrisiken ausgesetzt – und diese Zahl wächst weiter, da immer mehr ML-Anwendungen in den Produktionsbetrieb gelangen. Diese vier Bedrohungen sollte man kennen – und wie man mit ihnen umgeht:

1. Sicherheitslücken in Software-Paketen

Je nach Vorschriften der einzelnen Branchen und Organisationen müssen Unternehmen sicherstellen, dass die von ihnen verwendete Software keine kritischen oder schwerwiegenden Sicherheitslücken enthält. ML-Projekte hängen jedoch oft von Tausenden von Paketen ab, Schwachstellen können leicht durch die Maschen schlüpfen. Sie können auf allen Ebenen des Stacks auftreten, vom Betriebssystem bis zu den Anwendungen, und sie können zu einem großen Sicherheitsrisiko werden, wenn Kriminelle oder Industriespione sie böswillig ausnutzen. Ein bekanntes Beispiel aus dem Bereich der künstlichen Intelligenz ist ShellTorch, das den gesamten bei der Entwicklung verwendeten Code offenlegte und den Zugriff auf die Modelle ermöglichte.

Um dieses Risiko zu verringern, sollten Entwickler die Pakete, die Ihre ML-Projekte verwenden, sowie deren Abhängigkeiten genau kennen. Sie sollten regelmäßige Schwachstellen-Scans durchführen und eine Strategie zur Behebung dieser Schwachstellen haben. Dazu gehören regelmäßige Aktualisierungen und Upgrades der verwendeten Tools, das Verfolgen der neuesten Nachrichten und Sicherheitsupdates sowie die Unterstützung durch einen vertrauenswürdigen Berater.

2. Datenvergiftung (Data Poisoning)

Die gezielte Manipulation von Trainingsdaten für ein Modell oder Produkt kann ein Ergebnis so verändern, dass dies die Leistung des Systems beeinträchtigt. Oft werden neue Daten in das System eingeführt, wodurch das Modell etwas Neues lernt, das sowohl ungenau als auch unbeabsichtigt ist. Enthält ein Trainingsdatensatz z. B. Aufnahmen von Überwachungskameras, könnten Angreifer ihn böswillig ins Visier nehmen und eine bestimmte Zeit lang nur rote Autos verwenden, um das Modell in ihrem Sinne zu trainieren. Selbst ein paar falsch etikettierte Daten können die Leistung des Modells beeinträchtigen und es für die Produktion unzuverlässig machen.

Wer hingegen genau weiß, wie Angreifer Daten beeinflussen können, kann Maßnahmen ergreifen, um diese Risiken zu vermindern. Eine kontinuierliche Nachschulungspipeline sorgt dafür, dass Modelle immer auf dem neuesten Stand sind. Die Überwachung von Abweichungen bei Modell und Daten ('drift monitoring') gewährleistet, dass Fachleute rechtzeitig informiert werden, wenn sich die Genauigkeit oder Struktur eines Modells ändert.

3. Feindliche Angriffe (Adversarial Attacks)

Bei diesen am häufigsten verwendeten Angriffen im Bereich des maschinellen Lernens geht es darum, das ML-Modell auszutricksen, damit es das gewünschte Ergebnis liefert. Sie beinhalten in der Regel vom Angreifer bereitgestellte Eingaben, die zu einer bestimmten gewollten Ausgabe führen. Dies gelingt, da ML-Systeme oft nur eine geringe Anzahl von Begrenzungen aufweisen. Feindliche Angriffe sind für das menschliche Auge und sogar für Überwachungssysteme schwer zu erkennen, vor allem weil die Modelle nicht auch die Entscheidungsgrenze erlernen, mit denen verschiedene Klassen auf Grundlage der Merkmale der Eingabe voneinander getrennt werden.

Feindliche Angriffe verringern die Modellgenauigkeit und können für die ML-Entwicklung verantwortliche IT-Professionals dazu bringen, bestimmte Projekte nicht mehr im Produktivbetrieb zu verwenden. Unternehmen sollten bei der Erstellung von ML-Projekten und der Datenbereinigung ein feindliches Training in Betracht ziehen und eine klare Strategie verfolgen. Nicht alle Daten, die produziert werden, sollten direkt in einem Trainingssatz landen. Außerdem sollte nicht jeder Mitarbeiter Zugriff auf alle Modelle haben, die innerhalb einer Organisation erstellt werden, und zu Funktionen wie der Verfolgung von Experimenten, Modellspeichern und Model-Performance-Trackern.

4. Datenschutz

ML-Algorithmen werden entwickelt, um Vorhersagen zu treffen oder neue Daten zu generieren, indem nur die vorhandenen Informationen bewertet werden. Unternehmen haben im Gegensatz zu Einzelpersonen Zugang zu den persönlichen Daten von Millionen von Menschen. Wann immer ein ML-System Zugang zu Daten erhält, besteht ein Risiko aufgrund der neuen Arbeitsabläufe, die damit zusammenhängen.

Organisationen sollten eine sehr genaue Datenschutzrichtlinie schaffen, der alle Nutzer zustimmen sollten, und ML-Systeme entwickeln, die alle schützen. Sie sollten auch auf die Daten achten, die sie sammeln, und auf die damit verbundenen Prozesse. Best Practices wie das Entfernen von Identifikatoren und eine klare Sichtbarkeit der Datenströme schützen die Privatsphäre sowohl der Organisationen als auch der Menschen, die mit ihnen interagieren.

Autorin

Andreea Munteanu

Andreea Munteanu ist Produktmanagerin bei Canonical. Mit ihrem Hintergrund als Datenwissenschaftlerin in Branchen wie Einzelhandel und Telekommunikation...

KI im Identity-and-Access-Management

Sebastian Rohr

KI im Organigramm – Wenn künstliche Intelligenz zur Kollegin wird

Christopher Nocera Walg & Dr. Jonas Röttger

Spring AI 1.0: Ollama mit Llama von Meta AI einsetzen und mit Spring AI Prompts erstellen

Christian Ullenboom

Kommentare (0)

Andreea Munteanu

Aktuelles

Konferenz für Java-Entwicklung 2025: Java-Tage in Frankfurt am Main

Digitale Souveränität: Europas digitales Paradoxon – Herausforderungen und Lösungen

Cloud: Europäische Alternative

Sicherheitsrisiken beim maschinellen Lernen reduzieren

Die Angriffsflächen beim maschinellen Lernen