Intelligente Testdaten für moderne Softwarequalität - Teil 2

Testdaten ohne Risiko - Datenschutz & Maskierung in Testumgebungen
In modernen Softwareprojekten ist der Einsatz realistischer Testdaten unverzichtbar. Zugleich steigt jedoch das Risiko, sensible Informationen ungewollt offenzulegen. Während synthetische Daten viele Probleme lösen, greifen Unternehmen in der Praxis häufig weiterhin auf produktionsnahe Daten zurück. Damit rückt der Datenschutz unweigerlich in den Mittelpunkt des Testdatenmanagements. Dieser Beitrag zeigt, wie sich durch gezielte Datenmaskierung sichere und zugleich realistische Testumgebungen schaffen lassen.
Die Qualität von Software hängt maßgeblich von der Qualität der zugrunde liegenden Testdaten ab. Während in Teil 1 dieser Artikelserie die Erzeugung synthetischer Testdaten im Fokus stand, rückt nun ein weiterer zentraler Aspekt in den Vordergrund: der Schutz sensibler Informationen in Testumgebungen. In der Praxis greifen viele Unternehmen nach wie vor auf produktionsnahe Daten zurück, um realistische Testszenarien abzubilden. Genau hierin liegt jedoch ein erhebliches Risiko, denn produktive Daten enthalten häufig personenbezogene oder geschäftskritische Informationen, deren unkontrollierte Nutzung gravierende rechtliche und wirtschaftliche Folgen nach sich ziehen kann.
Mit der zunehmenden Digitalisierung und der Verlagerung von Entwicklungs- und Testprozessen in Cloud- und verteilte Systemlandschaften verschärft sich diese Problematik zusätzlich. Testdaten werden heute nicht mehr ausschließlich innerhalb abgeschotteter Unternehmensnetzwerke verwendet, sondern häufig über verschiedene Umgebungen hinweg. Ohne geeignete Schutzmaßnahmen besteht die Gefahr, dass sensible Daten ungewollt exponiert werden oder in falsche Hände gelangen. Regulatorische Anforderungen, insbesondere die Datenschutz-Grundverordnung (DSGVO), setzen hier klare Grenzen. Personenbezogene Daten dürfen nur für klar definierte Zwecke verarbeitet werden und sind durch geeignete technische und organisatorische Maßnahmen zu schützen. Die Nutzung produktiver Daten für Testzwecke ist daher nur unter strengen Auflagen zulässig – in vielen Fällen ist sie sogar vollständig ausgeschlossen. Unternehmen stehen somit vor der Herausforderung, einerseits realistische und aussagekräftige Testdaten bereitzustellen und andererseits höchste Datenschutzanforderungen einzuhalten.
Neben der vollständigen Neugenerierung synthetischer Daten stellt die Datenmaskierung eine zentrale Strategie dar, um dieses Spannungsfeld aufzulösen. Ziel der Maskierung ist es, sensible Inhalte so zu verändern, dass kein Rückschluss auf reale Personen oder vertrauliche Informationen möglich ist, während gleichzeitig Struktur, Format und fachliche Zusammenhänge der Daten erhalten bleiben. Dadurch können Tests weiterhin unter realitätsnahen Bedingungen durchgeführt werden, ohne gegen Datenschutzvorgaben zu verstoßen. Datenmaskierung ermöglicht es, bestehende Datenbestände sicher zu nutzen, Entwicklungs- und Testprozesse zu beschleunigen und gleichzeitig Compliance-Anforderungen zuverlässig zu erfüllen.
Überblick über die Artikelserie
Teil 1: Synthetische Testdaten richtig erzeugen – Grundlagen & Use Cases
Teil 2: Datenschutz & Maskierung in Testumgebungen
Teil 3: Database Subsetting & vollautomatisiertes Test Data Management.
Grundlagen der Datenmaskierung und Anonymisierung
Um sensible Daten in Testumgebungen zu schützen, haben sich unterschiedliche Verfahren etabliert, die häufig unter den Begriffen Anonymisierung, Pseudonymisierung und Datenmaskierung zusammengefasst werden. Obwohl diese Begriffe in der Praxis teilweise synonym verwendet werden, unterscheiden sie sich konzeptionell und rechtlich deutlich voneinander:
- Anonymisierung: verfolgt das Ziel, den Personenbezug von Daten vollständig und irreversibel zu entfernen. Nach erfolgreicher Anonymisierung dürfen keine Rückschlüsse mehr auf eine identifizierbare Person möglich sein – weder direkt noch indirekt durch Kombination mit anderen Datenquellen. Aus regulatorischer Sicht gelten anonymisierte Daten nicht mehr als personenbezogen und unterliegen damit nicht mehr den strengen Anforderungen der DSGVO. In der Praxis ist eine echte Anonymisierung jedoch schwer zu erreichen, insbesondere bei komplexen und stark vernetzten Datenbeständen, da selbst scheinbar harmlose Attribute in Kombination eine Re-Identifikation ermöglichen können.
- Pseudonymisierung: stellt einen weniger restriktiven Ansatz dar. Hierbei werden identifizierende Merkmale, wie Namen oder Kundennummern, durch künstliche Ersatzwerte ausgetauscht. Im Gegensatz zur Anonymisierung bleibt jedoch eine theoretische Rückführung möglich, beispielsweise über separate Zuordnungstabellen oder Schlüssel. Pseudonymisierte Daten gelten daher weiterhin als personenbezogen und unterliegen entsprechenden Schutzanforderungen. Ihr Vorteil liegt darin, dass sie häufig einfacher umzusetzen sind und die fachliche Aussagekraft der Daten weitgehend erhalten bleibt.
- Datenmaskierung: Es werden verschiedene technische Verfahren zusammengefasst, die darauf abzielen, sensible Inhalte gezielt zu verändern oder zu verschleiern, ohne die strukturelle Integrität der Daten zu beeinträchtigen. Ziel ist es, realistische Testdaten bereitzustellen, die sich wie Produktionsdaten verhalten, jedoch keine echten Informationen mehr enthalten. Dabei kommen unterschiedliche Maskierungstechniken zum Einsatz (Tabelle 1).Tabelle 1: Techniken der Datenmaskierung.
| Maskierungstechnik | Beschreibung |
|---|---|
| Substitution | Austausch sensibler Werte durch realistisch wirkende Ersatzwerte, z.B. Namen aus vordefinierten Listen |
| Shuffling | Vertauschen von Werten innerhalb einer Spalte, sodass die Verteilung erhalten bleibt, aber keine direkte Zuordnung mehr möglich ist |
| Masking/ Obfuskation | Teilweises Verdecken von Informationen, etwa durch Ersetzen von Zeichen ("****1234“ bei Kreditkarten) |
| Hashing/ Verschlüsselung | Transformation von Daten in nicht lesbare Werte, oft für Identifikatoren eingesetzt |
| Randomisierung/ Perturbation | leichte Veränderung numerischer Werte, z.B. bei Beträgen oder Messdaten |
Ein zentrales Qualitätsmerkmal moderner Maskierungsverfahren ist die Erhaltung der referenziellen Integrität. Gerade in relationalen Datenbanken dürfen Beziehungen zwischen Tabellen – etwa über Primär- und Fremdschlüssel – nicht verletzt werden. Wird beispielsweise eine Kundennummer maskiert, muss diese konsistent in allen abhängigen Tabellen angepasst werden. Nur so bleibt das Verhalten der Anwendung in Tests realistisch nachvollziehbar. Darüber hinaus spielt die Realitätsnähe der Daten eine entscheidende Rolle. Maskierte Daten sollen nicht nur formal korrekt sein, sondern auch plausible Werte und Verteilungen aufweisen. Unrealistische oder inkonsistente Daten können zu fehlerhaften Testergebnissen führen und die Aussagekraft von Tests erheblich einschränken. Daher werden Maskierungsregeln häufig mit statistischen Vorgaben, Wertelisten oder regelbasierten Transformationen kombiniert. Die Auswahl der geeigneten Methode hängt dabei vom jeweiligen Anwendungsfall, den regulatorischen Anforderungen und der gewünschten Datenqualität ab. Moderne Plattformen wie IRI Voracity setzen genau hier an, indem sie verschiedene Maskierungsverfahren kombinieren und in integrierte, automatisierbare Prozesse einbetten. Der Prozess der Testdatenerstellung durch Datenmaskierung ist in Abbildung 1 dargestellt.
Anforderungen an datenschutzkonforme Testdaten
Die Bereitstellung datenschutzkonformer Testdaten ist in modernen IT-Architekturen deutlich komplexer geworden. Während klassische Anwendungen häufig auf einzelne relationale Datenbanken beschränkt waren, bestehen heutige Systeme aus einer Vielzahl verteilter Komponenten: Microservices, APIs, Streaming-Plattformen, Cloud-Speicher und Legacy-Systeme greifen parallel auf unterschiedliche Datenquellen zu. Für das Testdatenmanagement bedeutet dies, dass Daten nicht nur isoliert betrachtet werden dürfen, sondern als Teil eines vernetzten Gesamtsystems. Eine zentrale Herausforderung besteht darin, konsistente und realitätsnahe Daten über Systemgrenzen hinweg bereitzustellen. Werden Daten maskiert oder transformiert, müssen alle abhängigen Systeme synchron berücksichtigt werden. Beispielsweise darf eine maskierte Kundennummer nicht nur in einer Datenbank angepasst werden, sondern muss in allen verbundenen Services, Logs oder Schnittstellen identisch verändert werden. Andernfalls entstehen Inkonsistenzen, die zu fehlerhaften Testergebnissen oder sogar Systemfehlern führen können. Gleichzeitig steigen die Anforderungen an die Datenvielfalt und -struktur. Testdaten müssen unterschiedlichste Formate abdecken, von relationalen Tabellen über JSON- und XML-Strukturen bis hin zu unstrukturierten Dokumenten oder Streaming-Daten.
Neben der strukturellen Konsistenz spielt auch die inhaltliche Realitätsnähe eine entscheidende Rolle. Testdaten sollen typische Verteilungen, Wertebereiche und Muster produktiver Daten widerspiegeln. Gleichzeitig dürfen sie keine sensiblen Informationen mehr enthalten. Dieses Spannungsfeld zwischen Datenschutz und Fachlichkeit erfordert eine gezielte Steuerung der Maskierungs- oder Generierungsregeln. Unrealistische Daten können dazu führen, dass Fehler nicht erkannt oder falsche Schlussfolgerungen gezogen werden.
Darüber hinaus müssen Testdatenlösungen heute in der Lage sein, sich in automatisierte Entwicklungs- und Testprozesse zu integrieren. Manuelle Prozesse stoßen hier schnell an ihre Grenzen. Stattdessen sind automatisierbare Workflows erforderlich, die Datenmaskierung, Bereitstellung und Aktualisierung nahtlos in bestehende Pipelines einbinden. Neben der technischen Umsetzung müssen organisatorische und regulatorische Vorgaben berücksichtigt werden. Dazu gehören unter anderem Zugriffskontrollen, Protokollierung, Nachvollziehbarkeit der Datenverarbeitung sowie klare Richtlinien zur Nutzung von Testdaten.
Zur Erfüllung dieser Anforderungen (Abbildung 2) dienen Test-Data-Management-Plattformen. Sie verbinden Maskierung, Generierung und Automatisierung zu einem ganzheitlichen Ansatz.
Werkzeuge zur Datenmaskierung
Die Werkzeuge lassen sich grob in zwei Kategorien einteilen: spezialisierte Einzelwerkzeuge und integrierte Plattformlösungen. Spezialisierte Tools adressieren meist klar abgegrenzte Aufgaben wie Anonymisierung oder einfache Maskierung. Dazu zählt beispielsweise ARX. Demgegenüber stehen integrierte Plattformen, die Datenmaskierung als Teil eines umfassenden Test Data Managements betrachten. Ein Beispiel ist IRI Voracity, das Maskierung, synthetische Datengenerierung und Subsetting in einer gemeinsamen Umgebung vereint. In dieses Segment gehört auch Delphix. Dadurch können Testumgebungen in kürzester Zeit mit realitätsnahen, bereits maskierten Daten versorgt werden. Der Schwerpunkt liegt hier auf Skalierbarkeit und Geschwindigkeit, insbesondere in großen Unternehmenslandschaften.
Insgesamt zeigt sich, dass spezialisierte Werkzeuge vor allem für punktuelle Aufgaben geeignet sind, während integrierte Plattformen ihre Stärken in komplexen, automatisierten und datenintensiven Umgebungen ausspielen.
Datenmaskierung in der Praxis mit IRI Voracity
Beispielhaft stellen wir den Prozess der Datenmaskierung mit Hilfe der Plattform IRI Voracity vor. Insbesondere die Komponenten FieldShield und DarkShield aus der Plattform adressieren die Anforderungen an Datenmaskierung, sowohl für strukturierte als auch unstrukturierte Daten. Voracity basiert auf der SortCL-Engine, die als gemeinsamer Verarbeitungskern für alle Datenoperationen dient. Dadurch können Maskierungsprozesse nicht nur isoliert betrachtet werden, sondern lassen sich mit Datenprofiling, Transformation und Testdatengenerierung verbinden. Die Umsetzung erfolgt typischerweise innerhalb der Eclipse-basierten IRI Workbench, die sowohl grafische Assistenten als auch skriptbasierte Automatisierung unterstützt (Abbildung 3).
Ein zentraler Baustein für strukturierte Daten ist FieldShield. Das Werkzeug ermöglicht die gezielte Maskierung sensibler Informationen in relationalen Datenbanken, Flat Files oder anderen strukturierten Formaten. Dabei können unterschiedliche Maskierungstechniken kombiniert werden, etwa Substitution, Verschlüsselung, Hashing oder regelbasierte Transformationen (siehe oben). Entscheidend ist, dass die referenzielle Integrität erhalten bleibt. Dadurch bleiben fachliche Zusammenhänge und Anwendungslogik vollständig intakt.
Ein typischer Workflow zur Maskierung beginnt mit der Datenklassifikation. Sensible Felder wie Namen, Adressen, Kontodaten oder Identifikatoren werden identifiziert und entsprechend gekennzeichnet. Darauf aufbauend werden Maskierungsregeln definiert, die festlegen, wie einzelne Attribute transformiert werden sollen. So können beispielsweise Personennamen durch Werte aus realistischen Namenslisten ersetzt, E-Mail-Adressen syntaktisch korrekt generiert oder numerische Werte innerhalb definierter Grenzen variiert werden. Diese Regeln lassen sich entweder über grafische Assistenten konfigurieren oder direkt in SortCL-Skripten beschreiben. Im nächsten Schritt erfolgt die eigentliche Transformation der Daten. Das Tool verarbeitet dabei große Datenmengen performant und erzeugt maskierte Zielbestände, die strukturell und statistisch den Originaldaten entsprechen, jedoch keine sensiblen Informationen mehr enthalten. Die Verarbeitung kann sowohl batch-orientiert als auch automatisiert in bestehende Prozesse integriert erfolgen, etwa über Kommandozeilenaufrufe oder innerhalb von CI/CD-Pipelines. Damit lassen sich Testdaten reproduzierbar und konsistent bereitstellen. Neben strukturierten Daten adressiert Voracity mit DarkShield auch unstrukturierte Informationsquellen, etwa Dokumente, Textdateien oder NoSQL-Datenbanken. Hier werden sensible Inhalte zunächst erkannt, klassifiziert und anschließend maskiert oder entfernt.
Ein praktisches Beispiel verdeutlicht den Einsatz: In einer typischen Kunden-/ Auftragsdatenbank sollen personenbezogene Informationen für Testzwecke geschützt werden. Mithilfe von FieldShield werden zunächst alle relevanten Spalten identifiziert, etwa Name, E-Mail, Telefonnummer und Kundennummer. Anschließend werden passende Maskierungsregeln definiert, beispielsweise die Ersetzung von Namen durch zufällig ausgewählte Einträge aus einer Namensliste oder das Hashing von Identifikatoren. Nach der Ausführung entstehen konsistente Datensätze, bei denen alle Beziehungen zwischen Kunden, Bestellungen und weiteren Entitäten erhalten bleiben. Für Tests ergibt sich somit ein realistisches Datenbild, ohne dass Rückschlüsse auf reale Personen möglich sind.
Integration von Maskierung in DevOps- und Testprozesse
In modernen Entwicklungsumgebungen muss Datenmaskierung in bestehende DevOps- und Testprozesse integriert werden, da Testdaten in kurzen Zyklen reproduzierbar und in unterschiedlichen Umgebungen bereitgestellt werden müssen. Ein Ansatz besteht darin, Maskierungsregeln zentral zu definieren, sodass sie bei jedem Build oder Deployment konsistent angewendet werden können. Die Verarbeitung erfolgt automatisiert durch Skripte oder Tools, welche Daten extrahieren, maskieren und in Testumgebungen bereitstellen. Dadurch wird sichergestellt, dass alle Tests mit aktuellen, datenschutzkonformen und strukturell konsistenten Daten arbeiten. Ein Beispiel zeigt Abbildung 4. Mit Hilfe eines Java-Programms werden die relevanten Daten, in diesem Fall die Spalte Phone_Number aus einer Oracle-Datenbank, ausgelesen und sie werden mithilfe der formaterhaltenden alphanumerischen Verschlüsselungsfunktion von FieldShield datenschutzkonform transformiert.
Wesentlich ist dabei die Wiederholbarkeit der Prozesse. Testdaten müssen jederzeit reproduzierbar erzeugt werden können, um Regressionstests und Fehleranalysen zu unterstützen. Neben der technischen Umsetzung sind auch organisatorische Aspekte zu berücksichtigen. Klare Richtlinien zur Nutzung von Testdaten, Zugriffskontrollen sowie Protokollierung und Monitoring tragen dazu bei, Datenschutzanforderungen dauerhaft einzuhalten. Insgesamt wird Datenmaskierung damit zu einem integralen Bestandteil kontinuierlicher Softwareentwicklung und Qualitätssicherung.
Fazit und Ausblick
Datenschutz und Datenmaskierung sind zentrale Bausteine eines modernen Testdatenmanagements. Sie ermöglichen die Nutzung realitätsnaher Daten, ohne sensible Informationen preiszugeben. Gerade in komplexen Systemlandschaften ist die Kombination aus technischer Umsetzung und organisatorischen Maßnahmen entscheidend. Im nächsten Teil der Serie wird mit dem Database Subsetting ein weiterer zentraler Ansatz betrachtet, der es erlaubt, große Datenbestände effizient zu reduzieren und gezielt für Tests bereitzustellen.
- Meffert, K. (2026, 26. Januar). Anonymisierung personenbezogener Daten: DSGVO, Datenschutz und Big Data. Dr. DSGVO. https://dr-dsgvo.de/anonymisierung-von-daten-und-datenschutz-was-bedeutet-das-und-welche-rechtsgrundlagen-sind-relevant (Abgerufen am 8. Juni 2026)
- Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI). (2025, Juni). Kurzposition: Personenbezogene Daten bei Software-Entwicklung und -Tests. BfDI. https://www.bfdi.bund.de/DE/Fachthemen/Inhalte/Technik/Kurzposition_Testdaten.html (Abgerufen am 8. Juni 2026)
- Bundesbeauftragte für den Datenschutz und die Informationsfreiheit (BfDI). (2020, 29. Juni). Anonymisierung unter der DSGVO unter besonderer Berücksichtigung der TK-Branche: Konsultationsverfahren und Positionspapier. BfDI. https://www.bfdi.bund.de/DE/BfDI/Konsultationsverfahren/Anonymisierung-TK/Anonymisierung-TK_node.html (Abgerufen am 8. Juni 2026)
- JET-Software GmbH. (2026, 12. Mai). Datenmaskierung: Risiko – PII finden und anonymisieren. JET-Software. https://www.jet-software.com/datenmaskierung/ (Abgerufen am 8. Juni 2026)
















