Kundenservice Veranstaltungen: 02234-9894940
Kundenservice Bücher: 089-21837921
Aboservice Zeitschriften: 089-21837110

KI & Datenschutz – warum Anonymisierung und Synthetische Daten keine Lösungen sind

Anzeige

 

Der Schutz personenbezogener Daten stellt die Entwicklung von KI-Algorithmen vor große Herausforderungen.

Maschinelles Lernen ist ein Teilbereich der Künstlichen Intelligenz. Algorithmen erstellen statistische Modelle, die auf sogenannten Trainingsdaten beruhen. Diese Modelle verallgemeinern Informationen aus Beispielen und verbessern sich damit selbständig durch Erfahrung. Maschinelles Lernen wird sehr erfolgreich zum Beispiel in der Bildverarbeitung, der Sprachmodellierung und vielen weiteren Bereichen eingesetzt. Da Maschinelles Lernen immer auf Daten beruht, ist das Thema Datenschutz hier besonders wichtig.

Um Daten in der KI-Entwicklung verantwortungsbewusst zu verwenden, muss insbesondere der Schutz personenbezogener Informationen sehr ernst genommen werden. Herkömmliche Methoden verändern die Daten so, dass sie (scheinbar) keine sensiblen Informationen mehr enthalten. Anonymisierung, Pseudonymisierung oder Maskierung sind hierbei gern genommene Verfahren. Leider zeigt sich in der Praxis, dass die Anonymisierung und ihre Schwestermethoden keineswegs einen ausreichenden Schutz etwa vor einer Re-Identifizierung bieten. Es gibt zahlreiche Studien, die gezeigt haben, dass geheime Informationen auch aus vermeintlich völlig anonymen Datensätzen gewonnen werden können. Das Maschinelle Lernen stellt den Datenschutz hierbei vor besonders große Herausforderungen, denn spezielle KI- Modelle können verwendet werden, um schützenswerte Informationen über einzelne Datensätze zu erhalten.

Da die KI-Modelle eine statistische Abstraktion derjenigen Daten darstellen, mit denen sie erstellt wurden, können diese statistischen Zusammenhänge genutzt werden, um Rückschlüsse auf das Vorhandensein bestimmter Datenpunkte oder Attribute im Datensatz zu ziehen. Wenn zum Beispiel die Genauigkeit einer Modell-Vorhersage (z.B. zur Höhe des Einkommens basierend auf Attributen wie Beruf, Alter etc.) für eine bestimmte Person besonders hoch ist, kann angenommen werden, dass die Daten über diese Person tatsächlich Teil der Eingangsdaten des Modells waren.

Studien haben gezeigt, dass ein Datensatz mit nur 15 demografischen Attributen 99,98% der Menschen in in einer bestimmten Region eindeutig identifizierbar machen – wohlgemerkt bei einem Datensatz, der hinsichtlich der Anforderungen der Datenschutzgesetze als vollständig sicher, weil anonymisiert, gelten würde.

Herkömmliche Methoden wie Anonymisierung, Pseudonymisierung und auch neuere Methoden wie Synthetisierung taugen daher nicht für einen effektiven Datenschutz. Solange grundlegende Eigenschaften der Daten erhalten bleiben – und das müssen sie, andernfalls ist eine sinnvolle Analyse nicht mehr möglich – sind aus diesen Rückschlüsse auf schützenswerte Informationen mit Personenbezug möglich.

Die Synthetisierung von Daten mit Hilfe von KI-Algorithmen (sogenannten Generativen Netzwerken) erfährt derzeit große Aufmerksamkeit. Sie verspricht großen Datennutzen bei vollständigem Datenschutz. Wenngleich die Technologie hinter der Daten-Synthetisierung sehr spannend ist, kann dieses Versprechen leider nicht gehalten werden. Wie bei der Anonymisierung sind Rückschlüsse von den synthetischen Daten auf einzelne Personen oder deren Attribute in den Originaldaten durchaus möglich. Neuere wissenschaftliche Untersuchungen zeigen, dass eine Synthetisierung von sensiblen Daten diese grundsätzlich nicht ausreichend schützen kann, da die synthetischen Daten, um überhaupt nützlich zu sein, zu viele Informationen auf einer basalen Ebene mit den Originaldaten teilen. Andersherum müssten sämtliche Analysen, die später auf den synthetischen Daten durchgeführt werden, zum Zeitpunkt der Synthetisierung bereits bekannt sein, um für einen ausreichend hohen Datenschutz sorgen zu können. Eine Bedingung, die offensichtlich nicht erfüllt werden kann. Der aktuelle Hype um diese Technologie darf aus Datenschutz-Sicht daher durchaus mit Besorgnis zur Kenntnis genommen werden.

Die Lösung für dieses Dilemma liegt darin, den Datenschutz nicht an den Daten, sondern an der Analyse selbst festzumachen. Das mathematische Konzept der Differential Privacy bietet hierfür einen geeigneten Rahmen: der gewünschte Datenschutz wird zum Abfragezeitpunkt bestimmt und berechnet. Differential Privacy kann einen effektiven Datenschutz bieten, indem es eine mathematisch überprüfbare Garantie für die Begrenzung des Informationsabflusses aus Datenanalysen ausstellt. Mit Differential Privacy konformen Methoden können allgemeine Informationen aus den verwendeten Datensätzen gewonnen werden, ohne einzelne Datenpunkte zu gefährden. Es kann eine nützliche allgemeine Aussage wie "Wenn die Eigenschaften a und b vorhanden sind, hat die betreffende Therapie eine Heilungswahrscheinlichkeit von p" formuliert werden; Aussagen, die datenschutzrechtlich nicht erlaubt sind, wie "aufgrund des Vorhandenseins der Eigenschaften a und b muss Patient x im Datensatz enthalten sein" sind dagegen nicht möglich.

Gradient Zero’s Entwicklungsplattform für Ethische KI implementiert dieses und weitere Prinzipien. Mit DQ0 können erweiterte Datenanalysen auf sensiblen Daten durchgeführt und vertrauenswürdige KI-Algorithmen entwickelt werden.

DQ0 verändert die Daten nicht. Es findet keine Anonymisierung oder ähnliches statt, die selbst datenschutzkonform sein kann oder eben nicht. DQ0 verwendet die Daten so wie sie sind und stellt zum Zeitpunkt der Datenanalyse sicher, dass jedweder Personenbezug - auch mit dem Ergebnis der Analyse - ausgeschlossen bleibt. DQ0 bietet damit nicht nur eine sicherere Lösung zur Analyse von sensiblen Daten, sondern auch eine, die alle Daten verwenden kann und damit den vollen Wert der Daten nutzt.

DQ0 ist zertifiziert vom TÜV Austria und bietet effektiven Datenschutz nach bestehenden Rechtsnormen. Gleichzeitig bietet DQ0 eine komfortable Entwicklungsumgebung für KI-Algorithmen. Nutzen Sie Ihre Daten sicher und teilen Sie sie über die Grenzen ihrer Unternehmenseinheiten und sogar über geografische Grenzen hinweg ohne Kontrolle abzugeben oder den Datenschutz zu gefährden.

 

Foto: © Gradient0