Synthetische Daten Demonstrator
Demonstrator Synthetische Daten
Es ist absehbar, dass Politik und Verwaltung zukünftig stärker auf Daten aus verschiedensten Quellen angewiesen sein werden, um evidenzbasiert und wirkungsvoll handeln zu können. Diese unabdingbaren Daten sind häufig schutzbedürftig, zum Beispiel wenn sie Personenbezüge, Geschäftsgeheimnisse oder sicherheitsrelevante Informationen enthalten. Mit steigender Anzahl von Daten für die verschiedensten Zwecke sowie bei der Nutzung in unterschiedlichen Bereichen erhöht sich das Risiko, unbeabsichtigt schutzbedürftige Informationen aufzudecken. Im Zuge des Trends zu Open Data und transparentem Verwaltungshandeln scheint es sinnvoller, bereinigte (anonymisierte) und verteilbare Daten bereitzuhalten oder kurzfristig über automatisierte Verfahren zu erstellen, als individuelle Zusammenstellungen schutzbedürftiger Verwaltungsdaten im Einzelfall auf mögliche Risiken zu überprüfen.
Synthetische Daten bestehen aus künstlichen, meist durch spezielle Algorithmen generierte Daten. Sie finden Anwendung in vielen sensiblen Domänen, wo Originaldaten aufgrund von Datenschutz und Privatheit nicht veröffentlicht werden dürfen, synthetische Daten jedoch ohne explizite Einwilligung der Betroffenen verfügbar gemacht werden können.
Der von uns entwickelte interaktive Demonstrator bietet die Möglichkeit, Potentiale und Schwächen synthetischer Daten auf spielerische Weise eigenständig zu entdecken. Dafür wenden wir drei verschiedenen Methoden auf Echtdaten an. Da wir selbstverständlich nicht mit personenbezogenen Originaldaten arbeiten dürfen, nutzen wir stattdessen Daten der gepflanzten Bäumen der letzten 10 Jahre in Berlin. Bei der Auseinandersetzung mit den Daten wird klar, dass diese vergleichbare Eigenschaften besitzen, datenschutztechnisch jedoch unbedenklich sind. Beispielsweise lässt sich das Pflanzjahr des Baumes wie das Geburtsjahr einer Person lesen, oder die Höhe des Baumes wie das jährliche Einkommen.
Wir wünschen Ihnen viel Spaß beim Austesten!
Blogbeitrag
Folien
- Daten
- 200000
- Erhebung
- 2022
- Infos
- ---
- Informationsgehalt der Daten anhand zufälliger Auswahl:
Bezirk | Str.Name | Baumart | Pflanzjahr | Umfang | Höhe |
---|
Methode | Score (KSCompl.) | MLP Classifier | Download |
---|---|---|---|
Reale Daten | 100% | 0.337 | |
Gaussian Copula | 86.25% | 0.093 | |
GAN | 77.5% | 0.267 | |
AutoEncoder | 86.09% | 0.218 |
MLP: Multiklassenprediktor. Mittels der verfügbaren Daten wird ein Neuronales Netz trainiert, welches das Pflanzjahr [2013-2022] vorherzusagen versucht. 1 bedeutet perfekte Vorhersagen, 0 keine Vorhersagen
KS-Complement: Ein statistischer Test auf Ähnlichkeit einzelner Spalten, also die marginale Verteilung oder Randverteilung. Je höher, desto ähnlicher.
Durch das Zählen des Auftretens der einzelnen Werte lässt sich über jede Reihe & Spalte eine sogenannte Randhäufigkeit berechnen. Typischerweise gibt es mehrere solcher Randverteilungen, eine Copula stellt einen funktionalen Zusammenhang zwischen diesen auf und kann auf diese Weise stochastische Abhängigkeiten modelieren. Anders gesagt lassen sich mit der Methode Rückschlüsse auf die Art der stochastischen Abhängigkeit zweier Zufallsvariablen machen.
Variationelle Autoencoder bestehen aus zwei Komponenten, typischerweise neuronale Netze: einem Encoder und einem Decoder. Der Encoder transformiert die Eingabe (Ursprungsdaten) in eine einfachere Verteilung, eine sogenannte latent distribution. Der Decoder nutzt diese als Input und versucht diese Verteilung in den Ursprungsraum zurück zu transformieren. Die so entstandenen neuen Daten sind die synthetischen Daten und können durch Anpassungen des latent Space an das Anwendungsszenarion angepasst werden.
Generative Adversariale Netze kommen aus dem Feld des unüberwachten Lernens. Die Idee ist, zwei Komponenten, typischerweise neuronale Netze, gegeneinander zu trainieren. Der Generator erstellt dabei in jeder Iteration neue Datenpunkte während der Diskriminator in jeder Iteration versucht, die erstellten Datenpunkte von den echten Daten zu separieren. Mit fortlaufendem Training lernt der Generator, immer realistischere Daten zu erstellen, während der Diskriminator immer besser wird, die Daten zu unterscheiden. Mathematisch ausgedrückt lernt der Generator, die zugrunde liegende Verteilung der Originaldaten zu approximieren und damit neue Datenpunkte samplen zu können, die der (typischerweise unbekannten) Originalverteilung entsprechen.
Anonymisieren bedeutet, personenbezogene Daten so zu verändern, dass die Einzelangaben nicht mehr einer bestimmbaren natürlichen Person zugeordnet werden können. Eine besonders einfache Form der Anonymisierung ist das Vergröbern von Information. Für den Demonstrator wurde das Pflanzjahr (respektive Geburtsjahr) als sensible, schützenswerte Information angenommen und auf die Zeitintervalle 2013-2015, 2016-2018, 2019-2021 vergröbert. Alle anderen Informationen bleiben in ihrer Ursprungsform bestehen.
Achtung: Durch die fehlende Information des Pflanzjahres werden einige Funktionen innerhalb des Demonstrators deaktivert. All jene, für die das genaue Jahr als Information nötig ist.
3. Abschnitt: Ausgewählte Szenarien zum qualitativen Vergleich der Daten
Anonymisierte Daten wurden vergröbert, was in der Zeitdarstellung visualisiert wurde, indem über jeweils die Zeitintervalle [2013-1015], [2016-2018], [2019-2021] die Mittelwerte gebildet wurden.
Das Zeitintervall ermöglicht es Ihnen, das Pflanzjahr der Bäume einzugrenzen. Alle Daten stammen aus dem Jahr 2022. Für anonymisierte Daten kann kein Zeitintervall gewählt werden, da das Pflanzjahr als sensible Information interpretiert wird.
5. Abschnitt: Daten vergleichen & filtern. Anhand weniger Parameter lassen sich schnell eindeutige Datenpunkte erfassen
Echtdatenpunkte:
ID | Baumname | Umfang | Höhe |
---|
Synthetische Datenpunkte:
ID | Baumname | Umfang | Höhe |
---|
Was zeigt der Demonstrator?
1. Synthetische Daten sind nicht gleich synthetische Daten.
Nützlich sind synthetische Daten dann, wenn sie gewisse statistische Eigenschaften abbilden, die auch in den Originaldaten zu finden sind. Das heißt, sie sollten insbesondere in Bezug auf im Mittelpunkt des Interesses stehende Eigenschaften möglichst »ähnlich« sein. Was das bedeutet, ist jedoch nicht unbedingt eindeutig zu bestimmen. Unterschiedliche Methoden zur Generierung der synthetischen Daten führen zu unterschiedlich guter Abbildung abhängig von der angewandten Vergleichsmetrik.
2. Synthetische Daten können unter Umständen Daten als Alternative zu herkömmlichen Anonymisierungsmethoden genutzt werden.
Anonymisiert werden müssen Daten dann, wenn sie sensible Informationen enthalten, die Rückschlüsse auf Individuen zulassen. Unter Umständen werden Daten aufgrund von Bedenken zu Daten- oder Geheimschutz gar nicht erst veröffentlicht. Offene Daten sind jedoch nicht nur für Forschung elementar wichtig. Eine Möglichkeit könnte sein, statt der Originaldaten entweder eine synthetische Datenbasis zu veröffentlichen, die »ausreichend genau« die statistischen Eigenschaften der Originaldaten abbilden oder direkt die Funktion zur Generierung solcher Daten..
3. Die »Qualität« synthetischer Daten ist nicht ohne Weiteres bestimmbar und Anwendung bleibt herausfordernd.
Was »Qualität« im Kontext synthetischer Daten bedeutet, ist nicht klar definiert. Existieren darüber hinaus Verzerrungen (Bias) in den Originaldaten, werden sich diese wahrscheinlich auch in den synthetischen Daten wiederfinden. Der Versuch, synthetische Daten zu nutzen, um Originaldaten zugunsten von Fairness-Aspekten zu manipulieren, führt ggf. zu inkorrekten Daten.
4. Die Potentiale synthetischer Daten sind groß.
Verstärkte Forschung und Entwicklung praktischer, leicht zugänglicher Anwendungen in dem Themenfeld kann ermöglichen, die derzeitigen Herausforderungen mit synthetischen Daten zu adressieren. Sollen synthetische Daten als Alternative zu dem herkömmlichen Anonymisieren dienen, müssen Methoden gefunden werden, die sicherstellen, dass keine sensiblen Informationen aus den synthetischen Daten extrahiert werden können (Information Leak).