Datenverschleierung auf Azure mit Delphix und Azure Data Factory
Die folgende Architektur skizziert die Verwendung von Delphix Continuous Compliance in einer Azure Data Factory (ADF) ETL-Pipeline (Extrahieren, Transformieren und Laden), um vertrauliche Daten zu identifizieren und zu maskieren.
Aufbau
Laden Sie eine Visio-Datei dieser Architektur herunter.
Datenfluss
Die Daten durchlaufen das Szenario wie folgt:
- Azure Data Factory extrahiert mithilfe der Aktivität „Daten kopieren“ Daten aus Quelldatenspeichern in einen Container in Azure File Storage. Dieser Container wird als Quelldatencontainer bezeichnet und die Daten liegen im CSV-Format vor.
- Data Factory initiiert einen Iterator (ForEach-Aktivität), der eine Liste von in Delphix konfigurierten Maskierungsaufträgen durchläuft. Diese Maskierungsaufträge werden vorkonfiguriert und maskieren sensible Daten, die im Quelldatencontainer vorhanden sind.
- Für jeden Job in der Liste authentifiziert und initiiert die Aktivität Initiate Masking den Maskierungsjob durch Aufrufen der REST-API-Endpunkte auf der Delphix CC Engine.
- Die Delphix CC Engine liest Daten aus dem Quelldatencontainer und durchläuft den Maskierungsprozess.
- Bei diesem Maskierungsprozess maskiert Delphix Daten im Arbeitsspeicher und schreibt die resultierenden maskierten Daten zurück in einen Azure-Dateicontainer (als Zieldatencontainer bezeichnet).
- Data Factory initiiert nun einen zweiten Iterator (ForEach-Aktivität), der die Ausführungen überwacht.
- Für jede gestartete Ausführung (Maskierungsjob) überprüft die Aktivität Status prüfen das Ergebnis der Maskierung.
- Nachdem alle Maskierungsaufträge erfolgreich abgeschlossen wurden, lädt Data Factory die maskierten Daten aus dem Zieldatencontainer in das angegebene Ziel.
Komponenten
- Azure Data Factory ist ein ETL-Dienst (Extrahieren, Transformieren und Laden) für die serverlose Datenintegration und Datentransformation mit horizontaler Skalierung. Der Dienst bietet eine Benutzeroberfläche ohne Code für die intuitive Erstellung sowie Überwachung und Verwaltung über eine zentrale Konsole.
- Azure Synapse Analytics ist ein Analysedienst, der Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen vereint. Es enthält Azure Data Factory-Pipelines zur Bereitstellung von Datenintegration.
- Azure Storage speichert die aus den Quelldatenspeichern extrahierten Daten und die maskierten Daten, die in die Zieldatenspeicher geladen werden.
- Optional: Azure Virtual Network bietet private Netzwerkfunktionen für Azure-Ressourcen, die nicht Teil des Azure Synapse-Arbeitsbereichs sind. Dies ermöglicht die Verwaltung des Zugriffs, der Sicherheit und des Routings zwischen Ressourcen.
- Andere Komponenten: Basierend auf den als Quelle und Ziel verwendeten Datenspeichern müssen möglicherweise weitere Komponenten hinzugefügt werden. Diese Datenspeicher können je nach Ihren Anforderungen variieren.
Alternativen
Sie können die Datenverschleierung auch mit Microsoft Presidio durchführen. Erfahren Sie mehr über diese Option bei Presidio – Datenschutz und Entidentifikations-SDK.
Szenariodetails
In den letzten Jahren hat es eine Datenexplosion gegeben. Um den strategischen Wert von Daten freizusetzen, müssen sie dynamisch und portabel sein. In Silos vorhandene Daten schränken ihren strategischen Wert ein und sind für Analysezwecke schwer zu verwenden.
Datensilos aufzubrechen ist schwierig:
- Daten müssen manipuliert werden, um in ein gemeinsames Format zu passen. ETL-Pipelines müssen an jedes Aufzeichnungssystem angepasst und skaliert werden, um die riesigen Datensätze moderner Unternehmen zu unterstützen.
- Die Einhaltung von Vorschriften in Bezug auf vertrauliche Informationen muss aufrechterhalten werden, wenn Daten aus Aufzeichnungssystemen verschoben werden. Kundeninhalte und andere sensible Elemente müssen verschleiert werden, ohne den Geschäftswert des Datensatzes zu beeinträchtigen.
Was ist Azure Data Factory?
Azure Data Factory ist ein vollständig verwalteter, serverloser Datenintegrationsdienst. Es bietet ein reichhaltiges visuelles Erlebnis für die Integration von Datenquellen mit mehr als 100 integrierten, wartungsfreien Konnektoren ohne zusätzliche Kosten. Erstellen Sie einfach ETL- und ELT-Prozesse (Extrahieren, Laden und Transformieren) ohne Code in einer intuitiven Umgebung oder schreiben Sie Ihren eigenen Code. Übermitteln Sie dann integrierte Daten an Azure Synapse Analytics, um das Potenzial Ihrer Daten durch Geschäftserkenntnisse freizusetzen. Data Factory-Pipelines sind auch in Azure Synapse Analytics verfügbar.
Was ist Delphix Continuous Compliance (Delphix CC)?
Delphix Continuous Compliance identifiziert vertrauliche Informationen und automatisiert die Datenmasken. Es bietet eine schnelle, automatisierte, API-gesteuerte Möglichkeit, sichere Daten bereitzustellen, die in Organisationen benötigt werden.
Wie automatisieren Delphix CC und Data Factory die Gewährleistung konformer Daten?
Die Übertragung sicherer Daten ist eine Herausforderung für alle Organisationen. Delphix vereinfacht das Erreichen von konsistenter Datenkonformität, und Data Factory ermöglicht nahtloses Verbinden und Verschieben von Daten. Zusammen kombinieren Delphix und Data Factory branchenführende Compliance- und Automatisierungsangebote, um die Bereitstellung konformer On-Demand-Daten für alle Benutzer zu vereinfachen.
Durch die Verwendung der von Data Factory angebotenen Datenquellen-Konnektoren haben wir zwei ETL-Pipelines erstellt, die die folgenden Schritte automatisieren:
Lesen Sie Daten aus dem Aufzeichnungssystem und schreiben Sie sie in CSV-Dateien in Azure Blob Storage.
Stellen Sie Delphix Continuous Compliance das zur Verfügung, was erforderlich ist, um Spalten zu identifizieren, die möglicherweise sensible Daten enthalten, und weisen Sie geeignete Maskierungsalgorithmen zu.
Führen Sie einen Delphix-Maskierungsjob für die Dateien aus, um sensible Datenelemente durch ähnliche, aber fiktive Werte zu ersetzen.
Laden Sie die konformen Daten in einen beliebigen von Data Factory unterstützten Datenspeicher.
Mögliche Anwendungsfälle
Aktivieren Sie Azure Data Services sicher für branchenspezifische Lösungen
- Identifizieren und maskieren Sie vertrauliche Daten in großen und komplexen Anwendungen, in denen Kundeninhalte sonst schwer zu identifizieren wären. Delphix ermöglicht es Endbenutzern, konforme Daten aus Quellen wie SAP, Salesforce und Oracle EBS automatisch in hochwertige Serviceschichten wie Microsoft Synapse zu verschieben.
- Verwenden Sie die leistungsstarken und umfassenden Konnektoren von Microsoft Azure, um Ihre Daten sicher zu entsperren, zu maskieren und zu migrieren – unabhängig davon, woher sie stammen.
Lösen Sie die komplexe Einhaltung gesetzlicher Vorschriften für Daten
- Setzen Sie automatisch das umfassende Delphix-Algorithmus-Framework ein, um alle regulatorischen Anforderungen für Ihre Daten zu erfüllen.
- Wenden Sie datenbereite Regeln für regulatorische Anforderungen wie CCPA, LGPD, HIPAA und andere an.
Beschleunigen Sie die „DevSecOps“-Verschiebung nach links
- Rüsten Sie Ihre Entwickler- und Analyse-Pipelines (Azure DevOps, Jenkins, Harness) und andere Automatisierungs-Workflows mit Daten in Produktionsqualität aus, indem Sie sensible Daten systematisch und deterministisch in zentralen Data Factory-Pipelines maskieren.
- Maskieren Sie Daten konsistent über Datenquellen hinweg und bewahren Sie die referenzielle Integrität für integrierte Anwendungstests. Beispielsweise muss der Name George immer für Elliot maskiert werden, oder eine bestimmte Sozialversicherungsnummer (SSN) muss immer für dieselbe SSN maskiert werden, unabhängig davon, ob George und seine SSN in Oracle, Salesforce oder SAP erscheinen.
Reduzieren Sie die Trainingszeit für KI/ML-Algorithmen mit konformen Analysen
- Maskieren Sie Daten auf eine Weise, die die Trainingszyklen nicht verlängert.
- Bewahren Sie die Datenintegrität beim Maskieren, um eine Beeinträchtigung der Modell-/Vorhersagegenauigkeit zu vermeiden.
Jeder Azure Data Factory- oder Azure Synapse Analytics-Connector kann verwendet werden, um einen bestimmten Anwendungsfall zu erleichtern.
Hauptvorteile
- Universelle Konnektivität
- Realistische, deterministische Maskierung, die referenzielle Integrität beibehalten
- Präventive Identifizierung sensibler Daten für wichtige Unternehmensanwendungen
- Systemeigene Cloudausführung
- Vorlagenbasierte Bereitstellung
- Skalierbar
Beispiel Architektur
Das folgende Beispiel wurde von einem anonymen Kunden bereitgestellt. Es ist nur als Beispiel für die Architektur einer Umgebung für diesen Maskierungsanwendungsfall vorgesehen.
In der obigen Beispielarchitektur:
- Azure Data Factory oder Azure Synapse Analytics erfasst/verbindet sich mit demaskierten Produktionsdaten in der Zielzone
- Daten werden nach Data Staging in Azure Storage verschoben
- NFS-Mount von Produktionsdaten auf Delphix CC PODs ermöglicht der Pipeline, den Delphix CC-Dienst aufzurufen
- Maskierte Daten werden zur Verteilung innerhalb von Data Factory und niedrigeren Umgebungen zurückgegeben
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Sicherheit
Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.
Delphix CC maskiert Datenwerte irreversibel mit realistischen Daten, die voll funktionsfähig bleiben, wodurch die Entwicklung von Code höherer Qualität ermöglicht wird. Unter den zahlreichen verfügbaren Algorithmen zur Umwandlung von Daten in Benutzerspezifikationen verfügt Delphix CC über einen patentierten Algorithmus, der absichtlich Datenkollisionen erzeugt und gleichzeitig das Salzen von Daten mit bestimmten Werten ermöglicht, die für potenzielle Validierungsroutinen erforderlich sind, die auf dem maskierten Datensatz ausgeführt werden. Aus der Zero-Trust-Perspektive benötigen Betreiber keinen Zugriff auf die eigentlichen Daten, um sie zu maskieren. Darüber hinaus kann die gesamte Zustellung maskierter Daten von Punkt A nach Punkt B über APIs automatisiert werden.
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
Durch Anpassen der Werte im Azure-Preisrechner können Sie sehen, wie sich Ihre speziellen Anforderungen auf die Kosten auswirken. Azure Synapse: Sie können Rechen- und Speicherebenen unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
Data Factory oder Azure Synapse Analytics: Die Kosten basieren auf der Anzahl der Lese-/Schreibvorgänge, Überwachungsvorgänge und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge steigen Ihre Kosten.
Delphix CC: Im Gegensatz zu anderen Datenkonformitätsprodukten auf dem Markt erfordert die Maskierung keine vollständige physische Kopie der zu maskierenden Umgebung. Die Umgebungs redundanz kann aufgrund der Zeit, die Infrastruktur, die Kosten der Infrastruktur selbst und die Zeit, die wiederholte Laden physischer Daten in die Maskierungsumgebung verbracht hat, sehr teuer sein.
Effiziente Leistung
Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Übersicht über die Säule „Leistungseffizienz“.
Delphix CC ist horizontal und vertikal skalierbar. Die Transformationen finden im Speicher statt und können parallelisiert werden. Das Produkt läuft sowohl als Service als auch als Multi-Node-Appliance und ermöglicht je nach Anwendung Lösungsarchitekturen aller Größen. Delphix ist Marktführer bei der Bereitstellung extrem großer maskierter Datensätze.
Masking-Streams können erhöht werden, um mehrere CPU-Kerne in einen Job einzubeziehen. (Konfigurationsempfehlungen und Details zur Änderung der Speicherzuweisung finden Sie hier: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/).
Für optimale Leistung für Datasets, die größer als 1 TB sind, löst Delphix Hyperscale Masking die großen und komplexen Datasets in zahlreiche Module um und koordiniert dann die Maskierungsaufträge über mehrere Fortlaufende Compliance-Engines.
Bereitstellen dieses Szenarios
- Bereitstellen des Delphix CC-Moduls in Azure
- Stellen Sie in Data Factory die Data Factory-Vorlagen Delphix Continuous Compliance: Profiling (Delphix CC Profiling) und Delphix Continuous Compliance: Masking (Delphix CC Masking) bereit. Diese Vorlagen funktionieren sowohl für Azure Synapse Analytics- als auch für Azure Data Factory-Pipelines.
- Konfigurieren Sie in den Komponenten zum Kopieren von Daten die gewünschten Quell- und Zieldatenspeicher. Geben Sie in den Webaktivitätskomponenten die IP-Adresse / den Hostnamen der Delphix-Anwendung und die Anmeldeinformationen ein, um sich bei den Delphix CC-APIs zu authentifizieren.
- Führen Sie die Delphix CC Profiling Data Factory-Vorlage für die ersteinrichtung aus, und jederzeit, wenn Sie vertrauliche Daten erneut identifizieren möchten (z. B. wenn eine Schemaänderung aufgetreten ist). Diese Vorlage stellt Delphix CC die Anfangskonfiguration zur Verfügung, die erforderlich ist, um nach Spalten zu suchen, die möglicherweise sensible Daten enthalten.
- Erstellen Sie einen Regelsatz, der die Sammlung von Daten angibt, die Sie profilieren möchten. Führen Sie einen Profil-Auftrag in der Delphix-Benutzeroberfläche aus, um sensible Felder für diesen Regelsatz zu identifizieren und zu klassifizieren und geeignete Maskierungsalgorithmen zuzuweisen.
- Überprüfen und Ändern von Ergebnissen auf dem Bildschirm Inventar wie gewünscht. Wenn Sie mit den Ergebnissen zufrieden sind und entsprechend maskieren möchten, erstellen Sie einen Maskierungsauftrag.
- Öffnen Sie in der Data Factory-Benutzeroberfläche die Delphix CC Masking Data Factory-Vorlage. Geben Sie die Maskierungsauftrags-ID aus dem obigen Schritt an und führen Sie dann die Vorlage aus.
- Am Ende dieses Schritts haben Sie maskierte Daten im Zieldatenspeicher Ihrer Wahl.
Hinweis
Sie benötigen die IP-Adresse und den Hostnamen der Delphix-Anwendung mit Anmeldeinformationen, um sich bei den Delphix-APIs zu authentifizieren.
Beitragende
Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:
Hauptautoren:
- Tess Maggio | Produktmanager 2
- Arun Saju | Leitender Techniker (Delphix)
- David Wells | Senior Director, Continuous Compliance Product Lead
Andere Mitwirkende:
- Jon Burchel | Senior Content Developer
- Abhishek Narain | Senior Program Manager
- Doug Smith | Global Practice Director, DevOps, CI/CD
- Michael Torok | Leitender Direktor, Community-Management Experience
Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.
Nächste Schritte
Siehe die folgenden Delphix-Ressourcen:
- Einrichtung mit Delphix CC
- Erfahren Sie mehr über die Verwendung von Delphix CC, um zu finden, wo vertrauliche Daten vorhanden sind
- Kunden anzeigen , die Delphix auf Azure verwenden
Erfahren Sie mehr über die wichtigsten Azure-Dienste in dieser Lösung:
- Was ist Azure Data Factory?
- Was ist Azure Synapse Analytics?
- Einführung in Azure Storage
- Was ist Azure Virtual Network?