Datenverschlüsselung für SAP-Anwendungen mithilfe von Delphix und Azure Data Factory
In vielen Unternehmen ist SAP die wichtigste unternehmenskritische Anwendung und das primäre Erfassungssystem für ein breites Spektrum von Daten. Unternehmen müssen auf kostengünstige, skalierbare und flexible Weise aufschlussreiche Daten für Analysen aus SAP und aus den entsprechenden Upstream-/Downstreamanwendungen nutzen können. Gleichzeitig müssen Unternehmen die Konformität dieser Daten mit unzähligen Vorschriften sicherstellen.
Aufbau
Die folgende Architektur skizziert die Verwendung von Delphix CC in einer Azure Data Factory- bzw. Azure Synapse-Pipeline, um sensible Daten zu identifizieren und zu maskieren.
Laden Sie eine Visio-Datei dieser Architektur herunter.
Was ist Azure Data Factory?
Azure Data Factory ist ein vollständig verwalteter, serverloser Datenintegrationsdienst. Es bietet ein reichhaltiges visuelles Erlebnis für die Integration von Datenquellen mit mehr als 100 integrierten, wartungsfreien Konnektoren ohne zusätzliche Kosten. Erstellen Sie ganz einfach ETL- (Extrahieren, Transformieren, Laden) und ELT-Prozesse (Extrahieren, Laden, Transformieren) ohne Code in einer intuitiven Umgebung oder schreiben Sie Ihren eigenen Code. Übermitteln Sie dann integrierte Daten an Azure Synapse Analytics, um das Potenzial Ihrer Daten durch Geschäftserkenntnisse freizusetzen.
Was ist Delphix Continuous Compliance (Delphix CC)?
Delphix Continuous Compliance (Delphix CC) identifiziert vertrauliche Informationen und automatisiert die Maskierung bzw. Verschlüsselung von Daten. Es bietet eine schnelle, automatisierte, API-gesteuerte Möglichkeit, sichere Daten bereitzustellen, die in Organisationen benötigt werden.
Wie automatisieren Delphix CC und Azure Data Factory die Gewährleistung konformer Daten?
Die Übertragung sicherer Daten ist eine Herausforderung für alle Organisationen. Delphix vereinfacht das Erreichen von konsistenter Datenkonformität, und Azure Data Factory ermöglicht nahtloses Verbinden und Verschieben von Daten. Zusammen kombinieren Delphix CC und Azure Data Factory branchenführende Compliance- und Automatisierungsangebote, um die Bereitstellung konformer On-Demand-Daten für alle Benutzer zu vereinfachen.
Unter Verwendung der von Azure Data Factory bereitgestellten Datenquellenconnectors haben wir eine ETL-Pipeline erstellt, die Endbenutzern die Automatisierung folgender Schritte ermöglicht:
- Lesen von Daten aus dem Erfassungssystem (SAP HANA) und Schreiben der Daten in CSV-Dateien in Azure Storage
- Führen Sie einen Delphix-Maskierungsjob für die Dateien aus, um sensible Datenelemente durch ähnliche, aber fiktive Werte zu ersetzen.
- Laden der konformen Daten in Azure Synapse Analytics
Datenfluss
Die Daten durchlaufen das Szenario wie folgt:
- Azure Data Factory extrahiert mithilfe der Aktivität „Daten kopieren“ Daten aus dem Quelldatenspeicher (SAP HANA) in einen Container in Azure Files. Dieser Container wird als Quelldatencontainer bezeichnet und die Daten liegen im CSV-Format vor. Für die Verwendung des SAP HANA-Connectors empfiehlt Microsoft die Verwendung einer selbstgehosteten Integration Runtime. Weitere Informationen finden Sie in dieser Anleitung.
- Data Factory initiiert einen Iterator (ForEach-Aktivität), der eine Liste von in Delphix konfigurierten Maskierungsaufträgen durchläuft. Diese Maskierungsaufträge werden vorkonfiguriert und maskieren sensible Daten, die im Quelldatencontainer vorhanden sind.
- Für jeden Job in der Liste authentifiziert und initiiert die Aktivität Initiate Masking den Maskierungsjob durch Aufrufen der REST-API-Endpunkte auf der Delphix CC Engine.
- Die Delphix CC Engine liest Daten aus dem Quelldatencontainer und durchläuft den Maskierungsprozess.
- Bei diesem Maskierungsprozess maskiert Delphix Daten im Arbeitsspeicher und schreibt die resultierenden maskierten Daten zurück in einen Azure-Dateicontainer (als Zieldatencontainer bezeichnet).
- Data Factory initiiert nun einen zweiten Iterator (ForEach-Aktivität), der die Ausführungen überwacht.
- Für jede gestartete Ausführung (Maskierungsjob) überprüft die Aktivität Status prüfen das Ergebnis der Maskierung.
- Nach erfolgreichem Abschluss aller Maskierungsaufträge lädt Data Factory die maskierten Daten aus dem Zieldatencontainer in Azure Synapse Analytics.
Komponenten
- Azure Data Factory ist ein ETL-Dienst (Extrahieren, Transformieren und Laden) für die serverlose Datenintegration und Datentransformation mit horizontaler Skalierung. Der Dienst bietet eine Benutzeroberfläche ohne Code für die intuitive Erstellung sowie Überwachung und Verwaltung über eine zentrale Konsole.
- Azure Storage speichert die aus den Quelldatenspeichern extrahierten Daten und die maskierten Daten, die in die Zieldatenspeicher geladen werden.
- Ressourcengruppen sind ein logischer Container für Azure-Ressourcen. Ressourcengruppen strukturieren alles im Zusammenhang mit diesem Projekt in der Azure-Konsole.
- Eine selbstgehostete Integration Runtime muss eingerichtet sein, und ein SAP HANA-ODBC-Treiber muss für die Datenextraktion aus SAP HANA installiert werden.
- Optional: Azure Virtual Network bietet private Netzwerkfunktionen für Azure-Ressourcen, die nicht Teil des Azure Synapse-Arbeitsbereichs sind. Dies ermöglicht die Verwaltung des Zugriffs, der Sicherheit und des Routings zwischen Ressourcen.
Mögliche Anwendungsfälle
- Verschieben Sie konforme Daten aus SAP-Anwendungen (hier wird eine spezifische Architektur für SAP-Anwendungen mit einem HANA-Back-End beschrieben) in Microsoft Synapse, um Analysten die für Tests benötigten Daten kostengünstig, schnell und skalierbar zur Verfügung zu stellen. Führen Sie innerhalb von Minuten Millionen von Verschlüsselungsvorgängen durch.
- Nutzen Sie automatisch das umfassende Delphix-Algorithmus-Framework, um alle gesetzlichen Anforderungen für Ihre Daten zu erfüllen (beispielsweise die Anforderungen der Datenschutz-Grundverordnung (DSGVO), CCPA, LGPD und HIPAA).
- Maskieren bzw. verschlüsseln Sie Daten konsistent über Datenquellen hinweg, und wahren Sie gleichzeitig die referenzielle Integrität für integrierte Anwendungstests. Beispiel: Der Name „George“ muss immer als „Elliot“ maskiert werden, oder eine bestimmte Sozialversicherungsnummer (social security number, SSN) muss immer als die gleiche fiktive SSN maskiert werden – unabhängig davon, ob George und seine SSN in SAP, Oracle, Salesforce oder in einer anderen Anwendung erscheinen.
- Maskieren bzw. verschlüsseln Sie Daten auf eine Weise, die die Trainingszyklen nicht erhöht und die sich nicht auf die Modell- oder Vorhersagegenauigkeit auswirkt.
- Konfigurieren Sie eine Lösung, die sowohl für die lokale Umgebung als auch für die Cloud geeignet ist, indem Sie einfach die Quellconnectors ändern. Beispielsweise können Sie Daten aus einer lokalen SAP-Anwendung pullen, diese Daten in der Cloud replizieren und die Konformität sicherstellen, bevor die Daten in Synapse geladen werden.
Hauptvorteile
- Realistische, deterministische Maskierung bzw. Verschlüsselung unter Wahrung der referenziellen Integrität
- Präventive Identifizierung sensibler Daten für die gängigsten SAP-Tabellen und -Module
- Systemeigene Cloudausführung
- Vorlagenbasierte Bereitstellung
- Skalierbar
- Kostengünstige Alternative zu teurer In-Memory-HANA-Hardware
Erste Schritte
- Stellen Sie die Delphix CC-Engine in Azure bereit.
- Stellen Sie in Azure Data Factory die Vorlagen für die Datenmaskierung mit Delphix und für die Ermittlung vertraulicher Daten mit Delphix bereit. Hinweis: Diese Vorlagen können sowohl für Azure Synapse Analytics-Pipelines als auch für Azure Data Factory-Pipelines verwendet werden.
- Richten Sie eine selbstgehostete Integration Runtime ein, wie in dieser Anleitung beschrieben, um Daten aus SAP HANA zu extrahieren.
- Konfigurieren Sie in den Komponenten zum Kopieren von Daten die gewünschte Quelle als SAP HANA (im Schritt „Extrahieren“) und Synapse als gewünschtes Ziel (im Schritt „Laden“). Geben Sie in den Webaktivitätskomponenten die IP-Adresse bzw. den Hostnamen der Delphix-Anwendung und die Anmeldeinformationen für die Authentifizierung mit Delphix CC-APIs ein.
- Führen Sie im Rahmen der Ersteinrichtung sowie immer dann, wenn Sie vorab vertrauliche Daten identifizieren möchten (etwa nach einer Schemaänderung), die Azure Data Factory-Vorlage für die Ermittlung vertraulicher Daten aus. Diese Vorlage stellt Delphix CC die Anfangskonfiguration zur Verfügung, die erforderlich ist, um nach Spalten zu suchen, die möglicherweise vertrauliche Daten enthalten. Dies kann auch mit dem Delphix Compliance Accelerator für SAP, vorab identifizierten vertraulichen Feldern und Maskierungsalgorithmen kombiniert werden, um Daten in SAP-Kerntabellen zu schützen. Beispiele wären etwa Finanz-, Personal- und Logistikmodule. Wenden Sie sich an Delphix, wenn Sie an dieser Option interessiert sind.
- Erstellen Sie einen Regelsatz , der die Sammlung von Daten angibt, die Sie profilieren möchten. Führen Sie einen Profil-Auftrag in der Delphix-Benutzeroberfläche aus, um sensible Felder für diesen Regelsatz zu identifizieren und zu klassifizieren und geeignete Maskierungsalgorithmen zuzuweisen.
- Führen Sie die Vorlage aus. Nach Abschluss des Vorgangs verfügen Sie in Azure Synapse Analytics über maskierte Daten (gemäß Vorabidentifizierung für die wichtigsten Tabellen/Module durch den Delphix Compliance Accelerator für SAP).
Überlegungen
Diese Überlegungen beruhen auf den Säulen des Azure Well-Architected Frameworks, d. h. einer Reihe von Grundsätzen, mit denen die Qualität von Workloads verbessert werden kann. Weitere Informationen finden Sie unter Microsoft Azure Well-Architected Framework.
Sicherheit
Sicherheit bietet Schutz vor vorsätzlichen Angriffen und dem Missbrauch Ihrer wertvollen Daten und Systeme. Weitere Informationen finden Sie unter Übersicht über die Säule „Sicherheit“.
Delphix CC maskiert Datenwerte irreversibel mit realistischen Daten, die voll funktionsfähig bleiben, wodurch die Entwicklung von Code höherer Qualität ermöglicht wird. Unter den zahlreichen verfügbaren Algorithmen von Delphix CC zum Transformieren von Daten gemäß Benutzerspezifikationen befindet sich auch ein patentierter Algorithmus, der absichtlich Datenkonflikte erzeugt und gleichzeitig das Salting von Daten mit bestimmten Werten ermöglicht, die für potenzielle Validierungsroutinen erforderlich sind, die für das maskierte Dataset ausgeführt werden. Aus der Zero-Trust-Perspektive benötigen Betreiber keinen Zugriff auf die eigentlichen Daten, um sie zu maskieren. Darüber hinaus kann die gesamte Zustellung maskierter Daten von Punkt A nach Punkt B über APIs automatisiert werden.
Kostenoptimierung
Bei der Kostenoptimierung geht es um die Suche nach Möglichkeiten, unnötige Ausgaben zu reduzieren und die Betriebseffizienz zu verbessern. Weitere Informationen finden Sie unter Übersicht über die Säule „Kostenoptimierung“.
Durch Anpassen der Werte im Azure-Preisrechner können Sie sehen, wie sich Ihre speziellen Anforderungen auf die Kosten auswirken.
Azure Synapse: Sie können Rechen- und Speicherebenen unabhängig voneinander skalieren. Computeressourcen werden auf Stundenbasis abgerechnet und können nach Bedarf skaliert oder angehalten werden. Speicherressourcen werden nach Terabyte abgerechnet. Ihre Kosten steigen also, wenn Sie mehr Daten erfassen.
Data Factory: Die Kosten basieren auf der Anzahl von Lese-/Schreibvorgängen, Überwachungsvorgängen und Orchestrierungsaktivitäten, die in einer Workload ausgeführt werden. Die Kosten für Ihre Data Factory erhöhen sich mit jedem weiteren Datenstrom und der jeweils verarbeiteten Datenmenge.
Delphix CC: Im Gegensatz zu anderen Datenkonformitätsprodukten auf dem Markt erfordert die Maskierung keine vollständige physische Kopie der zu maskierenden Umgebung. Umgebungsredundanz kann aufgrund des Zeitaufwands für die Einrichtung und Verwaltung der Infrastruktur sowie aufgrund der Kosten der Infrastruktur und des Zeitaufwands für das wiederholte Laden physischer Daten in die Maskierungsumgebung teuer sein.
Effiziente Leistung
Leistungseffizienz ist die Fähigkeit Ihrer Workload, auf effiziente Weise eine den Anforderungen der Benutzer entsprechende Skalierung auszuführen. Weitere Informationen finden Sie unter Übersicht über die Säule „Leistungseffizienz“.
Delphix CC ist horizontal und vertikal skalierbar. Die Transformationen finden im Speicher statt und können parallelisiert werden. Das Produkt läuft sowohl als Service als auch als Multi-Node-Appliance und ermöglicht je nach Anwendung Lösungsarchitekturen aller Größen. Delphix ist Marktführer bei der Bereitstellung umfangreicher maskierter Datasets.
Masking-Streams können erhöht werden, um mehrere CPU-Kerne in einen Job einzubeziehen. (Konfigurationsempfehlungen und Informationen zum Ändern der Speicherzuweisung finden Sie hier: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/)
Für optimale Leistung für Datasets, die größer als 1 TB sind, löst Delphix Hyperscale Masking die großen und komplexen Datasets in zahlreiche Module um und koordiniert dann die Maskierungsaufträge über mehrere Fortlaufende Compliance-Engines.
Beitragende
An diesem Artikel haben folgende Personen mitgewirkt:
Hauptautoren:
- Tess Maggio – Product Manager 2
- Arun Saju – Senior Staff Engineer
- Mick Shieh – SAP Global Practice Leader
Andere Mitwirkende:
- Michael Torok – Senior Director of Digital Customer Experience
- Abhishek Narain – Senior Program Manager
- Jon Burchel – Senior Content Developer
Nächste Schritte
- Einrichtung mit Delphix CC
- Informieren Sie sich über konsistente Datenmaskierung in SAP und in anderen Datenquellen.
- Kunden anzeigen , die Delphix auf Azure verwenden