I många företag är SAP det mest verksamhetskritiska programmet och det primära postsystemet för en mängd olika data. Företag måste kunna utnyttja insiktsfulla data för analys från både SAP och dess program uppströms/nedströms på ett kostnadseffektivt, skalbart och flexibelt sätt. Samtidigt måste företag också se till att dessa data följer otaliga regler.
Arkitektur
Följande arkitektur beskriver användningen av Delphix CC i en Azure-datafabrik/Azure Synapse-pipeline för att identifiera och maskera känsliga data.
Ladda ned en Visio-fil med den här arkitekturen.
Vad är Azure Data Factory?
Azure Data Factory är en fullständigt hanterad, serverlös dataintegreringstjänst. Det ger en omfattande visuell upplevelse för att integrera datakällor med mer än 100 inbyggda, underhållsfria anslutningsappar utan extra kostnad. Skapa enkelt extrahering, transformering, inläsning (ETL) och extrahering, inläsning, transformering (ELT) bearbetar kodfritt i en intuitiv miljö eller skriver din egen kod. Leverera sedan integrerade data till Azure Synapse Analytics för att låsa upp dina datas kraft genom affärsinsikter.
Vad är Delphix Continuous Compliance (Delphix CC)?
Delphix Continuous Compliance (Delphix CC) identifierar känslig information och automatiserar datamaskering/förvrängning. Det erbjuder ett snabbt, automatiserat, API-drivet sätt att tillhandahålla säkra data där de behövs i organisationer.
Hur löser Delphix CC och Azure Data Factory automatisering av kompatibla data?
Förflyttning av säkra data är en utmaning för alla organisationer. Delphix gör det enkelt att uppnå konsekvent dataefterlevnad medan Azure Data Factory möjliggör sömlös anslutning och flytt av data. Tillsammans kombinerar Delphix CC och Azure Data Factory branschledande efterlevnads- och automatiseringserbjudanden för att göra det enkelt för alla att leverera data på begäran.
Genom att använda de anslutningsappar för datakällor som erbjuds av Azure Data Factory har vi skapat en ETL-pipeline som gör att en slutanvändare kan automatisera följande steg:
- Läs data från sap hana-systemet och skriv dem till CSV-filer i Azure Storage.
- Kör ett Delphix-maskeringsjobb mot filerna för att ersätta känsliga dataelement med liknande men fiktiva värden.
- Läs in kompatibla data till Azure Synapse Analytics.
Dataflöde
Data flödar genom scenariot på följande sätt:
- Azure Data Factory extraherar data från källdatalagringen (SAP HANA) till en container i Azure Files med hjälp av aktiviteten Kopiera data. Den här containern kallas källdatacontainer och data är i CSV-format. Om du vill använda SAP HANA-anslutningsappen rekommenderar Microsoft att du använder en lokalt installerad integrationskörning. Mer information finns i den här guiden .
- Data factory initierar en iterator (ForEach-aktivitet) som loopar igenom en lista över maskeringsjobb som konfigurerats i Delphix. Dessa maskeringsjobb är förkonfigurerade och maskerar känsliga data som finns i källdatacontainern.
- För varje jobb i listan autentiserar aktiviteten Initiera maskering och initierar maskeringsjobbet genom att anropa REST API-slutpunkterna på Delphix CC Engine.
- Delphix CC Engine läser data från källdatacontainern och går igenom maskeringsprocessen.
- I den här maskeringsprocessen maskerar Delphix data i minnet och skriver tillbaka resulterande maskerade data till en Azure Files-målcontainer (kallas måldatacontainer).
- Data factory initierar nu en andra iterator (ForEach-aktivitet) som övervakar körningarna.
- För varje körning (maskeringsjobb) som startades kontrollerar checkstatusaktiviteten resultatet av maskering.
- När alla maskeringsjobb har slutförts läser datafabriken in maskerade data från måldatacontainern till Azure Synapse Analytics.
Komponenter
- Azure Data Factory är en ETL-tjänst (extract, transform, load) för skalbar serverlös dataintegrering och datatransformering. Tjänsten har ett kodlöst användargränssnitt för intuitiv redigering och enkel övervakning och hantering.
- Azure Storage lagrar data som extraheras från sourandce-datalager och de maskerade data som ska läsas in i måldatalager.
- Resursgrupper är en logisk container för Azure-resurser. Resursgrupper organiserar allt som är relaterat till det här projektet i Azure-konsolen.
- Lokalt installerad integrationskörning måste konfigureras och en SAP HANA ODBC-drivrutin måste installeras för dataextrahering från SAP HANA.
- Valfritt: Azure Virtual Network tillhandahåller privata nätverksfunktioner för Azure-resurser som inte ingår i Azure Synapse-arbetsytan. Det gör att du kan hantera åtkomst, säkerhet och routning mellan resurser.
Potentiella användningsfall
- Flytta automatiskt kompatibla data från SAP-program (arkitekturen som beskrivs här är specifik för SAP-program med en HANA-serverdel) till Microsoft Synapse för att få analytiker de data de behöver för testning på ett kostnadskänsligt, snabbt och skalbart sätt. Utför miljontals förvrängningsåtgärder på några minuter.
- Placera automatiskt det fullständiga ramverket för Delphix-algoritmen för att hantera eventuella regelkrav för dina data (till exempel för att uppfylla allmänna dataskyddsförordningar (GDPR), CCPA, LGPD och HIPAA).
- Maskera/förvränga data konsekvent mellan datakällor, samtidigt som referensintegriteten bibehålls för integrerad programtestning. Till exempel måste namnet George alltid vara maskerat med Elliot eller så måste ett visst personnummer (SSN) alltid maskeras till samma fiktiva SSN, oavsett om George och hans SSN visas i SAP, Oracle, Salesforce eller något annat program.
- Maskera/förvränga data på ett sätt som inte ökar träningscyklerna och som inte påverkar modellens eller förutsägelsenoggrannheten.
- Konfigurera en lösning som fungerar både lokalt och i molnet, helt enkelt genom att ändra källanslutningarna. Man kan till exempel hämta data från ett lokalt SAP-program, replikera dessa data till molnet och säkerställa efterlevnad innan de läses in i Synapse.
Viktiga fördelar
- Realistisk, deterministisk maskering/förvrängning som upprätthåller referensintegritet
- Förebyggande identifiering av känsliga data för de vanligaste SAP-tabellerna och modulerna
- Intern molnkörning
- Mallbaserad distribution
- Skalbarhet
- Billiga alternativ till dyr minnesintern HANA HW
Komma igång
- Distribuera Delphix CC Engine i Azure.
- I Azure Data Factory distribuerar du datamaskering med Delphix och Identifiering av känsliga data med Delphix-mallar. Obs! Dessa mallar fungerar för både Azure Synapse Analytics-pipelines och Azure Data Factory-pipelines.
- Konfigurera en lokalt installerad integrationskörning enligt beskrivningen i den här guiden för att extrahera data från SAP HANA.
- I komponenterna Kopiera data konfigurerar du den önskade källan som SAP HANA i steget Extrahera och Synapse som önskat mål i steget Läs in. I webbaktivitetskomponenterna anger du IP-adressen/värdnamnet för Delphix-programmet och autentiseringsuppgifterna för att autentisera med Delphix CC-API:er.
- Kör mallen Känslig dataidentifiering med Delphix Azure Data Factory för den första installationen och när som helst du vill föridentifiering av känsliga data (till exempel om det har skett en schemaändring). Den här mallen ger Delphix CC den inledande konfiguration som krävs för att söka efter kolumner som kan innehålla känsliga data. Du kan också använda detta tillsammans med Delphix Efterlevnadsaccelerator för SAP, föridentifierade känsliga fält och maskeringsalgoritmer för att skydda data i kärn-SAP-tabeller, till exempel modulerna Ekonomi, HR och Logistik. Kontakta Delphix om du är intresserad av det här alternativet.
- Skapa en regeluppsättning som anger vilken samling data du vill profilera. Kör ett profileringsjobb i Delphix-användargränssnittet för att identifiera och klassificera känsliga fält för den regeluppsättningen och tilldela lämpliga maskeringsalgoritmer.
- Kör mallen. När du är klar har du maskerade data (som föridentifierade för topptabeller/moduler av Delphix Efterlevnadsaccelerator för SAP) i Azure Synapse Analytics.
Att tänka på
Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som kan användas för att förbättra kvaliteten på en arbetsbelastning. Mer information finns i Microsoft Azure Well-Architected Framework.
Säkerhet
Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Översikt över säkerhetspelare.
Delphix CC maskerar oåterkalleligt datavärden med realistiska data som förblir fullt funktionella, vilket möjliggör utveckling av kod av högre kvalitet. Bland de omfattande algoritmer som är tillgängliga för att omvandla data till användarspecifikationer har Delphix CC en patenterad algoritm som avsiktligt genererar datakollisioner och samtidigt tillåter saltning av data med specifika värden som behövs för potentiella valideringsrutiner som körs på den maskerade datauppsättningen. Ur ett Nulta pouzdanost perspektiv behöver operatorerna inte åtkomst till faktiska data för att maskera dem. Dessutom kan hela leveransen av maskerade data från punkt A till punkt B automatiseras via API:er.
Kostnadsoptimering
Kostnadsoptimering handlar om att titta på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Översikt över kostnadsoptimeringspelare.
Genom att justera värden i Priskalkylatorn för Azure kan du se hur dina specifika krav påverkar kostnaden.
Azure Synapse: Du kan skala beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras per timme och du kan skala eller pausa dessa resurser på begäran. Lagringsresurser debiteras per terabyte, så dina kostnader ökar när du matar in mer data.
Data Factory: Kostnaderna baseras på antalet läs-/skrivåtgärder, övervakningsåtgärder och orkestreringsaktiviteter som utförs i en arbetsbelastning. Dina kostnader för datafabriken ökar med varje ytterligare dataström och mängden data som bearbetas av var och en.
Delphix CC: Till skillnad från andra produkter för dataefterlevnad på marknaden kräver maskering inte en fullständig fysisk kopia av miljön som maskeras. Miljöredundans kan vara dyrt på grund av tiden för att konfigurera och underhålla infrastrukturen, kostnaden för själva infrastrukturen och den tid som ägnas åt att upprepade gånger läsa in fysiska data i maskeringsmiljön.
Prestandaeffektivitet
Prestandaeffektivitet handlar om att effektivt skala arbetsbelastningen baserat på användarnas behov. Mer information finns i Översikt över grundpelare för prestandaeffektivitet.
Delphix CC är vågrätt och lodrätt skalbart. Omvandlingarna sker i minnet och kan parallelliseras. Produkten körs både som en tjänst och som en installation med flera noder som tillåter lösningsarkitekturer av alla storlekar beroende på programmet. Delphix är marknadsledar när det gäller att leverera stora maskerade datamängder.
Maskeringsströmmar kan ökas för att engagera flera CPU-kärnor i ett jobb. (Konfigurationsrekommendationer och hur du ändrar minnesallokering finns här: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/)
För optimala prestanda för datauppsättningar som är större än 1 TB i storlek delar Delphix Hyperskala Masking upp de stora och komplexa datauppsättningarna i flera moduler och samordnar sedan maskeringsjobben över flera kontinuerliga efterlevnadsmotorer.
Deltagare
Den här artikeln skrevs av följande deltagare.
Huvudsakliga författare:
- Tess Maggio – Produktchef 2
- Arun Saju – senior personaltekniker
- Mick Shieh – SAP Global Practice Leader
Övriga medarbetare:
- Michael Torok – Senior Director of Digital Customer Experience
- Abhishek Narain - Senior Program Manager
- Jon Burchel – senior innehållsutvecklare