Använda Delphix för datamaskering i Azure Data Factory och Azure Synapse Analytics

Azure Data Factory
Azure Synapse Analytics

Följande arkitektur beskriver användningen av Delphix Continuous Compliance (Delphix CC) i en Azure Data Factory-pipeline för att extrahera, transformera och läsa in (ETL) för att identifiera och maskera känsliga data.

Arkitektur

Diagram som visar Arkitekturen för Delphix CC.

Ladda ned en Visio-fil med den här arkitekturen.

Kommentar

Den här lösningen är specifik för Azure Data Factory och Azure Synapse Analytics-pipelines. Mallarna Delphix CC Profiling och Delphix CC Masking är ännu inte tillgängliga för Microsoft Fabric Data Factory. Kontakta perforce Delphix-kontorepresentanten om Microsoft Fabric-supporten.

Dataflöde

Följande dataflöde motsvarar föregående diagram:

  1. Data Factory extraherar data från källdatalager till en container i Azure Files med hjälp av aktiviteten Kopiera data. Den här containern kallas för källdatacontainern och data är i CSV-format.

  2. Data Factory initierar en iterator (ForEach-aktivitet) som loopar igenom en lista över maskeringsjobb som konfigurerats i Delphix. Dessa förkonfigurerade maskeringsjobb maskerar känsliga data i källdatacontainern.

  3. För varje jobb i listan autentiserar aktiviteten Initiera maskering och initierar maskeringsjobbet genom att anropa REST API-slutpunkterna på Delphix CC-motorn.

  4. Delphix CC-motorn läser data från källdatacontainern och körs genom maskeringsprocessen.

  5. I den här maskeringsprocessen maskerar Delphix data i minnet och skriver tillbaka resulterande maskerade data till en Azure Files-målcontainer, som kallas för måldatacontainern.

  6. Data Factory initierar en andra iterator (ForEach-aktivitet) som övervakar implementeringarna.

  7. För varje implementering (maskeringsjobb) som startas kontrollerar checkstatusaktiviteten resultatet av maskeringen.

  8. När alla maskeringsjobb har slutförts läser Data Factory in maskerade data från måldatacontainern till det angivna målet.

Komponenter

  • Data Factory är en ETL-tjänst för skalbar serverlös dataintegrering och datatransformering. Det ger ett kodfritt användargränssnitt för intuitiv redigering och enhetlig övervakning och hantering. I den här arkitekturen samordnar Data Factory hela arbetsflödet för datamaskering. Det här arbetsflödet omfattar att extrahera data, initiera maskeringsjobb, övervaka åtgärder och läsa in maskerade data i mållager.

  • Azure Synapse Analytics är en analystjänst som kombinerar dataintegrering, lagring av företagsdata och stordataanalys. I den här arkitekturen kan Azure Synapse Analytics fungera som mål för maskerade data och innehåller Data Factory-pipelines för dataintegrering.

  • Azure Storage är en molnbaserad lösning som tillhandahåller skalbar lagring för både strukturerade och ostrukturerade data. I den här arkitekturen lagras både rådata och maskerade utdata. Azure Storage fungerar som mellanlagringslager för data som läses in i måldatalager.

  • Azure Virtual Network är en privat, isolerad nätverksmiljö i Azure. I den här arkitekturen tillhandahåller Virtual Network privata nätverksfunktioner för Azure-resurser som inte ingår i Azure Synapse Analytics-arbetsytan. Det gör att du kan hantera åtkomst, säkerhet och routning mellan resurser.

  • Andra komponenter kan innehålla olika käll- och måldatalager, beroende på det specifika användningsfallet. Dessa komponenter integreras i arkitekturen baserat på de datakällor som du använder, till exempel SAP, Salesforce eller Oracle EBS.

Alternativ

Du kan också utföra datafördunkling med hjälp av Microsoft Presidio. Mer information finns i Presidio-dataskydd och SDK för avidentifiering.

Information om scenario

Datavolymen har ökat snabbt under de senaste åren. För att låsa upp det strategiska värdet för data måste det vara dynamiskt och portabelt. Data i silor begränsar dess strategiska värde och är svåra att använda i analyssyfte.

Att dela upp datasilor innebär utmaningar:

  • Data måste manipuleras så att de passar ett gemensamt format. ETL-pipelines måste anpassas till varje registersystem och måste skalas för att stödja de massiva datamängderna i moderna företag.

  • Efterlevnad av regler för känslig information måste upprätthållas när data flyttas från arkivhandlingssystem. Kunddata och andra känsliga element måste döljas utan att påverka affärsvärdet för datamängden.

Vad är Data Factory?

Data Factory är en hanterad, serverlös dataintegreringstjänst. Det ger en visuell upplevelse för att integrera datakällor med mer än 100 inbyggda, underhållsfria anslutningsappar utan extra kostnad. Skapa enkelt ETL och extrahera, läsa in, transformera (ELT) bearbetar kodfritt i en intuitiv miljö eller skriv din egen kod. Om du vill frigöra dina datas kraft genom affärsinsikter kan du leverera integrerade data till Azure Synapse Analytics. Azure Synapse Analytics innehåller även Data Factory-pipelines.

Vad är Delphix CC?

Delphix CC identifierar känslig information och automatiserar datamaskering. Det erbjuder ett automatiserat, API-drivet sätt att tillhandahålla säkra data.

Hur löser Delphix CC och Data Factory automatisering av kompatibla data?

Delphix förenklar dataefterlevnad, medan Data Factory möjliggör dataintegrering och förflyttning. Tillsammans kombinerar Delphix och Data Factory branschledande efterlevnads- och automatiseringserbjudanden för att förenkla leveransen av data som är kompatibla på begäran.

Den här lösningen använder Data Factory-anslutningsappar för datakällor för att skapa två ETL-pipelines som automatiserar följande steg:

  • Läs data från postsystemet och skriv dem till CSV-filer i Azure Blob Storage.

  • Ange Delphix CC med krav för att identifiera kolumner som kan innehålla känsliga data och tilldela lämpliga maskeringsalgoritmer.

  • Kör ett Delphix-maskeringsjobb mot filerna för att ersätta känsliga dataelement med liknande men fiktiva värden.

  • Läs in kompatibla data till datalager som stöds av Data Factory.

Potentiella användningsfall

Aktivera Azure-datatjänster för branschspecifika lösningar på ett säkert sätt

  • Identifiera och maskera känsliga data i stora och komplexa program, där kunddata annars är svåra att identifiera. Delphix gör det möjligt för användare att automatiskt flytta kompatibla data från källor som SAP, Salesforce och Oracle E-Business Suite (EBS) till tjänstlager med högt värde, till exempel Azure Synapse Analytics.

  • Använd Microsoft Azure-anslutningsappar för att på ett säkert sätt låsa upp, maskera och migrera dina data från valfri källa.

Lösa komplex regelefterlevnad för data

  • Använd Delphix Algorithm Framework för att hantera regelkrav för dina data.

  • Tillämpa dataklara regler för regelbehov, till exempel California Consumer Privacy Act (CCPA), Allmän dataskyddslag (Lei Geral de Proteção de Dados, LGPD) och Health Insurance Portability and Accountability Act (HIPAA).

Påskynda DevSecOps-skiftet till vänster

  • Tillhandahålla data i produktionsklass till dina utvecklings- och analyspipelines, till exempel Azure DevOps, Jenkins och Harness och andra automatiseringsarbetsflöden. Det gör du genom att maskera känsliga data i centraliserade Data Factory-pipelines.

  • Maskera data konsekvent mellan datakällor för att upprätthålla referensintegritet för integrerad programtestning. Till exempel måste namnet George alltid vara maskerat med Elliot. Eller så måste ett visst personnummer (SSN) alltid maskeras till samma SSN, oavsett om George och Georges SSN förekommer i Oracle, Salesforce eller SAP.

Påskynda ai- och maskininlärningsalgoritmträning med hjälp av kompatibel analys

  • Maskera data utan att öka träningscyklerna.

  • Behåll dataintegriteten vid maskering för att undvika att påverka modellens och förutsägelsenoggrannheten.

  • Använd en Data Factory- eller Azure Synapse Analytics-anslutningsapp för att underlätta ett visst användningsfall.

Viktiga fördelar

  • Universell anslutning
  • Realistisk, deterministisk maskering som upprätthåller referensintegritet
  • Förebyggande identifiering av känsliga data för viktiga företagsprogram
  • Implementering av internt moln
  • Mallbaserad distribution
  • Skalbarhet

Exempelarkitektur

I följande exempel visas hur du kan skapa en miljö för det här maskeringsanvändningsfallet.

Diagram över en exempelarkitektur.

I föregående exempelarkitektur finns följande komponenter:

  • Data Factory eller Azure Synapse Analytics matar in och ansluter till produktionsdata, avmaskerade data i landningszonen.
  • Data flyttas till mellanlagring av data i Storage.
  • Med en NFS-montering (Network File System) av produktionsdata till Delphix CC PODs kan pipelinen anropa Delphix CC-tjänsten.
  • Maskerade data returneras för distribution i Data Factory och lägre miljöer.

Att tänka på

Dessa överväganden implementerar grundpelarna i Azure Well-Architected Framework, som är en uppsättning vägledande grundsatser som du kan använda för att förbättra kvaliteten på en arbetsbelastning. Mer information finns iWell-Architected Framework.

Säkerhet

Säkerhet ger garantier mot avsiktliga attacker och missbruk av dina värdefulla data och system. Mer information finns i Checklista för designgranskning för säkerhet.

Delphix CC maskerar oåterkalleligt datavärden med realistiska data som förblir fullt funktionella, vilket möjliggör utveckling av kod av högre kvalitet. Bland de algoritmer som är tillgängliga för att omvandla data till användarspecifikationer har Delphix CC en patenterad algoritm. Algoritmen producerar avsiktligt datakollisioner och gör att du kan salta data med specifika värden som behövs för potentiella valideringsrutiner på den maskerade datamängden. Ur ett nollförtroendeperspektiv behöver operatorerna inte åtkomst till faktiska data för att maskera dem. Hela leveransen av maskerade data från punkt A till punkt B kan automatiseras via API:er.

Kostnadsoptimering

Kostnadsoptimering fokuserar på sätt att minska onödiga utgifter och förbättra drifteffektiviteten. Mer information finns i Checklista för designgranskning för kostnadsoptimering.

Om du vill se hur dina specifika krav påverkar kostnaden justerar du värdena i Priskalkylatorn för Azure.

Azure Synapse Analytics: Du kan skala beräknings- och lagringsnivåer oberoende av varandra. Beräkningsresurser debiteras per timme och du kan skala eller pausa dessa resurser på begäran. Lagringsresurser debiteras per terabyte, så dina kostnader ökar när du matar in data.

Data Factory eller Azure Synapse Analytics: Kostnaderna baseras på antalet läs- och skrivåtgärder, övervakningsåtgärder och orkestreringsaktiviteter för varje arbetsbelastning. Kostnaderna ökar med varje extra dataström och mängden data som var och en bearbetar.

Delphix CC: Till skillnad från andra produkter för dataefterlevnad kräver Delphix inte en fullständig fysisk kopia av miljön för att utföra maskering.

Miljöredundans kan vara dyrt på grund av flera orsaker:

  • Den tid det tar att konfigurera och underhålla infrastrukturen
  • Kostnaden för själva infrastrukturen
  • Den tid som du lägger på att läsa in fysiska data upprepade gånger i maskeringsmiljön

Prestandaeffektivitet

Prestandaeffektivitet syftar på arbetsbelastningens förmåga att skala för att effektivt uppfylla användarnas krav. Mer information finns i Checklista för designgranskning för prestandaeffektivitet.

Delphix CC är vågrätt och lodrätt skalbart. Omvandlingarna sker i minnet och kan parallelliseras. Produkten körs både som en tjänst och som en installation med flera noder, så att du kan utforma lösningsarkitekturer av valfri storlek baserat på programmet. Delphix är marknadsledar när det gäller att leverera stora maskerade datamängder.

Maskeringsströmmar kan ökas för att engagera flera CPU-kärnor i ett jobb. Mer information om hur du ändrar minnesallokering finns i Skapa maskeringsjobb.

För optimala prestanda för datauppsättningar som är större än 1 TB delar Delphix Hyperscale Masking in datauppsättningarna i flera moduler och dirigerar sedan maskeringsjobben över flera kontinuerliga efterlevnadsmotorer.

Distribuera det här scenariot

  1. Distribuera Delphix CC-motorn i Azure.

  2. Distribuera både Delphix CC-profilering och Delphix CC Masking-mallar i Data Factory. Dessa mallar fungerar för både Azure Synapse Analytics- och Data Factory-pipelines.

  3. I komponenterna Kopiera data konfigurerar du önskade käll- och måldatalager. I webbaktivitetskomponenterna anger du IP-adressen eller värdnamnet för Delphix-programmet och autentiseringsuppgifterna för att autentisera med Delphix CC-API:er.

  4. Kör Mallen Delphix CC Profiling Data Factory för den första installationen och när du vill identifiera känsliga data igen, till exempel en schemaändring. Den här mallen tillhandahåller Delphix CC med den inledande konfigurationen som krävs för att söka efter kolumner som kan innehålla känsliga data.

  5. Skapa en regeluppsättning som anger den datainsamling som du vill profilera. Kör ett profileringsjobb i Användargränssnittet för Delphix för att identifiera och klassificera känsliga fält för den regeluppsättningen och tilldela lämpliga maskeringsalgoritmer.

  6. Granska och ändra resultatet från inventeringsskärmen efter behov. När du vill använda maskering skapar du ett maskeringsjobb.

  7. Öppna mallen Delphix CC Masking Data Factory i användargränssnittet för Data Factory. Ange maskeringsjobb-ID:t från föregående steg och kör sedan mallen.

  8. Maskerade data visas i valfritt måldatalager.

Kommentar

Du behöver Delphix-programmets IP-adress och värdnamn med autentiseringsuppgifter för att autentisera till Delphix-API:erna.

Deltagare

Microsoft ansvarar för den här artikeln. Följande deltagare skrev den här artikeln.

Huvudsakliga författare:

Övriga medarbetare:

Om du vill se linkedin-profiler som inte är offentliga loggar du in på LinkedIn.

Nästa steg

Se följande Delphix-resurser:

Läs mer om de viktigaste Azure-tjänsterna i den här lösningen: