Scrambling dat pro aplikaceSAPch
V mnoha podnicích je SAP nejdůležitější aplikací a primárním systémem záznamů pro širokou škálu dat. Společnosti musí být schopny využívat přehledná data pro analýzy ze systému SAP a jejích upstreamových/podřízených aplikací nákladově efektivním, škálovatelným a flexibilním způsobem. Společnosti zároveň musí zajistit, aby tato data byla v souladu s nesčetnými předpisy.
Architektura
V následující architektuře je popsáno použití aplikaceČko CC v datové továrně Azure nebo kanálu Azure Synapse k identifikaci a maskování citlivých dat.
Stáhněte si soubor aplikace Visio s touto architekturou.
Co je služba Azure Data Factory?
Azure Data Factory je plně spravovaná služba pro integraci dat bez serveru. Poskytuje bohaté vizuální prostředí pro integraci zdrojů dat s více než 100 integrovanými konektory bez dalších poplatků bez údržby. Snadné vytváření extrakce, transformace, načítání (ETL) a extrakce, načítání, transformace (ELT) zpracovává kód bez kódu v intuitivním prostředí nebo psát vlastní kód. Pak do Azure Synapse Analytics doručte integrovaná data, abyste mohli díky podnikovým přehledům odemknout výkon vašich dat.
Co je Continuous Compliance (Entityx CC)?
Společnost Entityx Continuous Compliance (Entityx CC) identifikuje citlivé informace a automatizuje maskování a zakódování dat. Nabízí rychlý, automatizovaný způsob, jak poskytovat zabezpečená data v organizacích.
Jak Řešení automatizace kompatibilních dat v Aplikaci Delx CC a Azure Data Factory?
Přesun zabezpečených dat je pro všechny organizace výzvou. Společnost Fabricx usnadňuje dosažení konzistentního dodržování předpisů dat, zatímco Azure Data Factory umožňuje bezproblémově připojovat a přesouvat data. Společně společnost Soběx CC a Azure Data Factory kombinují špičkové nabídky pro dodržování předpisů a automatizaci, které usnadňují doručování dat na vyžádání, která vyhovují předpisům pro všechny uživatele.
Pomocí konektorů zdroje dat nabízených službou Azure Data Factory jsme vytvořili kanál ETL, který koncovému uživateli umožňuje automatizovat následující kroky:
- Čtení dat ze systému záznamů (SAP HANA) a jejich zápis do souborů CSV ve službě Azure Storage
- Spusťte úlohu maskování Aplikace Delx vůči souborům, která nahradí citlivé datové prvky podobnými, ale fiktivními hodnotami.
- Načtěte kompatibilní data do Azure Synapse Analytics.
Tok dat
Data procházejí tímto scénářem:
- Azure Data Factory extrahuje data ze zdrojového úložiště dat (SAP HANA) do kontejneru ve službě Azure Files pomocí aktivity Kopírování dat. Tento kontejner se označuje jako kontejner zdrojových dat a data jsou ve formátu CSV. Pokud chcete používat konektor SAP HANA, Microsoft doporučuje používat místní prostředí Integration Runtime. Další informace najdete v tomto návodu .
- Datová továrna inicializuje iterátor (aktivitu ForEach), který prochází seznam úloh maskování nakonfigurovaných v rámci Aplikace Chillx. Tyto úlohy maskování budou předem nakonfigurované a budou maskovat citlivá data v kontejneru zdrojových dat.
- Pro každou úlohu v seznamu se aktivita Inicializovat maskování ověřuje a iniciuje úlohu maskování voláním koncových bodů rozhraní REST API v modulu Cc Engine Společnosti Bingx.
- Modul Modulu Kopie Aplikace Delx čte data ze zdrojového kontejneru dat a prochází procesem maskování.
- V tomto procesu maskování Maskx maskuje data v paměti a zapíše výsledná maskovaná data zpět do cílového kontejneru Azure Files (označovaného jako cílový kontejner dat).
- Datová továrna teď inicializuje druhý iterátor (aktivitu ForEach), který monitoruje provádění.
- U každého spuštění (úloha maskování), která byla spuštěna, zkontroluje aktivita Kontrola stavu výsledek maskování.
- Po úspěšném dokončení všech úloh maskování načte datová továrna maskovaná data z cílového kontejneru dat do Azure Synapse Analytics.
Komponenty
- Azure Data Factory je služba extrakce, transformace a načítání (ETL) pro integraci bezserverových dat a transformaci dat se škálováním na více instancí. Nabízí uživatelské rozhraní bez kódu pro intuitivní vytváření a monitorování a správu prostřednictvím jednoho podokna.
- Azure Storage ukládá data extrahovaná z úložišť dat sourandce a maskovaná data, která se načtou do cílových úložišť dat.
- Skupiny prostředků jsou logickým kontejnerem pro prostředky Azure. Skupiny prostředků uspořádají všechno, co souvisí s tímto projektem v konzole Azure.
- Musí být nastaven místní prostředí Integration Runtime a pro extrakci dat ze SAP HANA musí být nainstalovaný ovladač ODBC SAP HANA.
- Volitelné: Azure Virtual Network poskytuje možnosti privátní sítě pro prostředky Azure, které nejsou součástí pracovního prostoru Azure Synapse. Umožňuje spravovat přístup, zabezpečení a směrování mezi prostředky.
Potenciální případy použití
- Automatické přesouvání kompatibilních dat z aplikací SAP (architektura popsaná tady je specifická pro aplikace SAP s back-endem HANA) do Microsoft Synapse, aby mohli analytici získat data, která potřebují k testování, a to cenově citlivým, rychlým a škálovatelným způsobem. Proveďte miliony operací scramblingu v minutách.
- Automaticky umístěte vyčerpávající architekturu Algoritmus Společnosti Apple, aby fungovala vyřešování veškerých zákonných požadavků na vaše data (například kvůli dodržování obecného nařízení o ochraně osobních údajů (GDPR), ÚSTŘEDNÍ PROTISTRANY, LGPD a HIPAA).
- Maskování a zakódování dat konzistentně napříč zdroji dat a zachování referenční integrity pro integrované testování aplikací Například jméno George musí být vždy maskováno na Elliot nebo dané číslo sociálního pojištění (SSN) musí být vždy maskováno do stejné fiktivní SSN, ať už se George a jeho SSN objeví v SAP, Oracle, Salesforce nebo jakékoli jiné aplikaci.
- Maskovat nebo zakódovat data způsobem, který nezvyšuje trénovací cykly a nemá vliv na přesnost modelu ani předpovědi.
- Nakonfigurujte řešení, které funguje pro místní i cloud, jednoduše změnou zdrojových konektorů. Můžete například vyžádat data z místní aplikace SAP, replikovat tato data do cloudu a zajistit dodržování předpisů před načtením do Synapse.
Klíčové výhody
- Realistický, deterministický maskování/scrambling, který udržuje referenční integritu
- Preemptivní identifikace citlivých dat pro nejběžnější tabulky a moduly SAP
- Nativní spuštění cloudu
- Nasazení založené na šablonách
- Škálovatelné
- Nízkonákladová alternativa k nákladnému hardwaru HANA v paměti
Začínáme
- Nasadíte modul Cc Společnosti Delx v Azure.
- Ve službě Azure Data Factory nasaďte maskování dat pomocí šablon TypuX a Zjišťování citlivých dat. Poznámka: Tyto šablony fungují pro kanály Azure Synapse Analytics i kanály Azure Data Factory.
- Nastavte místní prostředí Integration Runtime, jak je podrobně popsáno v tomto návodu k extrakci dat ze SAP HANA.
- V komponentách kopírování dat nakonfigurujte požadovaný zdroj jako SAP HANA v kroku Extrakce a Synapse jako požadovaný cíl v kroku Načtení. V komponentách webové aktivity zadejte IP adresu /název hostitele aplikace Předsadíx a přihlašovací údaje pro ověření pomocí rozhraní API cc společnosti Santorinx.
- Spusťte zjišťování citlivých dat pomocí šablony Služby Azure Data Factory Pro počáteční nastavení a kdykoli chcete předem identifikovat citlivá data (například pokud došlo ke změně schématu). Tato šablona poskytuje aplikaci Exportx CC s počáteční konfigurací, kterou vyžaduje, abyste hledali sloupce, které můžou obsahovat citlivá data. Můžete to také použít společně s akcelerátorem dodržování předpisů Pro SAP, předem identifikovanými citlivými poli a maskovacími algoritmy k ochraně dat v základních tabulkách SAP, například v modulech Finance, HR a Logistics. Pokud vás zajímá tato možnost, obraťte se na Aplikace Delx.
- Vytvořte sadu pravidel , která označuje kolekci dat, která chcete profilovat. Spusťte úlohu profilace v uživatelském rozhraní Společnosti Předsud a identifikujte a klasifikujte citlivá pole pro danou sadu pravidel a přiřaďte příslušné algoritmy maskování.
- Spusťte šablonu. Po dokončení budete mít v Azure Synapse Analytics maskovaná data (jak je uvedeno u hlavních tabulek nebo modulů pomocí akcelerátoru dodržování předpisů Společnosti Sap) Pro Sap.
Důležité informace
Tyto aspekty implementují pilíře dobře architektuře Azure, což je sada hlavních principů, které je možné použít ke zlepšení kvality úlohy. Další informace naleznete v tématu Microsoft Azure Well-Architected Framework.
Zabezpečení
Zabezpečení poskytuje záruky proti záměrným útokům a zneužití cenných dat a systémů. Další informace najdete v tématu Přehled pilíře zabezpečení.
Program Deltax CC nevratně maskuje datové hodnoty realistickými daty, která zůstávají plně funkční a umožňují vývoj kódu vyšší kvality. Mezi bohatou sadu algoritmů, které jsou k dispozici pro transformaci dat na specifikace uživatelů, Má Patentovaný algoritmus, který záměrně vytváří kolize dat a současně umožňuje solit data s konkrétními hodnotami potřebnými pro potenciální ověřovací rutiny spuštěné v maskované sadě dat. Z nulová důvěra (Zero Trust) perspektivy operátory nepotřebují přístup k skutečným datům, aby je mohli maskovat. Kromě toho je možné automatizovat celé doručování maskovaných dat z bodu A do bodu B prostřednictvím rozhraní API.
Optimalizace nákladů
Optimalizace nákladů se zabývá způsoby, jak snížit zbytečné výdaje a zlepšit efektivitu provozu. Další informace najdete v tématu Přehled pilíře optimalizace nákladů.
Když upravíte hodnoty cenové kalkulačky Azure, uvidíte, jak konkrétní požadavky ovlivňují náklady.
Azure Synapse: Úrovně výpočetních prostředků a úložiště můžete škálovat nezávisle na sobě. Výpočetní prostředky se účtují každou hodinu a tyto prostředky můžete škálovat nebo pozastavit na vyžádání. Prostředky úložiště se účtují na terabajt, takže se vaše náklady zvýší, jakmile ingestujete další data.
Data Factory: Náklady vycházejí z počtu operací čtení a zápisu, operací monitorování a aktivit orchestrace provedených v úloze. Náklady na datovou továrnu se zvýší s každým dalším datovým proudem a objemem dat zpracovaných jednotlivými datovými proudy.
Zdroje dat CC: Na rozdíl od jiných produktů pro dodržování předpisů dat na trhu maskování nevyžaduje maskování úplné fyzické kopie prostředí. Redundance prostředí může být náročná z důvodu doby nastavení a údržby infrastruktury, nákladů na samotnou infrastrukturu a času stráveného opakovaným načítáním fyzických dat do prostředí maskování.
Efektivita výkonu
Efektivita výkonu je schopnost úlohy škálovat se tak, aby efektivním způsobem splňovala požadavky, které na ni kladou uživatelé. Další informace najdete v tématu Přehled pilíře efektivity výkonu.
Aplikace Delx CC je horizontálně a svisle škálovatelná. Transformace probíhají v paměti a lze je paralelizovat. Produkt běží jako služba i jako zařízení s více uzly, které umožňuje architekturu řešení všech velikostí v závislosti na aplikaci. Předváděné velké maskované datové sady představují společnost Delx na trhu.
Datové proudy maskování je možné zvýšit, aby se v úloze zapojilo více jader procesoru. (Doporučení ke konfiguraci a postup změny přidělení paměti najdete tady: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/)
Kvůli optimálnímu výkonu datových sad větších než 1 TB rozdělí Maskování Hyperscale velké a složité datové sady do mnoha modulů a potom orchestruje úlohy maskování napříč několika moduly pro zajištění nepřetržitého dodržování předpisů.
Přispěvatelé
Tento článek napsali následující přispěvatelé.
Hlavní autoři:
- Tess Maggio – Produktový manažer 2
- Arun Saju – vedoucí pracovník
- Mick Shieh – SAP Global Practice Leader
Další přispěvatelé:
- Michael Torok – vedoucí ředitel digitálního zákaznického prostředí
- Abhishek Narain - vedoucí programový manažer
- Jon Burchel – vedoucí vývojář obsahu