使用 Delphix 和 Azure Data Factory 在 Azure 上混淆數據

Azure Data Factory
Azure Synapse Analytics

下列架構概述在 Azure Data Factory (ADF) 擷取、轉換和載入 (ETL) 管線中使用 Delphix 連續合規性,以識別和遮罩敏感數據。

架構

Diagram showing the Delphix Continuous Compliance architecture.

下載此架構的 Visio 檔案

資料流程

數據流會流經案例,如下所示:

  1. Azure Data Factory (ADF) 會使用複製數據活動,將數據從來源數據存放區擷取至 Azure 檔案記憶體中的容器。 此容器稱為源數據容器,且數據為 CSV 格式。
  2. ADF 會起始反覆運算器 (ForEach 活動),以迴圈查看 Delphix 內設定的遮罩作業清單。 這些遮罩作業將會預先設定,並將遮罩源數據容器中存在的敏感數據。
  3. 針對清單中的每個作業,起始遮罩活動會藉由呼叫 Delphix CC 引擎上的 REST API 端點來驗證和起始遮罩作業。
  4. Delphix CC 引擎會從源數據容器讀取數據,並透過遮罩程式執行。
  5. 在此遮罩程式中,Delphix 會遮罩記憶體中的數據,並將產生的遮罩數據寫回目標 Azure 檔案 儲存體 容器(稱為「目標數據容器」)。
  6. ADF 現在會起始第二個反覆運算器(ForEach 活動)來監視執行。
  7. 針對已啟動的每個執行 (遮罩作業),[檢查狀態] 活動會檢查遮罩的結果。
  8. 所有遮罩作業都成功完成之後,ADF 會將遮罩的數據從目標數據容器載入至指定的目的地。

元件

  • Azure Data Factory 是 Azure 的雲端擷取、轉換和載入 (ETL) 服務,可用於向外延展無伺服器數據整合和數據轉換。 它提供無程式代碼UI,用於直覺式撰寫和單一玻璃監視和管理。
  • Azure Synapse Analytics 是一項分析服務,可將數據整合、企業數據倉儲和巨量數據分析整合在一起。 其中包含 Azure Data Factory 管線以提供數據整合。
  • Azure 儲存體 會儲存從來源數據存放區擷取的數據,以及將載入目的地資料存放區(s) 的遮罩數據。
  • 選用:Azure 虛擬網絡 為不屬於 Azure Synapse 工作區的 Azure 資源提供專用網功能。 它可讓您管理資源之間的存取、安全性和路由。
  • 其他元件:根據作為來源和目的地的數據存放區,可能需要新增其他元件。 這些數據存放區會根據您的需求而有所不同。

替代項目

您也可以使用 Microsoft Presidio 執行數據混淆。 在 GitHub 上的 Presidio - 資料保護和取消識別 SDK 中深入瞭解此選項

案例詳細資料

近年來數據激增。 若要解除鎖定數據的戰略價值,它必須是動態和可攜式。 在尋址接收器中的數據會限制其策略價值,而且難以用於分析目的。

細分數據尋址接收器很困難:

  • 數據必須經過操作,才能符合一般格式。 ETL 管線必須適應每一個記錄系統,而且必須進行調整,以支援現代企業的大規模數據集。
  • 當數據從記錄系統移動時,必須維護與敏感性資訊相關的法規。 客戶內容和其他敏感性元素必須遮蔽,而不會影響數據集的商業價值。

什麼是 Azure Data Factory (ADF)?

Azure Data Factory 是完全受控、無伺服器的數據整合服務。 它提供豐富的視覺體驗,可整合數據源與超過100個內建、無維護連接器,不加任何成本。 在直覺的環境中,無須撰寫程式碼即可輕鬆建構 ETL 和 ELT 程序,也可選擇撰寫您自己的程式碼。 然後,將整合式數據傳遞給 Azure Synapse Analytics,以透過商務見解解除鎖定數據的力量。 Azure Synapse Analytics 也提供數據處理站管線。

什麼是 Delphix 連續合規性 (Delphix CC)?

Delphix 持續合規性 可識別敏感性資訊,並自動化數據遮罩。 它提供快速、自動化的 API 驅動方式,以在組織所需的位置提供安全數據。

Delphix CC 和 ADF 如何解決自動化相容數據的問題?

安全數據的移動對於所有組織來說都是一項挑戰。 Delphix 可讓您輕鬆達成一致的數據合規性,而 ADF 可順暢地連線和行動數據。 Delphix 和 ADF 結合業界領先的合規性和自動化供應專案,讓每個人都能輕鬆傳遞隨選且符合規範的數據。

藉由使用ADF所提供的數據源連接器,我們建立了兩個ETL管線,以自動化下列步驟:

  • 從記錄系統讀取數據,並將其寫入 Azure Blob 儲存體 上的 CSV 檔案。

  • 提供 Delphix 連續合規性,以識別可能包含敏感數據的數據行,並指派適當的遮罩演算法。

  • 對檔案執行 Delphix 遮罩作業,以類似但虛構的值取代敏感數據元素。

  • 將相容的數據載入任何ADF支援的數據存放區。

潛在的使用案例

保管庫 啟用適用於產業特定解決方案的 Azure Data Services

  • 識別和遮罩大型和複雜應用程式中的敏感數據,否則客戶內容會難以識別。 Delphix 可讓用戶自動將符合規範的數據從 SAP、Salesforce 和 Oracle EBS 等來源移至高價值服務層級,例如 Microsoft Synapse。
  • 使用 Microsoft Azure 所提供的強大且完整的連接器,安全地解除鎖定、遮罩及移轉您的數據,無論數據的來源為何。

解決數據的複雜法規合規性

  • 自動放置詳盡的 Delphix 演算法架構,以處理數據的任何法規需求。
  • 針對CCPA、LGPD、HIPAA等法規需求套用數據就緒規則。

加速左移 “DevSecOps”

  • 透過有系統且具決定性地遮罩中央 ADF 管線中的敏感數據,為您的開發人員和分析管線(Azure DevOps、Jenkins、Harness)和其他自動化工作流程配備生產等級數據。
  • 在數據源之間一致地遮罩數據,維護整合式應用程式測試的引用完整性。 例如,喬治的名稱一律必須遮罩為Elliot,或指定的社會安全號碼 (SSN) 必須一律遮罩為相同的 SSN,不論喬治和他的 SSN 是否出現在 Oracle、Salesforce 或 SAP 中。

使用符合規範的分析減少 AI/ML 演算法定型時間

  • 以不會增加定型週期的方式遮罩數據。
  • 遮罩時保留數據完整性,以避免影響模型/預測精確度。

任何 Azure Data Factory 或 Synapse Analytics 連接器都可以用來協助指定使用案例。

重點優勢

  • 通用連線能力
  • 維護引用完整性的實際具決定性遮罩
  • 重要企業應用程式的敏感數據先佔式識別
  • 原生雲端執行
  • 以範本為基礎的部署
  • 可調整

範例架構

下列範例是由匿名客戶提供。 它僅供用來建構此遮罩使用案例環境的方式範例。

Diagram of a sample architecture provided by an anonymous customer.

在上述範例架構中:

  • Azure Data Factory 或 Synapse Analytics 內嵌/連線到登陸區域中的生產、未遮罩的數據
  • 數據會移至 Azure 儲存體 中的數據暫存
  • 將生產數據的 NFS 掛接至 Delphix CC POD 可讓管線呼叫 Delphix CC 服務
  • 已遮罩的數據會傳回以在ADF和較低環境中散發

考量

這些考慮會實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可用來改善工作負載的品質。 如需詳細資訊,請參閱 Microsoft Azure Well-Architected Framework

安全性

安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱 安全性要素概觀。

Delphix CC 不可逆轉地遮罩數據值,其實際數據仍可完全正常運作,進而開發更高品質的程序代碼。 在可用來將數據轉換成使用者規格的豐富演算法中,Delphix CC 有一種專利演算法,刻意產生數據衝突,同時允許在遮罩數據集上執行潛在驗證例程所需的特定值的鹽化數據。 從 零信任 的觀點來看,操作員不需要存取實際數據,才能遮罩它。 此外,可以透過API自動化從 A 點到點 B 的遮罩數據整個傳遞。

成本最佳化

成本優化是考慮如何減少不必要的費用,並提升營運效率。 如需詳細資訊,請參閱 成本優化要素概觀。

藉由調整 Azure 定價計算機上的值,https://azure.microsoft.com/pricing/calculator/您可以看到您的特定需求如何影響成本。 Azure Synapse:您可以獨立調整計算和記憶體層級。 計算資源每小時收費,您可以視需要調整或暫停這些資源。 儲存體 資源是以每 TB 計費,因此當您內嵌更多數據時,您的成本將會增加。

Data Factory 或 Synapse Analytics:成本是以工作負載中執行的讀取/寫入作業、監視作業和協調流程活動數目為基礎。 您的成本會隨著每個額外的數據流和每個數據流處理的數據量而增加。

Delphix CC:不同於市場上的其他數據合規性產品,遮罩不需要遮罩環境的完整實體複本。 環境備援可能非常昂貴,因為設定和維護基礎結構的時間、基礎結構本身的成本,以及重複將實體數據載入遮罩環境所花費的時間。

效能效益

效能效率是工作負載調整的能力,以符合使用者以有效率的方式滿足其需求。 如需詳細資訊,請參閱 效能效率要素概觀

Delphix CC 可水準且垂直調整。 轉換會發生在記憶體中,而且可以平行處理。 產品會以服務的形式執行,並以多節點設備的形式執行,以根據應用程式而定,提供各種大小的解決方案架構。 Delphix 是提供極大型遮罩數據集的市場領導者。

您可以增加遮罩串流,以在作業中參與多個 CPU 核心。 (如需如何改變記憶體配置的設定建議和詳細數據,請參閱: https://maskingdocs.delphix.com/Securing_Sensitive_Data/Creating_Masking_Job/

為了獲得最佳大小大於 1 TB 的數據集效能,Delphix 超大規模遮罩 (https://hyperscale-compliance.delphix.com/3.0.0/) 會將大型和複雜的數據集分成多個模組,然後跨多個連續合規性引擎協調遮罩作業。

部署此案例

  1. 在 Azure 上部署 Delphix CC 引擎
  2. 在ADF中,部署 Delphix 連續合規性:分析(Delphix CC 分析)和 Delphix 連續合規性:遮罩 (Delphix CC 遮罩) ADF 範本。 這些範本適用於 Azure Synapse Analytics 和 Azure Data Factory 管線。
  3. 在 [複製資料] 元件中,設定所需的來源和目標數據存放區。 在 Web 活動元件中,輸入 Delphix 應用程式 IP 位址 /主機名和認證,以使用 Delphix CC API 進行驗證。
  4. 執行 Delphix CC 分析 ADF 範本以進行初始設定,而且您可以隨時重新識別敏感數據(例如,如果有架構變更)。 此範本會提供 Delphix CC 與掃描可能包含敏感數據的數據行所需的初始設定。
  5. 建立 Ruleset ,指出您想要分析的數據集合。 在 Delphix UI 中執行程式代碼剖析作業,以識別和分類該 Ruleset 的敏感性字段,並指派適當的遮罩演算法。
  6. 視需要檢閱和修改 [ 清查] 畫面 的結果。 一旦您滿意結果,並想要據此遮罩, 請建立遮罩作業
  7. 回到 ADF UI,開啟 Delphix CC 遮罩 ADF 範本。 從上述步驟提供遮罩作業標識碼,然後執行範本。
  8. 在此步驟結束時,您會在您選擇的目標資料存放區中遮罩數據。

注意

您需要具有認證的 Delphix 應用程式 IP 位址和主機名,才能向 Delphix API 進行驗證。

參與者

本文由 Microsoft 維護。 原始投稿人如下。

主要作者:

其他投稿人:

若要查看非公用LinkedIn配置檔,請登入LinkedIn。

下一步

請參閱下列 Delphix 資源:

深入瞭解此解決方案中的主要 Azure 服務: