下列架構概述如何在 Azure Data Factory 擷取、轉換和載入 (ETL) 管線中使用 Delphix 持續合規性 (Delphix CC) 來識別和遮罩敏感性資料。
架構
下載此架構的 Visio 檔案。
注意
此解決方案專屬於 Azure Data Factory 與 Azure Synapse Analytics Pipelines。 Delphix CC 概要分析與 Delphix CC 遮蔽範本尚未提供於 Microsoft Fabric Data Factory 中。 請聯絡您的 Perforce Delphix 帳戶代表,詢問 Microsoft Fabric 支援。
資料流程
下列數據流對應至上圖:
Data Factory 會使用 [複製資料] 活動,將資料從來源資料存放區擷取至 Azure 檔案儲存體中的容器。 此容器稱為來源資料容器,資料採用 CSV 格式。
Data Factory 會起始反覆運算器 (ForEach 活動),以迴圈查看 Delphix 內設定的遮罩作業清單。 這些預先設定的遮罩工作會遮罩來源資料容器中的敏感資料。
對於清單中的每個工作,「起始遮罩」活動會透過呼叫 Delphix CC 引擎上的 REST API 端點來驗證並啟動遮罩工作。
Delphix CC 引擎從來源資料容器讀取資料並執行遮罩程序。
在此遮罩程式中,Delphix 會遮罩記憶體中的資料,並將產生的遮罩資料寫回目標 Azure 檔案儲存體容器,這稱為 目標資料容器。
Data Factory 會起始監視實作的第二個反覆專案器 (ForEach 活動)。
對於啟動的每一個實作 (遮罩工作),「檢查狀態」活動會檢查遮罩的結果。
成功完成所有遮罩作業之後,Data Factory 會將遮罩的資料從目標資料容器載入指定的目的地。
元件
Data Factory 是用於向外延展無伺服器資料整合和資料轉換的 ETL 服務。 它提供了一個無代碼的 UI,用於直觀的編寫和統一的監控和管理。 在此架構中,Data Factory 會協調整個資料遮罩工作流程。 此工作流程包括擷取資料、啟動遮罩作業、監視作業,以及將遮罩資料載入目的地存放區。
Azure Synapse Analytics 是一項結合資料整合、企業資料倉儲和巨量資料分析的分析服務。 在此架構中,Azure Synapse Analytics 可以作為遮罩資料的目的地,並包含用於資料整合的 Data Factory 管線。
Azure 儲存體 是一種雲端式解決方案,可為結構化和非結構化資料提供可調整的儲存體。 在此架構中,它會同時儲存原始來源資料和遮罩輸出資料。 Azure 儲存體可作為載入目的地資料存放區之資料的中繼儲存層。
Azure 虛擬網路 是 Azure 中的私人隔離網路環境。 在此架構中,虛擬網路會為不屬於 Azure Synapse Analytics 工作區的 Azure 資源提供私人網路功能。 它可讓您管理資源之間的存取、安全性和路由。
其他元件可能包括各種來源和目的地資料存放區,視特定使用案例而定。 這些元件會根據您使用的資料來源 (例如 SAP、Salesforce 或 Oracle EBS) 整合到架構中。
替代項目
您也可以使用 Microsoft Presidio 執行資料模糊化。 如需詳細資訊,請參閱 Presidio 資料保護和去識別化 SDK。
案例詳細資料
近年來,數據量迅速增加。 為了釋放資料的策略價值,資料需要動態且可移植。 孤島中的資料限制了其戰略價值,並且難以用於分析目的。
打破資料孤島帶來了挑戰:
數據必須經過操作,才能符合一般格式。 ETL 管道必須適應每個記錄系統,並且必須擴展以支援現代企業的大量資料集。
當資料從記錄系統移動時,必須持續遵守與敏感性資訊相關的法規。 客戶資料和其他敏感元素必須被遮蓋,而不會影響資料集的商業價值。
什麼是 Data Factory?
Data Factory 是受控的無伺服器資料整合服務。 它提供視覺體驗,可將資料來源與 100 多個內建免維護連接器整合,無需額外費用。 在直覺式環境中輕鬆建構 ETL 和擷取、載入、轉換 (ELT) 程序,無需程式碼,或撰寫您自己的程式碼。 若要透過商務深入解析釋放資料的強大功能,請將整合的資料傳遞至 Azure Synapse Analytics。 Azure Synapse Analytics 也包含 Data Factory 管線。
什麼是 Delphix CC?
Delphix CC 可識別敏感資訊並自動進行資料遮罩。 它提供了一種自動化的、API 驅動的方式來提供安全數據。
Delphix CC 和 Data Factory 如何解決自動化相容數據的問題?
Delphix 簡化了資料合規,而 Data Factory 則促進資料整合與移動。 Delphix 和 Data Factory 共同結合了業界領先的合規性和自動化產品,以簡化按需合規資料的交付。
此解決方案會使用 Data Factory 資料來源連接器來建立兩個 ETL 管線,以自動化下列步驟:
從記錄系統讀取數據,並將其寫入 Azure Blob 儲存體 中的 CSV 檔案。
為 Delphix CC 提供識別可能包含敏感資料的資料行並指派適當遮罩演算法的要求。
針對檔案執行 Delphix 遮罩工作,以類似但虛構的值取代敏感資料元素。
將符合規範的資料載入任何 Data Factory 支援的資料存放區。
潛在使用案例
安全地啟用產業特定解決方案的 Azure 資料服務
在大型複雜應用程式中識別和遮罩敏感資料,否則客戶資料難以識別。 Delphix 使用戶能夠自動將合規數據從 SAP、Salesforce 和 Oracle E-Business Suite (EBS) 等來源移動到高價值服務層,例如 Azure Synapse Analytics。
使用 Microsoft Azure 連接器,從任何來源安全地解除鎖定、遮罩及移轉您的資料。
解決數據的複雜法規合規性
使用 Delphix 演算法架構來滿足資料的法規要求。
針對法規需求套用資料就緒規則,例如加州消費者隱私法 (CCPA)、一般資料保護法 (Lei Geral de Proteção de Dados,LGPD) 和健康保險流通與責任法案 (HIPAA)。
加速 DevSecOps 左移
將生產級數據提供給您的開發和分析管線,例如 Azure DevOps、Jenkins 和 Harness,以及其他自動化工作流程。 若要這樣做,請遮罩集中式 Data Factory 管線中的敏感性資料。
跨資料來源一致地遮罩資料,以維護整合應用程式測試的參考完整性。 例如,喬治這個名字必須始終對艾略特進行掩蓋。 或者,無論 George 的 SSN 出現在 Oracle、Salesforce 或 SAP 中,都必須始終隱藏在同一個社會安全號碼上。
使用合規分析加速 AI 和機器學習演算法訓練
在不增加訓練週期的情況下遮罩資料。
在遮罩時保留資料完整性,以避免影響模型和預測準確性。
使用任何 Data Factory 或 Azure Synapse Analytics 連接器來促進指定的使用案例。
重點優勢
- 通用連線能力
- 維護引用完整性的實際具決定性遮罩
- 重要企業應用程式的敏感數據先佔式識別
- 原生雲端實作
- 以範本為基礎的部署
- 可調整
範例架構
下列範例顯示如何為此遮罩使用案例建構環境。
上一個範例架構具有下列元件:
- Data Factory 或 Azure Synapse Analytics 會擷取並連線到登陸區域中未遮罩的生產環境資料。
- 資料會移至儲存體中的資料預備。
- 將生產資料掛載到Delphix CC POD的網路檔案系統(NFS)使管道能夠呼叫Delphix CC服務。
- 遮罩的資料會傳回,以便在 Data Factory 和較低的環境中散發。
考量
這些考量能實作 Azure Well-Architected Framework 的支柱,這是一組指導原則,可以用來改善工作負載的品質。 如需詳細資訊,請參閱 Well-Architected Framework。
安全性
安全性可提供針對蓄意攻擊和濫用寶貴數據和系統的保證。 如需詳細資訊,請參閱安全性的設計檢閱檢查清單。
Delphix CC 用保持完整功能的真實數據不可逆轉地屏蔽數據值,從而能夠開發更高品質的程式碼。 在可用於將數據轉換為用戶規範的算法集中,Delphix CC 擁有專利算法。 此演算法會刻意產生資料衝突,並可讓您使用遮罩資料集上潛在驗證常式所需的特定值來加鹽資料。 從零信任的角度來看,操作員不需要實際存取資料來掩飾它。 從 A 點到 B 點的遮罩資料的整個傳輸可以透過 API 自動化。
成本優化
成本優化著重於減少不必要的費用,並提升營運效率的方式。 如需詳細資訊,請參閱成本最佳化的設計檢閱檢查清單。
若要查看您的特定需求如何影響成本,請調整 Azure 定價計算機中的值。
Azure Synapse Analytics: 您可以獨立擴展運算和儲存層級。 計算資源每小時收費,您可以視需要調整或暫停這些資源。 儲存資源是按 TB 計費,因此您的成本會隨著擷取資料而增加。
Data Factory 或 Azure Synapse Analytics: 成本是根據每個工作負載的讀取和寫入作業、監控作業和協調流程活動的數量而定。 成本會隨著每個額外的資料串流和每個資料串流處理的資料量而增加。
德爾菲克斯 CC: 與其他資料合規性產品不同,Delphix 不需要環境的完整實體副本即可執行遮罩。
環境備援可能代價高昂,原因如下:
- 設定和維護基礎架構所需的時間
- 基礎設施本身的成本
- 您重複將實體資料載入遮罩環境所花費的時間
效能效率
效能效率是指工作負載能夠有效率地調整以符合使用者需求。 有關詳細資訊,請參閱效能效率的設計審核清單。
Delphix CC 可水準且垂直調整。 轉換會發生在記憶體中,而且可以平行處理。 該產品既作為服務運行,也作為多節點設備運行,因此您可以根據應用程序設計任何規模的解決方案架構。 Delphix 是提供大型遮罩資料集的市場領導者。
您可以增加遮罩串流,以在作業中參與多個 CPU 核心。 如需如何變更記憶體配置的詳細資訊,請參閱 建立遮罩作業。
為了實現大於 1 TB 的資料集的最佳效能, Delphix 超大規模遮罩 將資料集分解為多個模組,然後跨多個連續合規引擎協調遮罩作業。
部署此案例
在 Data Factory 中,部署 Delphix CC 分析 和 Delphix CC 遮罩 範本。 這些範本適用於 Azure Synapse Analytics 和 Data Factory 管線。
在 複製資料 元件中,設定所需的來源和目標資料存放區。 在「Web 活動」元件中,輸入 Delphix 應用程式 IP 位址或主機名稱,以及要使用 Delphix CC API 進行驗證的認證。
執行 Delphix CC Profiling Data Factory 範本進行初始設定,以及任何您想要重新識別敏感資料 (例如結構描述變更) 時執行。 此範本提供 Delphix CC 掃描可能包含敏感資料的直欄所需的初始配置。
建立 規則集 ,指出您要分析的資料集合。 在 Delphix UI 中執行 分析工作 ,以識別和分類該規則集的敏感欄位,並指派適當的遮罩演算法。
在 Data Factory UI 中,開啟 Delphix CC 遮罩 Data Factory 範本。 提供上一個步驟中的遮罩工作ID,然後執行範本。
遮罩的資料會出現在您選擇的目標資料存放區中。
注意
您需要 Delphix 應用程式 IP 位址和主機名稱以及認證,才能向 Delphix API 進行驗證。
參與者
本文由 Microsoft 維護。 下列參與者撰寫本文。
主要作者:
- Tess Maggio |Product Manager 2
- Arun Saju |高級員工工程師
- 大衛·威爾斯 |持續合規性產品負責人資深主管
其他投稿人:
- 喬恩·伯切爾 |資深內容開發人員
- Abhishek Narain |資深項目經理
- 道格·史密斯 |Global Practice Director, DevOps, CI/CD
- Michael Torok |社群管理與經驗高級主管
若要查看非公開的 LinkedIn 個人檔案,請登入 LinkedIn。
下一步
請參閱下列 Delphix 資源:
深入瞭解此解決方案中的主要 Azure 服務: