共用方式為


使用 Azure Databricks 進行數據控管

資料控管 是政策、流程、角色和技術控制的架構,可確保組織的資料安全、值得信賴,並在整個生命週期中負責任地使用。 有效的資料控管可讓您維持資料品質、保護敏感資訊、符合法規要求,並最大化資料資產的價值。

資料治理的關鍵組成部分包括:

  • 存取控制與安全性:實施細粒度的權限和安全措施,以保護資料免遭未經授權的訪問,同時實現適當的使用。
  • 資料沿襲和可觀察性:追蹤資料流和轉換,以了解資料來源、相依性和使用模式。
  • 數據質量管理:確保數據準確、完整、一致且可靠,用於決策和分析。
  • 中繼資料管理:擷取和維護資料資產的相關資訊,以提高可發現性和理解性。
  • 合規性強制執行:符合資料隱私權、保留和使用的法規要求和組織原則。

本頁著重於在 Azure Databricks 中使用 Unity 目錄來控管資料。 相關安全主題 (例如驗證、網路設定、資料加密和隱私權合規性) 包含在安全性與合規性和合規性概觀中。

Unity 目錄數據控管模型

Unity 目錄 是集中式數據目錄,可為多種格式的結構化和非結構化數據提供治理。 它提供機器學習模型等 AI 資產的細粒度存取控制和治理。 Unity 目錄是 開放原始碼 ,並支援多個平臺。 它已深入整合至 Azure Databricks。

Unity 目錄是完整的資料控管解決方案,可提供下列項目:

  • 數據統一:跨平臺整合所有數據和 AI 資產的統一檢視,減少重複和蔓延。
  • 資料存取控制:確保資料可存取的工具,但僅限於正確的使用者。
  • 數據可探索性:可讓您輕鬆尋找所需數據的工具。
  • 數據質量:確保在整個生命週期中正確、完整、一致且安全的數據的工具。
  • 資料協作和共享:不僅在組織內部,而且跨組織和平台邊界安全地共享數據的工具。
  • 稽核:擷取誰使用數據和方式的工具。

此頁面說明貴組織如何使用 Azure Databricks 中的 Unity 目錄來滿足這些需求。

數據訪問控制

為了確保使用者只存取他們應該存取的數據,Unity Catalog 提供一種階層式許可權模型,使您能夠將使用者、群組和服務主體的數據與 AI 財產的存取權,從帳戶層級一直下放到數據表的數據列和數據行。 您可以控制儲存在專用 Unity Catalog 儲存空間或其他平台(如雲端儲存空間或資料庫系統)中的資產存取權;重點在於,Unity Catalog 可以讓來自 Azure Databricks 的使用者有機會存取所有您的數據,不論它位於何處,同時 Unity Catalog 也控制其存取權並追蹤數據使用情況。

任務 說明
管理許可權 瞭解 Unity Catalog 所管理的可保護的對象,以及如何控制這些對象的存取權。
管理屬性型存取控制 (ABAC) 學習如何在 Unity Catalog 中使用 ABAC 控制資料存取。
管理身分識別 瞭解如何在 Unity 目錄的內容中管理身分識別。
細部訪問控制 瞭解如何使用數據列篩選和數據行遮罩來控制數據表數據的存取。
管理外部記憶體和數據平臺的存取 瞭解如何使用 Unity 目錄來控制雲端記憶體、外部數據平臺和外部非數據服務的存取。
從外部平臺管理存取 瞭解 Unity Catalog 如何管理從使用 Apache Iceberg 或開放原始碼 Unity Catalog API 的外部平台存取您的資料。

數據探索能力

Azure Databricks 和 Unity 目錄提供下列工具來協助使用者尋找所需的數據:

特徵 / 功能 說明
目錄瀏覽器 使用資產名稱和元數據,例如批註和標籤,流覽和搜尋數據和 AI 資產。
目錄瀏覽器 使用筆記本和 SQL 查詢編輯器中內建的瀏覽器來尋找數據和 AI 資產。 請參閱 流覽 Databricks 筆記本和檔案編輯器撰寫查詢,並在新的 SQL 編輯器中探索數據
AI 產生的批注 自動產生數據和 AI 資產的文件,以協助便於搜尋。
數據表深入解析 使用內建於目錄總管的UI來檢視 Unity 目錄中任何數據表的最常見使用者和查詢。
資料譜系 擷取並可視化數據流經組織的方式。
如需功能和模型譜系,請參閱 功能治理和譜系
實體關聯性圖表 (ERD) 顯示已定義外鍵之數據表的關聯性。

另請參閱 探索數據

數據質量監視

確保數據質量和數據完整性的工具已深入整合至 Delta Lake、Apache Spark 和 Azure Databricks。 您可以透過 Azure Databricks 文件全篇了解它們。

Unity Catalog 會新增下列項目:

特徵 / 功能 說明
資料品質監控 資料品質監視可協助您確保 Unity 目錄中所有資料資產的品質。 它包括異常偵測,以監視目錄或結構描述中所有資料表的資料品質,以及資料分析,以監視個別資料表資料的統計屬性和品質。
認證和已被棄用的系統標籤(私用預覽) 使用數據品質或生命周期狀態指標來標記安全性實體物件,例如目錄、架構和數據表。 這些系統標籤可協助組織強制執行治理、改善數據探索能力,以及增加對分析和 AI 應用程式的信任。

數據共同作業和共用

Unity Catalog 讓使用者在相同區域內,在所有帳戶的工作空間中,共同在相同數據上協作。 當您需要跨工作區區域、跨組織及跨平臺共同作業時,Unity 目錄會為下列共用工具提供基礎。

特徵 / 功能 說明
差異共用 安全的數據共享平臺,可讓您在 Azure Databricks 中與組織外部的使用者共享數據和 AI 資產,無論這些使用者是否使用 Databricks。
乾淨的房間 Databricks 管理的環境,Databricks 和非 Databricks 平臺上的多個參與者可以在專案上共同作業,而不需要彼此共用基礎數據。
Databricks 市場 交換數據和 AI 產品的開放論壇。 它也提供私人數據交換。

審計

稽核記錄 會擷取有關誰存取指定數據集及其所執行動作的詳細數據。 Unity 目錄會新增 系統數據表,這是存取和查詢帳戶稽核記錄的最簡單方式。

請參閱 診斷記錄參考使用系統數據表監視帳戶活動

舊版 Azure Databricks 數據控管工具

Azure Databricks 也提供這些舊版治理功能。 Databricks 建議您改用 Unity 目錄。

特徵 / 功能 說明
資料表存取控制 舊版數據控管模型,可讓您以程序設計方式授與和撤銷工作區內建Hive中繼存放區所管理物件的存取權。
Azure Data Lake Storage 認證傳遞 舊版的數據治理功能允許您從 Azure Databricks 叢集,自動使用與登入 Azure Databricks 相同的 Microsoft Entra ID 身分識別,對 Azure 儲存體進行驗證。

後續步驟