資料控管 是政策、流程、角色和技術控制的架構,可確保組織的資料安全、值得信賴,並在整個生命週期中負責任地使用。 有效的資料控管可讓您維持資料品質、保護敏感資訊、符合法規要求,並最大化資料資產的價值。
資料治理的關鍵組成部分包括:
- 存取控制與安全性:實施細粒度的權限和安全措施,以保護資料免遭未經授權的訪問,同時實現適當的使用。
- 資料沿襲和可觀察性:追蹤資料流和轉換,以了解資料來源、相依性和使用模式。
- 數據質量管理:確保數據準確、完整、一致且可靠,用於決策和分析。
- 中繼資料管理:擷取和維護資料資產的相關資訊,以提高可發現性和理解性。
- 合規性強制執行:符合資料隱私權、保留和使用的法規要求和組織原則。
本頁著重於在 Azure Databricks 中使用 Unity 目錄來控管資料。 相關安全主題 (例如驗證、網路設定、資料加密和隱私權合規性) 包含在安全性與合規性和合規性概觀中。
Unity 目錄數據控管模型
Unity 目錄 是集中式數據目錄,可為多種格式的結構化和非結構化數據提供治理。 它提供機器學習模型等 AI 資產的細粒度存取控制和治理。 Unity 目錄是 開放原始碼 ,並支援多個平臺。 它已深入整合至 Azure Databricks。
Unity 目錄是完整的資料控管解決方案,可提供下列項目:
- 數據統一:跨平臺整合所有數據和 AI 資產的統一檢視,減少重複和蔓延。
- 資料存取控制:確保資料可存取的工具,但僅限於正確的使用者。
- 數據可探索性:可讓您輕鬆尋找所需數據的工具。
- 數據質量:確保在整個生命週期中正確、完整、一致且安全的數據的工具。
- 資料協作和共享:不僅在組織內部,而且跨組織和平台邊界安全地共享數據的工具。
- 稽核:擷取誰使用數據和方式的工具。
此頁面說明貴組織如何使用 Azure Databricks 中的 Unity 目錄來滿足這些需求。
數據訪問控制
為了確保使用者只存取他們應該存取的數據,Unity Catalog 提供一種階層式許可權模型,使您能夠將使用者、群組和服務主體的數據與 AI 財產的存取權,從帳戶層級一直下放到數據表的數據列和數據行。 您可以控制儲存在專用 Unity Catalog 儲存空間或其他平台(如雲端儲存空間或資料庫系統)中的資產存取權;重點在於,Unity Catalog 可以讓來自 Azure Databricks 的使用者有機會存取所有您的數據,不論它位於何處,同時 Unity Catalog 也控制其存取權並追蹤數據使用情況。
| 任務 | 說明 |
|---|---|
| 管理許可權 | 瞭解 Unity Catalog 所管理的可保護的對象,以及如何控制這些對象的存取權。 |
| 管理屬性型存取控制 (ABAC) | 學習如何在 Unity Catalog 中使用 ABAC 控制資料存取。 |
| 管理身分識別 | 瞭解如何在 Unity 目錄的內容中管理身分識別。 |
| 細部訪問控制 | 瞭解如何使用數據列篩選和數據行遮罩來控制數據表數據的存取。 |
| 管理外部記憶體和數據平臺的存取 | 瞭解如何使用 Unity 目錄來控制雲端記憶體、外部數據平臺和外部非數據服務的存取。 |
| 從外部平臺管理存取 | 瞭解 Unity Catalog 如何管理從使用 Apache Iceberg 或開放原始碼 Unity Catalog API 的外部平台存取您的資料。 |
數據探索能力
Azure Databricks 和 Unity 目錄提供下列工具來協助使用者尋找所需的數據:
| 特徵 / 功能 | 說明 |
|---|---|
| 目錄瀏覽器 | 使用資產名稱和元數據,例如批註和標籤,流覽和搜尋數據和 AI 資產。 |
| 目錄瀏覽器 | 使用筆記本和 SQL 查詢編輯器中內建的瀏覽器來尋找數據和 AI 資產。 請參閱 流覽 Databricks 筆記本和檔案編輯器 和 撰寫查詢,並在新的 SQL 編輯器中探索數據。 |
| AI 產生的批注 | 自動產生數據和 AI 資產的文件,以協助便於搜尋。 |
| 數據表深入解析 | 使用內建於目錄總管的UI來檢視 Unity 目錄中任何數據表的最常見使用者和查詢。 |
| 資料譜系 | 擷取並可視化數據流經組織的方式。 如需功能和模型譜系,請參閱 功能治理和譜系。 |
| 實體關聯性圖表 (ERD) | 顯示已定義外鍵之數據表的關聯性。 |
另請參閱 探索數據。
數據質量監視
確保數據質量和數據完整性的工具已深入整合至 Delta Lake、Apache Spark 和 Azure Databricks。 您可以透過 Azure Databricks 文件全篇了解它們。
Unity Catalog 會新增下列項目:
| 特徵 / 功能 | 說明 |
|---|---|
| 資料品質監控 | 資料品質監視可協助您確保 Unity 目錄中所有資料資產的品質。 它包括異常偵測,以監視目錄或結構描述中所有資料表的資料品質,以及資料分析,以監視個別資料表資料的統計屬性和品質。 |
| 認證和已被棄用的系統標籤(私用預覽) | 使用數據品質或生命周期狀態指標來標記安全性實體物件,例如目錄、架構和數據表。 這些系統標籤可協助組織強制執行治理、改善數據探索能力,以及增加對分析和 AI 應用程式的信任。 |
數據共同作業和共用
Unity Catalog 讓使用者在相同區域內,在所有帳戶的工作空間中,共同在相同數據上協作。 當您需要跨工作區區域、跨組織及跨平臺共同作業時,Unity 目錄會為下列共用工具提供基礎。
| 特徵 / 功能 | 說明 |
|---|---|
| 差異共用 | 安全的數據共享平臺,可讓您在 Azure Databricks 中與組織外部的使用者共享數據和 AI 資產,無論這些使用者是否使用 Databricks。 |
| 乾淨的房間 | Databricks 管理的環境,Databricks 和非 Databricks 平臺上的多個參與者可以在專案上共同作業,而不需要彼此共用基礎數據。 |
| Databricks 市場 | 交換數據和 AI 產品的開放論壇。 它也提供私人數據交換。 |
審計
稽核記錄 會擷取有關誰存取指定數據集及其所執行動作的詳細數據。 Unity 目錄會新增 系統數據表,這是存取和查詢帳戶稽核記錄的最簡單方式。
請參閱 診斷記錄參考 和 使用系統數據表監視帳戶活動。
舊版 Azure Databricks 數據控管工具
Azure Databricks 也提供這些舊版治理功能。 Databricks 建議您改用 Unity 目錄。
| 特徵 / 功能 | 說明 |
|---|---|
| 資料表存取控制 | 舊版數據控管模型,可讓您以程序設計方式授與和撤銷工作區內建Hive中繼存放區所管理物件的存取權。 |
| Azure Data Lake Storage 認證傳遞 | 舊版的數據治理功能允許您從 Azure Databricks 叢集,自動使用與登入 Azure Databricks 相同的 Microsoft Entra ID 身分識別,對 Azure 儲存體進行驗證。 |
後續步驟
- 深入了解 Unity Catalog:什麼是 Unity Catalog?
- 開始使用 Unity 目錄: 開始使用 Unity 目錄
- 檢閱最佳做法: 什麼是 Unity 目錄?