在 Microsoft Purview (Preview 中連線和管理 Azure Databricks Unity 目錄)
本文概述如何註冊 Azure Databricks,以及如何在 Microsoft Purview 中驗證 Azure Databricks Unity 目錄並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
重要事項
此功能目前處於預覽。 Microsoft Azure 預覽版的補充使用規定包含適用于 Beta、預覽版或尚未正式上市之 Azure 功能的其他法律條款。
支援的功能
中繼資料擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 血統 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 否 | 是 | 否 | 否 | 否 | 否 | 否 | 否 |
掃描 Azure Databricks Unity 目錄時,Microsoft Purview 支援:
- 中繼存放區
- 目錄
- Schemas
- 包含資料行的資料表
- 包含資料行的檢視
設定掃描時,您可以選擇掃描整個 Unity 目錄,或將掃描範圍設定為目錄子集。
注意事項
此連接器會從 Azure Databricks Unity 目錄帶入中繼資料。 若要掃描 Azure Databricks 工作區範圍的中繼資料,請參閱 Azure Databricks Hive 中繼存放區連接器。
已知限制
- 目前,如果您的 Azure Databricks 工作區不允許從公用網路存取,或您的 Purview 帳戶未啟用來自所有網路的存取,則不支援掃描。 我們很快就會新增這項支援。
- 從資料來源刪除物件時,後續掃描目前不會自動移除 Microsoft Purview 中的對應資產。
必要條件
您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
您必須有使用中的 Microsoft Purview 帳戶。
您需要 Azure 金鑰保存庫,以及授與 Microsoft Purview 存取秘密的許可權。
您需要資料來源管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請 參閱 Microsoft Purview 中的存取控制。
若要掃描 Azure Databricks Unity 目錄,Microsoft Purview 會連線到您工作區中的 SQL 倉儲,並使用個人存取權杖進行驗證。 您必須啟 用已啟用 Unity 目錄 的 Azure Databricks 工作區,並將其附加至您想要掃描的中繼存放區。 在 Azure Databricks 工作區中:
產生個人存取權杖,並將其儲存為 Azure 金鑰保存庫中的秘密。
針對您想要帶入 Microsoft Purview 的所有物件,使用者至少必須具有資料表/檢視的 SELECT 許可權、物件目錄上的 USE CATALOG ,以及物件架構上的 USE SCHEMA 。
若要掃描 Unity 目錄中繼存放區中的所有物件,請使用具有中繼存放區系統管理員角色的使用者。 深入瞭解 Unity 目錄和 Unity 目錄 許可權 和安全性實體物件中的管理許可權。
建立 SQL 倉儲。 如果適用,您也可以使用自動建立的入門版倉儲。
記下 HTTP 路徑。 您可以在 Azure Databricks 工作區 - SQL Warehouses - > 您的倉儲 - >> 連線詳細資料 - > HTTP 路徑中找到它。
請確定使用者具有 [可以使用] 權 限,以便連線到 Azure Databricks SQL 倉儲。 深入瞭解 SQL 倉儲存取控制。
登錄
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Azure Databricks 工作區。
移至您的 Microsoft Purview 帳戶。
選取左窗格上的 [資料對應 ]。
選取 [登錄]。
在[註冊來源]中,選取[Azure Databricks>繼續]。
在 [ 註冊來源 (Azure Databricks) 畫面上,執行下列動作:
針對 [名稱],輸入 Microsoft Purview 將列出為數據源的名稱。
針對 [Azure 訂用 帳戶] 和 [Databricks 工作區名稱],從下拉式清單中選取您要掃描的訂用帳戶和工作區。 Databricks 工作區 URL 會自動填入。
針對 [選取集合],從清單中選擇集合或建立新的集合。 這是選擇性的步驟。
選取 [完成]。
掃描
使用下列步驟掃描 Azure Databricks 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取。
移至 [來源]。
選取已註冊的 Azure Databricks。
選 取 [+ 新增掃描]。
提供下列詳細資料:
名稱:輸入掃描的名稱。
擷取方法: 表示要從 Hive 中繼存放區或 Unity 目錄擷取中繼資料。 選 取 [Unity 目錄]。
透過整合執行時間連線:選擇預設的自動解析整合執行時間。
認證:選取要連線到資料來源的認證。 請務必:
- 在建立認證時選 取 [存取權杖驗證 ]。
- 在適當的方 塊中, 提供您在必要條件中建立的個人存取權杖秘密名稱。
如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證。
HTTP 路徑:指定 Microsoft Purview 將連線到並執行掃描的 Databricks SQL Warehouse HTTP 路徑,例如 。
/sql/1.0/endpoints/xxxxxxxxxxxxxxxx
您可以在 Azure Databricks 工作區 - SQL Warehouses - > 您的倉儲 - >> 連線詳細資料 - > HTTP 路徑中找到它。
按一下 [測試連線 ] 以驗證設定。
選取 [繼續]。
在 [ 範圍掃描 ] 頁面中,選取您要掃描 () 目錄。
針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
掃描成功完成後,請參閱如何 流覽和搜尋資產。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]。
- 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行識別碼以檢查 掃描執行詳細資料。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]。
選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
- 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 構 變更。
流覽和搜尋資產
掃描 Azure Databricks 之後,您可以 流覽資料目錄 或 搜尋資料目錄 來檢視資產詳細資料。
依來源類型流覽時,您會分別看到 Azure Databricks Unity 目錄 和 Azure Databricks 的兩個專案 。 前者包含 Unity 目錄成品,包括中繼存放區及其目錄/架構/資料表/檢視,而後者則包含工作區。
從 Azure Databricks 工作區資產中,您可以在 [屬性] 索引標籤下找到相關聯的 Unity 目錄,反轉也適用。
後續步驟
既然您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的資料: