分享方式:


在 Microsoft Purview (Preview) 中連線和管理 Azure Databricks

本文概述如何註冊 Azure Databricks,以及如何在 Microsoft Purview 中驗證 Azure Databricks 並與之互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

重要事項

此功能目前處於預覽。 Microsoft Azure 預覽版的補充使用規定包含適用于 Beta、預覽版或尚未正式上市之 Azure 功能的其他法律條款。

支援的功能

中繼資料擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 血統 資料共用 即時檢視

注意事項

此連接器會從 Azure Databricks 工作區範圍的 Hive 中繼存放區帶入中繼資料。 若要掃描 Azure Databricks Unity 目錄中的中繼資料,請參閱 Azure Databricks Unity 目錄連接器

掃描 Azure Databricks Hive 中繼存放區時,Microsoft Purview 支援:

  • 擷取技術中繼資料,包括:

    • Azure Databricks 工作區
    • Hive 伺服器
    • 資料庫
    • 包含資料行、外鍵、唯一條件約束和儲存體描述的資料表
    • 包含資料行和儲存體描述的檢視
  • 擷取外部資料表與Azure Data Lake Storage Gen2/Azure Blob 資產之間的關聯性, (外部位置) 。

  • 根據檢視定義,在資料表和檢視之間擷取靜態譜系。

設定掃描時,您可以選擇掃描整個 Hive 中繼存放區,或將掃描範圍設定為架構的子集。

比較透過泛型 Hive 中繼存放區連接器 進行掃描,以防您使用它來掃描 Azure Databricks:

  • 您可以直接設定 Azure Databricks 工作區的掃描,而不需要直接 HMS 存取。 它會使用 Databricks 個人存取權杖進行驗證,並聯機到叢集以執行掃描。
  • 已擷取 Databricks 工作區資訊。
  • 擷取資料表與儲存體資產之間的關聯性。

已知限制

從資料來源刪除物件時,後續掃描目前不會自動移除 Microsoft Purview 中的對應資產。

必要條件

  • 您必須擁有具有作用中訂用帳戶的 Azure 帳戶。 免費建立帳戶

  • 您必須有使用中的 Microsoft Purview 帳戶

  • 您需要 Azure 金鑰保存庫,以及授與 Microsoft Purview 存取秘密的許可權

  • 您需要資料來源管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請 參閱 Microsoft Purview 中的存取控制

  • 設定最新的 自我裝載整合執行時間。 如需詳細資訊,請參閱 建立和設定自我裝載整合執行時間。 最低支援的自我裝載Integration Runtime版本是 5.20.8227.2。

    • 確定已在安裝自我裝載整合執行時間的電腦上安裝 JDK 11 。 在新安裝 JDK 之後重新開機電腦,使其生效。

    • 請確定C++ 可轉散發套件 (版本 Visual Studio 2012 Update 4 或更新版本的) 安裝在自我裝載整合執行時間執行所在的電腦上。 如果您尚未安裝此更新,請 立即下載

  • 在 Azure Databricks 工作區中:

    • 產生個人存取權杖,並將其儲存為 Azure 金鑰保存庫中的秘密。

    • 建立叢集。 記下叢集識別碼 - 您可以在 Azure Databricks 工作區中找到它 - 計算 - > 您的叢集 - > 標籤 - > 自動新增標籤 - >ClusterId 。 >

    • 請確定使用者具有下列 許可權 ,以便連線到 Azure Databricks 叢集:

      • 可附加至 許可權以連線至執行中的叢集。
      • 如果叢集的狀態在連線時終止,可以重新開機許可權來自動觸發叢集啟動。

登錄

本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Azure Databricks 工作區。

  1. 移至您的 Microsoft Purview 帳戶。

  2. 選取左窗格上的 [資料對應 ]。

  3. 選取 [登錄]

  4. [註冊來源]中,選取[Azure Databricks>繼續]

  5. 在 [ 註冊來源 (Azure Databricks) 畫面上,執行下列動作:

    1. 針對 [名稱],輸入 Microsoft Purview 將列出為數據源的名稱。

    2. 針對 [Azure 訂用 帳戶] 和 [Databricks 工作區名稱],從下拉式清單中選取您要掃描的訂用帳戶和工作區。 Databricks 工作區 URL 會自動填入。

    3. 針對 [選取集合],從清單中選擇集合或建立新的集合。 這是選擇性的步驟。

    註冊 Azure Databricks 來源的螢幕擷取畫面。

  6. 選取 [完成]

掃描

提示

若要針對掃描的任何問題進行疑難排解:

  1. 確認您已遵循所有 必要條件
  2. 檢閱我們的 掃描疑難排解檔

使用下列步驟掃描 Azure Databricks 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取

  1. 在管理中心中,選取 [整合執行時間]。 請確定已設定自我裝載整合執行時間。 如果未設定,請使用 建立和管理自我裝載整合執行時間中的步驟。

  2. 移至 [來源]

  3. 選取已註冊的 Azure Databricks。

  4. 取 [+ 新增掃描]

  5. 提供下列詳細資料:

    1. 名稱:輸入掃描的名稱。

    2. 擷取方法: 表示要從 Hive 中繼存放區或 Unity 目錄擷取中繼資料。 選取 [Hive 中繼存放區]

    3. 透過整合執行時間連線:選取設定的自我裝載整合執行時間。

    4. 認證:選取要連線到資料來源的認證。 請務必:

      • 在建立認證時選 取 [存取權杖驗證 ]。
      • 在適當的方 塊中, 提供您在必要條件中建立的個人存取權杖秘密名稱。

      如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證

    5. 叢集標識符:指定 Microsoft Purview 連線並支援掃描的叢集識別碼。 您可以在 Azure Databricks 工作區中找到它 - > 計算 - > 您的叢集 - > 標籤 - > 自動新增標籤 - >ClusterId

    6. 掛接點:當您手動將外部儲存體掛接到 Databricks 時,請提供掛接點和 Azure 儲存體來源位置字串。 請使用格式 /mnt/<path>=abfss://<container>@<adls_gen2_storage_account>.dfs.core.windows.net/;/mnt/<path>=wasbs://<container>@<blob_storage_account>.blob.core.windows.net。 它用來擷取資料表與 Microsoft Purview 中對應儲存體資產之間的關聯性。 如果未指定此設定,則此設定為選擇性,則不會擷取這類關聯性。

      您可以在筆記本中執行下列 Python 命令,以取得 Databricks 工作區中的掛接點清單:

      dbutils.fs.mounts()
      

      它會列印所有掛接點,如下所示:

      [MountInfo(mountPoint='/databricks-datasets', source='databricks-datasets', encryptionType=''),
      MountInfo(mountPoint='/mnt/ADLS2', source='abfss://samplelocation1@azurestorage1.dfs.core.windows.net/', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-tracking', source='databricks/mlflow-tracking', encryptionType=''), 
      MountInfo(mountPoint='/mnt/Blob', source='wasbs://samplelocation2@azurestorage2.blob.core.windows.net', encryptionType=''),
      MountInfo(mountPoint='/databricks-results', source='databricks-results', encryptionType=''),
      MountInfo(mountPoint='/databricks/mlflow-registry', source='databricks/mlflow-registry', encryptionType=''), MountInfo(mountPoint='/', source='DatabricksRoot', encryptionType='')]  
      

      在此範例中,將下列專案指定為掛接點:

      /mnt/ADLS2=abfss://samplelocation1@azurestorage1.dfs.core.windows.net/;/mnt/Blob=wasbs://samplelocation2@azurestorage2.blob.core.windows.net

    7. 架構:要匯入的架構子集,以分號分隔的架構清單表示。 例如,schema1; schema2。 如果該清單是空的,則會匯入所有使用者架構。 預設會忽略所有系統架構和物件。

      使用 SQL LIKE 運算式語法的可接受架構名稱模式包括 using %. 例如:A%; %B; %C%; D

      • 從 A 或 開始
      • 以 B 結尾或
      • 包含 C 或
      • 等於 D

      不接受使用 NOT 和特殊字元。

      注意事項

      自我裝載Integration Runtime 5.32.8597.1 版和更新版本支援此架構篩選。

    8. 可用的記憶體上限:客戶電腦上可用的最大記憶體 (以 GB 為單位) 供掃描程式使用。 此值取決於要掃描的 Azure Databricks 大小。

      注意事項

      根據經驗法則,請為每 1000 個數據表提供 1GB 記憶體。

    設定 Azure Databricks 掃描的螢幕擷取畫面。

  6. 選取 [繼續]

  7. 針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。

  8. 檢閱您的掃描,然後選取 [ 儲存並執行]

掃描成功完成後,請參閱如何 流覽和搜尋 Azure Databricks 資產

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]
  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行識別碼以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]

  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
  • 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 變更。

流覽和搜尋資產

掃描 Azure Databricks 之後,您可以 流覽資料目錄搜尋資料目錄 來檢視資產詳細資料。

從 Databricks 工作區資產中,您也可以找到相關聯的 Hive 中繼存放區和資料表/檢視,反轉也適用。

依來源類型流覽資產的螢幕擷取畫面。

流覽至 Azure Databricks 來源資產詳細資料的螢幕擷取畫面。

螢幕擷取畫面:尋找與 Azure Databricks 來源相關聯的 Hive 中繼存放區。

血統

請參閱 支援的 Azure Databricks 案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 資料譜系譜系使用者指南

移至 [Hive 資料表/檢視資產 - > 譜系] 索引標籤,您可以在適用時看到資產關聯性。 針對資料表與外部儲存體資產之間的關聯性,您會看到 Hive 資料表資產和儲存體資產會雙向直接連線,因為它們彼此相互影響。 如果您在 create table 語句中使用掛接點,您必須在 掃描設定 中提供掛接點資訊,以擷取這類關聯性。

顯示 Azure Databricks 譜系範例的螢幕擷取畫面。

後續步驟

既然您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的資料: