分享方式:


在 Microsoft Purview 中連線和管理 Hive 中繼存放區資料庫

本文概述如何註冊 Hive 中繼存放區資料庫,以及如何在 Microsoft Purview 中驗證 Hive 中繼存放區資料庫並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

支援的功能

中繼資料擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 血統 資料共用 即時檢視
是的*

* 除了資料來源內資產的譜系之外,如果在 Data Factory 或 Synapse 管線中使用資料集做為來源/接收器,也支援譜系。

支援的 Hive 版本為 2.x 到 3.x。 支援的平臺包括 Apache Hadoop、Cloudera 和 Hortonworks。 如果您想要掃描 Azure Databricks,建議您使用更相容且方便使用的 Azure Databricks 連接器

掃描 Hive 中繼存放區來源時,Microsoft Purview 支援:

  • 擷取技術中繼資料,包括:

    • 伺服器
    • 資料庫
    • 包含資料行、外鍵、唯一條件約束和儲存體描述的資料表
    • 包含資料行和儲存體描述的檢視
  • 擷取資料表和檢視表之間資產關聯性的靜態譜系。

設定掃描時,您可以選擇掃描整個 Hive 中繼存放區資料庫,或將掃描範圍設定為符合指定名稱的架構子集 () 或名稱模式 () 。

已知限制

從資料來源刪除物件時,後續掃描目前不會自動移除 Microsoft Purview 中的對應資產。

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 Hive 中繼存放區資料庫。

Hive 中繼存放區資料庫唯一支援的驗證是基本驗證。

  1. 透過下列方式開啟 Microsoft Purview 治理入口網站:

  2. 選取左窗格上的 [資料對應 ]。

  3. 選取 [登錄]

  4. [註冊來源]中,選取[Hive 中繼存放區>繼續]

  5. 在 [登錄 來源 (Hive 中繼存放區) 畫面上,執行下列動作:

    1. 針對 [名稱],輸入 Microsoft Purview 將列出為數據源的名稱。

    2. 針對 [Hive 叢集 URL],輸入您從 Ambari URL 取得的值。 例如,輸入 hive.azurehdinsight.net

    3. 針對 Hive 中繼存放區伺服器 URL,輸入伺服器的 URL。 例如,輸入 sqlserver://hive.database.windows.net

    4. 針對 [選取集合],從清單中選擇集合或建立新的集合。 這是選擇性的步驟。

    顯示註冊 Hive 來源之方塊的螢幕擷取畫面。

  6. 選取 [完成]

掃描

提示

若要針對掃描的任何問題進行疑難排解:

  1. 確認您已遵循所有 必要條件
  2. 檢閱我們的 掃描疑難排解檔

使用下列步驟掃描 Hive 中繼存放區資料庫,以自動識別資產。 如需一般掃描的詳細資訊,請參閱 Microsoft Purview 中的掃描和擷取

  1. 在管理中心中,選取 [整合執行時間]。 請確定已設定自我裝載整合執行時間。 如果未設定,請使用 建立和管理自我裝載整合執行時間中的步驟。

  2. 移至 [來源]

  3. 選取已註冊的 Hive 中繼存放區資料庫。

  4. 取 [+ 新增掃描]

  5. 提供下列詳細資料:

    1. 名稱:輸入掃描的名稱。

    2. 透過整合執行時間連線:選取設定的自我裝載整合執行時間。

    3. 認證:選取要連線到資料來源的認證。 請務必:

      • 建立認證時選取 [基本驗證]。
      • 在適當的方塊中提供中繼存放區使用者名稱。
      • 將中繼存放區密碼儲存在秘密金鑰中。

      如需詳細資訊,請參閱 Microsoft Purview 中的來源驗證認證

    4. 中繼存放區 JDBC 驅動程式位置:指定執行自我主機整合執行時間之電腦中 JDBC 驅動程式位置的路徑,例如 D:\Drivers\HiveMetastore 。 這是有效 JAR 資料夾位置的路徑。 請確定自我裝載整合執行時間可存取驅動程式,請從 必要條件一節深入瞭解。

    5. 中繼存放區 JDBC 驅動程式類別:提供連接驅動程式的類別名稱。 例如,輸入 \com.microsoft.sqlserver.jdbc.SQLServerDriver

    6. 中繼存放區 JDBC URL:提供連線 URL 值,並定義與中繼存放區資料庫伺服器 URL 的連線。 例如:jdbc:sqlserver://hive.database.windows.net;database=hive;encrypt=true;trustServerCertificate=true;create=false;loginTimeout=300

      注意事項

      當您從 hive-site.xml複製 URL 時,請從字串中移除 amp; ,否則掃描將會失敗。

      將 SSL 憑證下載 到自我裝載整合執行時間電腦,然後在 URL 中更新您電腦上 SSL 憑證位置的路徑。

      當您在掃描組態中輸入本機檔案路徑時,請將 Windows 路徑分隔符號從反斜線 () \ 變更為正斜線 () / 。 例如,如果您將 SSL 憑證放在本機檔案路徑 D:\Drivers\SSLCert\BaltimoreCyberTrustRoot.crt.pem,請將參數值變更 serverSslCertD:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

      繼存放區 JDBC URL 值看起來會像下列範例:

      jdbc:mariadb://samplehost.mysql.database.azure.com:3306/XXXXXXXXXXXXXXXX?useSSL=true&enabledSslProtocolSuites=TLSv1,TLSv1.1,TLSv1.2&serverSslCert=D:/Drivers/SSLCert/BaltimoreCyberTrustRoot.crt.pem

    7. 中繼存放區資料庫名稱:提供 Hive 中繼存放區資料庫的名稱。

    8. 架構:指定要匯入的 Hive 架構清單。 例如: schema1;schema2

      如果該清單是空的,則會匯入所有使用者架構。 例如,預設會忽略 SysAdmin) 和 物件等所有系統架構 (。

      使用 SQL LIKE 運算式語法的可接受架構名稱模式包括百分比符號 (%) 。 例如, 表示 A%; %B; %C%; D

      • 從 A 或 開始
      • 以 B 結尾或
      • 包含 C 或
      • 等於 D

      NOT無法接受和特殊字元的使用方式。

    9. 可用的記憶體上限:客戶電腦上可用的最大記憶體 (以 GB 為單位) 供掃描程式使用。 此值取決於要掃描的 Hive 中繼存放區資料庫大小。

      注意事項

      根據經驗法則,請為每 1000 個數據表提供 1GB 記憶體。

    顯示掃描詳細資料方塊的螢幕擷取畫面。

  6. 選取 [繼續]

  7. 針對 [掃描觸發程式],選擇要設定排程或執行掃描一次。

  8. 檢閱您的掃描,然後選取 [ 儲存並執行]

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]
  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行識別碼以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]

  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
  • 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 變更。

血統

掃描 Hive 中繼存放區來源之後,您可以 流覽資料目錄搜尋資料目錄 來檢視資產詳細資料。

移至 [資產 - > 譜系] 索引標籤,您可以在適用時看到資產關聯性。 請參閱 支援的 Hive 中繼存放區譜系案例支援的功能一節。 如需一般譜系的詳細資訊,請參閱 資料譜系譜系使用者指南

後續步驟

既然您已註冊來源,請使用下列指南來深入瞭解 Microsoft Purview 和您的資料: