分享方式:


在 Microsoft Purview 中連線和管理 HDFS

本文概述如何在 HDFS) (註冊 Hadoop 分散式檔案系統,以及如何在 Microsoft Purview 中驗證 HDFS 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章

支援的功能

中繼資料擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 血統 資料共用 即時檢視

掃描 HDFS 來源時,Microsoft Purview 支援擷取技術中繼資料,包括 HDFS:

  • Namenode
  • 資料夾
  • 檔案
  • 資源集

設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡瞭解支援的檔案格式。

連接器會使用 Webhdfs 通訊協定來連線到 HDFS 並擷取中繼資料。 不支援 MapR Hadoop 散發。

必要條件

登錄

本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview中註冊 HDFS。

註冊步驟

若要在資料目錄中註冊新的 HDFS 來源,請遵循下列步驟:

  1. Microsoft Purview 治理入口網站中流覽至您的 Microsoft Purview 帳戶。
  2. 選取左側導覽上的 [資料對應 ]。
  3. 選取 [註冊]
  4. 在 [註冊來源] 上,選取 [HDFS]。 選取 [繼續]

在 [ HDFS) ] 畫面 ([註冊來源 ] 畫面上,遵循下列步驟:

  1. 輸入要在目錄中列出資料來源的 [名稱 ]。

  2. 以 或 http://<namenode>:<port> 的形式輸入 HDFS NameNode 的 https://<namenode>:<port>集 URL,例如 或 http://namenodeserver.com:50070https://namenodeserver.com:50470

  3. 選取集合或建立新的集合 (選擇性)

  4. 完成註冊資料來源。

    Purview 中 HDFS 來源註冊的螢幕擷取畫面。

掃描

請遵循下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介

掃描的驗證

HDFS 來源支援的驗證類型是 Kerberos 驗證

建立和執行掃描

若要建立並執行新的掃描,請遵循下列步驟:

  1. 請確定已設定自我裝載整合執行時間。 如果未設定,請使用 此處 所述的步驟來建立自我裝載整合執行時間。

  2. 流覽至 [來源]

  3. 選取已註冊的 HDFS 來源。

  4. 取 [+ 新增掃描]

  5. 在 [掃描 source_name] 頁面上,提供下列詳細資料:

    1. 名稱:掃描的名稱

    2. 透過整合執行時間連線:選取設定的自我裝載整合執行時間。 請參閱 必要條件 一節中的設定需求。

    3. 認證:選取要連線到資料來源的認證。 請務必:

      • 在建立認證時選取 [Kerberos 驗證 ]。
      • 在 [使用者名稱] 輸入欄位中,以 的 <username>@<domain>.com 格式提供使用者名稱。 若要深入瞭解 ,請參閱針對 HDFS 連接器使用 Kerberos 驗證
      • 將用來連線至 HDFS 的使用者密碼儲存在秘密金鑰中。

      Purview 中 HDFS 掃描設定的螢幕擷取畫面。

  6. 取 [測試連線]

  7. 選取 [繼續]

  8. 在 [設定掃描範圍] 頁面上,選取您要掃描 () 路徑。

  9. 在 [選取掃描規則集] 頁面上,選取您要用於架構擷取和分類的掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。 從 建立掃描規則集深入瞭解。

  10. 在 [設定掃描觸發程式] 頁面上,選擇您的 掃描觸發程式。 您可以設定排程或執行掃描一次。

  11. 檢閱您的掃描,然後選取 [ 儲存並執行]

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]
  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行識別碼以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]

  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
  • 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 變更。

針對 HDFS 連接器使用 Kerberos 驗證

設定內部部署環境以使用 HDFS 連接器的 Kerberos 驗證有兩個選項。 您可以選擇最適合您情況的工具。

針對任一選項,請務必開啟 Hadoop 叢集的 Webhdfs:

  1. 建立 Webhdfs 的 HTTP 主體和金鑰表。

    重要事項

    根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 「HTTP/」 開頭。 從 這裡深入瞭解。

    Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM>
    Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
    
  2. HDFS 組態選項:在 中新增下列三個 hdfs-site.xml 屬性。

    <property>
        <name>dfs.webhdfs.enabled</name>
        <value>true</value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.principal</name>
        <value>HTTP/_HOST@<REALM.COM></value>
    </property>
    <property>
        <name>dfs.web.authentication.kerberos.keytab</name>
        <value>/etc/security/keytab/spnego.service.keytab</value>
    </property>
    

選項 1:在 Kerberos 領域中加入自我裝載整合執行時間機器

需求

  • 自我裝載整合執行時間機器必須加入 Kerberos 領域,且無法加入任何 Windows 網域。

如何設定

在 KDC 伺服器上:

建立主體,並指定密碼。

重要事項

使用者名稱不應該包含主機名稱。

Kadmin> addprinc <username>@<REALM.COM>

在自我裝載整合執行時間電腦上:

  1. 執行 Ksetup 公用程式,以設定 Kerberos 金鑰發佈中心 (KDC) 伺服器和領域。

    電腦必須設定為工作組的成員,因為 Kerberos 領域與 Windows 網域不同。 您可以藉由設定 Kerberos 領域並執行下列命令來新增 KDC 伺服器,來達成此設定。 將 REALM.COM 取代為您自己的領域名稱稱。

    C:> Ksetup /setdomain REALM.COM
    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    

    執行這些命令之後,請重新開機電腦。

  2. 使用 命令驗證組態 Ksetup 。 輸出應該如下所示:

    C:> Ksetup
    default realm = REALM.COM (external)
    REALM.com:
        kdc = <your_kdc_server_address>
    

在您的 Purview 帳戶中:

  • 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細資料,請檢查 [掃描] 區段中的認證設定部分。

選項 2:啟用 Windows 網域與 Kerberos 領域之間的相互信任

需求

  • 自我裝載整合執行時間電腦必須加入 Windows 網域。
  • 您需要許可權才能更新網域控制站的設定。

如何設定

注意事項

將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱稱和網域控制站。

在 KDC 伺服器上:

  1. 編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 參考下列設定範本來信任 Windows 網域。 根據預設,組態位於 /etc/krb5.conf

    [logging]
     default = FILE:/var/log/krb5libs.log
     kdc = FILE:/var/log/krb5kdc.log
     admin_server = FILE:/var/log/kadmind.log
    
    [libdefaults]
     default_realm = REALM.COM
     dns_lookup_realm = false
     dns_lookup_kdc = false
     ticket_lifetime = 24h
     renew_lifetime = 7d
     forwardable = true
    
    [realms]
     REALM.COM = {
      kdc = node.REALM.COM
      admin_server = node.REALM.COM
     }
    AD.COM = {
     kdc = windc.ad.com
     admin_server = windc.ad.com
    }
    
    [domain_realm]
     .REALM.COM = REALM.COM
     REALM.COM = REALM.COM
     .ad.com = AD.COM
     ad.com = AD.COM
    
    [capaths]
     AD.COM = {
      REALM.COM = .
     }
    

    設定檔案之後,請重新開機 KDC 服務。

  2. 使用下列命令,在 KDC 伺服器中準備名為krbtgt/ REALM.COM@AD.COM的主體:

    Kadmin> addprinc krbtgt/REALM.COM@AD.COM
    
  3. hadoop.security.auth_to_local HDFS 服務組態檔中,新增 RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//

在網域控制站上:

  1. 執行下列 Ksetup 命令以新增領域專案:

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    
  2. 建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體krbtgt/ REALM.COM@AD.COM的密碼。

    C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
    
  3. 選取 Kerberos 中使用的加密演算法。

    1. 取 [伺服器管理員>群組原則 管理>網域>群組原則物件>預設值或作用中網域原則],然後選取 [編輯]

    2. [群組原則 管理編輯器] 窗格中,選取 [電腦>> 設定原則] [Windows 設定>安全性> 設定] [本> 機原則安全性選項],然後設定網路安全性:設定 Kerberos 允許的加密類型

    3. 選取您要在連線到 KDC 伺服器時使用的加密演算法。 您可以選取所有選項。

      [網路安全性:設定 Kerberos 允許的加密類型] 窗格的螢幕擷取畫面。

    4. Ksetup使用 命令來指定要在指定領域上使用的加密演算法。

      C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
      
  4. 建立網域帳戶與 Kerberos 主體之間的對應,讓您可以在 Windows 網域中使用 Kerberos 主體。

    1. 取 [系統管理工具>] [Active Directory 使用者和電腦]

    2. 選取 [檢> 進階功能],以設定進階功能

    3. 在 [ 進階功能] 窗格中,以滑鼠右鍵按一下您要建立對應的帳戶,然後在 [ 名稱對應 ] 窗格上,選取 [ Kerberos 名稱] 索引卷 標。

    4. 從領域新增主體。

      [安全性身分識別對應] 窗格的螢幕擷取畫面。

在自我裝載整合執行時間電腦上:

  • 執行下列 Ksetup 命令以新增領域專案。

    C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
    C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
    

在您的 Purview 帳戶中:

  • 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細資料,請檢查 [掃描] 區段中的認證設定部分。

已知限制

目前,HDFS 連接器不支援進階 資源集的自訂資源集模式規則,將會套用內建資源集模式。

尚未支援敏感度標籤

後續步驟

現在您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的資料。