在 Microsoft Purview 中連線和管理 HDFS
本文概述如何在 HDFS) (註冊 Hadoop 分散式文件系統,以及如何在 Microsoft Purview 中驗證 HDFS 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
掃描 HDFS 來源時,Microsoft Purview 支援擷取技術元數據,包括 HDFS:
- Namenode
- 資料夾
- 檔案
- 資源集
設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡瞭解支援的檔案格式。
連接器會使用 Webhdfs 通訊協議來連線到 HDFS 並擷取元數據。 不支援 MapR Hadoop 散發。
- 具有使用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
- 作用 中Microsoft Purview 帳戶。
- 您需要數據源管理員和數據讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請參閱 Microsoft Purview 中的訪問控制。
-
為您的案例設定正確的整合運行時間:
-
若要使用自我載入整合執行時間:
- 請遵循文章來建立和設定自我裝載整合運行時間。
- 確定已在安裝自我裝載整合運行時間的計算機上安裝 JDK 11 。 在新安裝 JDK 之後重新啟動電腦,使其生效。
- 確定 C++ 可轉散發套件 (版本 Visual Studio 2012 Update 4 或更新版本的) 安裝在自我裝載整合運行時間執行所在的電腦上。 如果您尚未安裝此更新,請 立即下載。
- 若要設定環境以啟用 Kerberos 驗證,請參閱 使用 HDFS 連接器的 Kerberos 驗證 一節。
-
若要使用 kubernetes 支援的自我裝載整合運行時間:
- 請遵循文章來建立和設定 kubernetes 支援的整合運行時間。
- 若要設定環境以啟用 Kerberos 驗證,請參閱 使用 HDFS 連接器的 Kerberos 驗證 一節。
-
若要使用自我載入整合執行時間:
本節說明如何使用 Microsoft Purview 治理入口網站,在 Microsoft Purview 中註冊 HDFS。
若要在數據目錄中註冊新的 HDFS 來源,請遵循下列步驟:
- 在 Microsoft Purview 治理入口網站中,流覽至 您的 Microsoft Purview 帳戶。
- 選取左側導覽上的 [數據對應 ]。
- 選取 [註冊]
- 在 [註冊來源] 上,選取 [HDFS]。 選取 [繼續]。
在 [ HDFS) ] 畫面 ([註冊來源 ] 畫面上,遵循下列步驟:
輸入要在目錄中列出數據來源的 [名稱 ]。
以 或
http://<namenode>:<port>
的形式輸入 HDFS NameNode 的https://<namenode>:<port>
叢集 URL , 例如 或http://namenodeserver.com:50070
。https://namenodeserver.com:50470
從清單中選取集合。
完成註冊數據源。
請遵循下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介。
HDFS 來源支持的驗證類型是 Kerberos 驗證。
若要建立並執行新的掃描,請遵循下列步驟:
請確定已設定自我裝載整合運行時間。 如果未設定,請使用 必要條件中 所述的步驟來建立自我裝載整合運行時間。
流覽至 [來源]。
選取已註冊的 HDFS 來源。
選 取 [+ 新增掃描]。
在 [掃描 source_name] 頁面上,提供下列詳細數據:
名稱:掃描的名稱
透過整合運行時間連線:選取設定的自我裝載整合運行時間。 請參閱 必要條件 一節中的設定需求。
認證:選取要連線到數據源的認證。 請務必:
- 在建立認證時選取 [Kerberos 驗證 ]。
- 在 [用戶名稱] 輸入欄位中,以 的
<username>@<domain>.com
格式提供使用者名稱。 若要深入瞭解 ,請參閱針對 HDFS 連接器使用 Kerberos 驗證。 - 將用來連線至 HDFS 的使用者密碼儲存在秘密金鑰中。
選 取 [測試連線]。
選取 [繼續]。
在 [設定掃描範圍] 頁面上,選取您要掃描 () 路徑。
在 [選取掃描規則集] 頁面上,選取您要用於架構擷取和分類的掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。 從 建立掃描規則集深入瞭解。
在 [設定掃描觸發程式] 頁面上,選擇您的 掃描觸發程式。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
若要檢視現有的掃描:
- 移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
- 選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行標識碼以檢查 掃描執行詳細數據。
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 入口網站。 在左窗格中,選取 [ 數據對應]。
選取數據源。 您可以在 [最近掃描] 底下檢視該數據源上現有 掃描的清單,也可以在 [掃描] 索引 卷標上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
設定內部部署環境以使用 HDFS 連接器的 Kerberos 驗證有兩個選項。 您可以選擇最適合您情況的工具。
針對任一選項,請務必開啟 Hadoop 叢集的 Webhdfs:
建立 Webhdfs 的 HTTP 主體和金鑰表。
重要
根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 “HTTP/” 開頭。 從 這裡深入瞭解。
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
HDFS 組態選項:在 中新增下列三個
hdfs-site.xml
屬性。<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
- 自我裝載整合運行時間機器必須加入 Kerberos 領域,且無法加入任何 Windows 網域。
在 KDC 伺服器上:
建立主體,並指定密碼。
重要
使用者名稱不應該包含主機名。
Kadmin> addprinc <username>@<REALM.COM>
在自我載入整合執行時間電腦上:
執行 Ksetup 公用程式,以設定 Kerberos 金鑰發佈中心 (KDC) 伺服器和領域。
計算機必須設定為工作組的成員,因為 Kerberos 領域與 Windows 網域不同。 您可以藉由設定 Kerberos 領域並執行下列命令來新增 KDC 伺服器,來達成此設定。 將 REALM.COM 取代為您自己的領域名稱。
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
執行這些命令之後,請重新啟動電腦。
使用 命令驗證組態
Ksetup
。 輸出應該如下所示:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
在您的 Purview 帳戶中:
- 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細數據,請檢查 [掃描] 區段中的認證設定部分。
- 自我裝載整合運行時間計算機必須加入 Windows 網域。
- 您需要許可權才能更新域控制器的設定。
注意
將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱和域控制器。
在 KDC 伺服器上:
編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 參考下列設定範本來信任 Windows 網域。 根據預設,組態位於 /etc/krb5.conf。
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
設定檔案之後,請重新啟動 KDC 服務。
使用下列命令,在 KDC 伺服器中準備名為 krbtgt/REALM.COM@AD.COM 的主體:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
在 hadoop.security.auth_to_local HDFS 服務組態檔中,新增
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
。
在網域控制器上:
執行下列
Ksetup
命令以新增領域專案:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體 krbtgt/REALM.COM@AD.COM的密碼。
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
選取 Kerberos 中使用的加密演算法。
選取 [伺服器管理員>群組原則 管理>網域>群組原則 對象>預設值或作用中網域原則],然後選取 [編輯]。
在 [群組原則 管理 編輯器] 窗格上,選取 [計算機>>設定原則] [Windows 設定>安全性>設定] [本>機原則安全性選項],然後設定網络安全性:設定 Kerberos 允許的加密類型。
選取您要在連線到 KDC 伺服器時使用的加密演算法。 您可以選取所有選項。
Ksetup
使用 命令來指定要在指定領域上使用的加密演算法。C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
建立網域帳戶與 Kerberos 主體之間的對應,讓您可以在 Windows 網域中使用 Kerberos 主體。
選取[系統管理工具>) Active Directory 使用者和電腦] 。
選取 [檢視>進階功能],以設定進階功能。
在 [ 進階功能] 窗格中,以滑鼠右鍵按下您要建立對應的帳戶,然後在 [ 名稱對應 ] 窗格上,選取 [ Kerberos 名稱] 索引卷 標。
從領域新增主體。
在自我載入整合執行時間電腦上:
執行下列
Ksetup
命令以新增領域專案。C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
在您的 Purview 帳戶中:
- 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細數據,請檢查 [掃描] 區段中的認證設定部分。
目前,HDFS 連接器不支援進階 資源集的自定義資源集模式規則,將會套用內建資源集模式。
尚未支援敏感度標籤。
既然您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的數據。