在 Microsoft Purview 中連線和管理 HDFS
本文概述如何在 HDFS) (註冊 Hadoop 分散式檔案系統,以及如何在 Microsoft Purview 中驗證 HDFS 並與其互動。 如需 Microsoft Purview 的詳細資訊,請閱讀 簡介文章。
支援的功能
中繼資料擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 血統 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 否 | 否 | 否 | 否 | 否 |
掃描 HDFS 來源時,Microsoft Purview 支援擷取技術中繼資料,包括 HDFS:
- Namenode
- 資料夾
- 檔案
- 資源集
設定掃描時,您可以選擇掃描整個 HDFS 或選擇性資料夾。 在這裡瞭解支援的檔案格式。
連接器會使用 Webhdfs 通訊協定來連線到 HDFS 並擷取中繼資料。 不支援 MapR Hadoop 散發。
必要條件
具有使用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
使用中的 Microsoft Purview 帳戶。
您需要資料來源管理員和資料讀取者許可權,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需許可權的詳細資訊,請 參閱 Microsoft Purview 中的存取控制。
設定最新的 自我裝載整合執行時間。 如需詳細資訊,請參閱 建立和設定自我裝載整合執行時間指南。 最低支援的自我裝載Integration Runtime版本是 5.20.8235.2。
- 確定C++ 可轉散發套件 (版本 Visual Studio 2012 Update 4 或更新版本) 已安裝在自我裝載整合執行時間電腦上。 如果您未安裝此更新, 您可以在這裡下載。
- 確定已在自我裝載整合執行時間電腦上安裝 JRE 或 OpenJDK,以剖析 Parquet 和 ORC 檔案。 從 這裡深入瞭解。
- 若要設定環境以啟用 Kerberos 驗證,請參閱 使用 HDFS 連接器的 Kerberos 驗證 一節。
登錄
本節說明如何使用 Microsoft Purview 治理入口網站在 Microsoft Purview中註冊 HDFS。
註冊步驟
若要在資料目錄中註冊新的 HDFS 來源,請遵循下列步驟:
- 在 Microsoft Purview 治理入口網站中流覽至您的 Microsoft Purview 帳戶。
- 選取左側導覽上的 [資料對應 ]。
- 選取 [註冊]
- 在 [註冊來源] 上,選取 [HDFS]。 選取 [繼續]。
在 [ HDFS) ] 畫面 ([註冊來源 ] 畫面上,遵循下列步驟:
輸入要在目錄中列出資料來源的 [名稱 ]。
以 或
http://<namenode>:<port>
的形式輸入 HDFS NameNode 的https://<namenode>:<port>
叢集 URL,例如 或http://namenodeserver.com:50070
。https://namenodeserver.com:50470
選取集合或建立新的集合 (選擇性)
完成註冊資料來源。
掃描
請遵循下列步驟掃描 HDFS 以自動識別資產。 如需一般掃描的詳細資訊,請參閱 掃描和擷取簡介。
掃描的驗證
HDFS 來源支援的驗證類型是 Kerberos 驗證。
建立和執行掃描
若要建立並執行新的掃描,請遵循下列步驟:
請確定已設定自我裝載整合執行時間。 如果未設定,請使用 此處 所述的步驟來建立自我裝載整合執行時間。
流覽至 [來源]。
選取已註冊的 HDFS 來源。
選 取 [+ 新增掃描]。
在 [掃描 source_name] 頁面上,提供下列詳細資料:
名稱:掃描的名稱
透過整合執行時間連線:選取設定的自我裝載整合執行時間。 請參閱 必要條件 一節中的設定需求。
認證:選取要連線到資料來源的認證。 請務必:
- 在建立認證時選取 [Kerberos 驗證 ]。
- 在 [使用者名稱] 輸入欄位中,以 的
<username>@<domain>.com
格式提供使用者名稱。 若要深入瞭解 ,請參閱針對 HDFS 連接器使用 Kerberos 驗證。 - 將用來連線至 HDFS 的使用者密碼儲存在秘密金鑰中。
選 取 [測試連線]。
選取 [繼續]。
在 [設定掃描範圍] 頁面上,選取您要掃描 () 路徑。
在 [選取掃描規則集] 頁面上,選取您要用於架構擷取和分類的掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。 從 建立掃描規則集深入瞭解。
在 [設定掃描觸發程式] 頁面上,選擇您的 掃描觸發程式。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [ 儲存並執行]。
檢視掃描和掃描執行
若要檢視現有的掃描:
- 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]。
- 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
- 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
- 選取執行識別碼以檢查 掃描執行詳細資料。
管理您的掃描
若要編輯、取消或刪除掃描:
移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]。
選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
選取您要管理的掃描。 然後您可以:
- 選取 [編輯掃描 ],以編輯掃描。
- 選取 [ 取消掃描執行],以取消進行中的掃描。
- 選取 [ 刪除掃描],以刪除掃描。
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
- 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 構 變更。
針對 HDFS 連接器使用 Kerberos 驗證
設定內部部署環境以使用 HDFS 連接器的 Kerberos 驗證有兩個選項。 您可以選擇最適合您情況的工具。
針對任一選項,請務必開啟 Hadoop 叢集的 Webhdfs:
建立 Webhdfs 的 HTTP 主體和金鑰表。
重要事項
根據 Kerberos HTTP SPNEGO 規格,HTTP Kerberos 主體必須以 「HTTP/」 開頭。 從 這裡深入瞭解。
Kadmin> addprinc -randkey HTTP/<namenode hostname>@<REALM.COM> Kadmin> ktadd -k /etc/security/keytab/spnego.service.keytab HTTP/<namenode hostname>@<REALM.COM>
HDFS 組態選項:在 中新增下列三個
hdfs-site.xml
屬性。<property> <name>dfs.webhdfs.enabled</name> <value>true</value> </property> <property> <name>dfs.web.authentication.kerberos.principal</name> <value>HTTP/_HOST@<REALM.COM></value> </property> <property> <name>dfs.web.authentication.kerberos.keytab</name> <value>/etc/security/keytab/spnego.service.keytab</value> </property>
選項 1:在 Kerberos 領域中加入自我裝載整合執行時間機器
需求
- 自我裝載整合執行時間機器必須加入 Kerberos 領域,且無法加入任何 Windows 網域。
如何設定
在 KDC 伺服器上:
建立主體,並指定密碼。
重要事項
使用者名稱不應該包含主機名稱。
Kadmin> addprinc <username>@<REALM.COM>
在自我裝載整合執行時間電腦上:
執行 Ksetup 公用程式,以設定 Kerberos 金鑰發佈中心 (KDC) 伺服器和領域。
電腦必須設定為工作組的成員,因為 Kerberos 領域與 Windows 網域不同。 您可以藉由設定 Kerberos 領域並執行下列命令來新增 KDC 伺服器,來達成此設定。 將 REALM.COM 取代為您自己的領域名稱稱。
C:> Ksetup /setdomain REALM.COM C:> Ksetup /addkdc REALM.COM <your_kdc_server_address>
執行這些命令之後,請重新開機電腦。
使用 命令驗證組態
Ksetup
。 輸出應該如下所示:C:> Ksetup default realm = REALM.COM (external) REALM.com: kdc = <your_kdc_server_address>
在您的 Purview 帳戶中:
- 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細資料,請檢查 [掃描] 區段中的認證設定部分。
選項 2:啟用 Windows 網域與 Kerberos 領域之間的相互信任
需求
- 自我裝載整合執行時間電腦必須加入 Windows 網域。
- 您需要許可權才能更新網域控制站的設定。
如何設定
注意事項
將下列教學課程中的 REALM.COM 和 AD.COM 取代為您自己的領域名稱稱和網域控制站。
在 KDC 伺服器上:
編輯 krb5.conf 檔案中的 KDC 組態,讓 KDC 參考下列設定範本來信任 Windows 網域。 根據預設,組態位於 /etc/krb5.conf。
[logging] default = FILE:/var/log/krb5libs.log kdc = FILE:/var/log/krb5kdc.log admin_server = FILE:/var/log/kadmind.log [libdefaults] default_realm = REALM.COM dns_lookup_realm = false dns_lookup_kdc = false ticket_lifetime = 24h renew_lifetime = 7d forwardable = true [realms] REALM.COM = { kdc = node.REALM.COM admin_server = node.REALM.COM } AD.COM = { kdc = windc.ad.com admin_server = windc.ad.com } [domain_realm] .REALM.COM = REALM.COM REALM.COM = REALM.COM .ad.com = AD.COM ad.com = AD.COM [capaths] AD.COM = { REALM.COM = . }
設定檔案之後,請重新開機 KDC 服務。
使用下列命令,在 KDC 伺服器中準備名為krbtgt/ REALM.COM@AD.COM的主體:
Kadmin> addprinc krbtgt/REALM.COM@AD.COM
在 hadoop.security.auth_to_local HDFS 服務組態檔中,新增
RULE:[1:$1@$0](.*\@AD.COM)s/\@.*//
。
在網域控制站上:
執行下列
Ksetup
命令以新增領域專案:C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
建立從 Windows 網域到 Kerberos 領域的信任。 [password] 是主體krbtgt/ REALM.COM@AD.COM的密碼。
C:> netdom trust REALM.COM /Domain: AD.COM /add /realm /password:[password]
選取 Kerberos 中使用的加密演算法。
選取 [伺服器管理員>群組原則 管理>網域>群組原則物件>預設值或作用中網域原則],然後選取 [編輯]。
在[群組原則 管理編輯器] 窗格中,選取 [電腦>> 設定原則] [Windows 設定>安全性> 設定] [本> 機原則安全性選項],然後設定網路安全性:設定 Kerberos 允許的加密類型。
選取您要在連線到 KDC 伺服器時使用的加密演算法。 您可以選取所有選項。
Ksetup
使用 命令來指定要在指定領域上使用的加密演算法。C:> ksetup /SetEncTypeAttr REALM.COM DES-CBC-CRC DES-CBC-MD5 RC4-HMAC-MD5 AES128-CTS-HMAC-SHA1-96 AES256-CTS-HMAC-SHA1-96
建立網域帳戶與 Kerberos 主體之間的對應,讓您可以在 Windows 網域中使用 Kerberos 主體。
選取 [系統管理工具>] [Active Directory 使用者和電腦]。
選取 [檢視> 進階功能],以設定進階功能。
在 [ 進階功能] 窗格中,以滑鼠右鍵按一下您要建立對應的帳戶,然後在 [ 名稱對應 ] 窗格上,選取 [ Kerberos 名稱] 索引卷 標。
從領域新增主體。
在自我裝載整合執行時間電腦上:
執行下列
Ksetup
命令以新增領域專案。C:> Ksetup /addkdc REALM.COM <your_kdc_server_address> C:> ksetup /addhosttorealmmap HDFS-service-FQDN REALM.COM
在您的 Purview 帳戶中:
- 使用您的 Kerberos 主體名稱和密碼設定具有 Kerberos 驗證類型的認證,以掃描 HDFS。 如需組態詳細資料,請檢查 [掃描] 區段中的認證設定部分。
已知限制
目前,HDFS 連接器不支援進階 資源集的自訂資源集模式規則,將會套用內建資源集模式。
尚未支援敏感度標籤。
後續步驟
現在您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的資料。