Share via


在 Microsoft Purview 中連線到 Azure Data Lake Storage

本文概述在 Microsoft Purview 中註冊和管理 Azure Data Lake Storage (ADLS Gen2) 資料來源的程式,包括驗證 ADLS Gen2 來源並與其互動的指示。

支援的功能

中繼資料擷取 完整掃描 增量掃描 限域掃描 分類 加標籤 存取原則 血統 資料共用 即時檢視
是 (預覽) 有限*

* 如果資料集是做為 Data Factory 或 Synapse 管線中的來源/接收器,則支援譜系。

掃描Azure Data Lake Storage Gen2來源時,Microsoft Purview 支援擷取技術中繼資料,包括:

  • 儲存體帳戶
  • Data Lake Storage Gen2服務
  • 檔案系統 (容器)
  • 資料夾
  • 檔案
  • 資源集

設定掃描時,您可以選擇掃描整個 ADLS Gen2 或選擇性資料夾。 在這裡瞭解支援的檔案格式。

必要條件

登錄

本節可讓您註冊 ADLS Gen2 資料來源,以在 Purview 中進行掃描和資料共用。

註冊的必要條件

  • 您必須是資料來源管理員,以及其中一個其他 Purview 角色 (例如資料讀取器或Data Share參與者) ,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需詳細資訊,請參閱我們的 Microsoft Purview 許可權頁面

註冊步驟

在設定資料來源掃描之前,請務必先在 Microsoft Purview 中註冊資料來源。

  1. 移至 Microsoft Purview 治理入口網站,方法如下:

  2. 流覽至 資料對應 -- > 來源

    顯示開啟 Microsoft Purview 治理入口網站連結的螢幕擷取畫面

    流覽至資料對應中 [來源] 連結的螢幕擷取畫面

  3. 使用 [集合] 功能表建立集合階層,並視需要將許可權指派給個別子集合

    顯示要建立集合階層之集合功能表的螢幕擷取畫面

  4. 流覽至 [ 來源 ] 功能表下的適當集合,然後選取 [註冊 ] 圖示以註冊新的 ADLS Gen2 資料來源

    顯示用來註冊資料來源之集合的螢幕擷取畫面

  5. 取Azure Data Lake Storage Gen2資料來源,然後選取 [繼續]

    允許選取資料來源的螢幕擷取畫面

  6. 為數據源提供適當的 [名稱 ],選取相關的 Azure 訂用帳戶、現有的 Data Lake Store 帳戶名稱集合 ,然後選取 [ 套用]。 將 [資料使用管理] 切換保留在 用的位置,直到您有機會仔細流覽此 為止。

    顯示要輸入以註冊資料來源之詳細資料的螢幕擷取畫面

  7. ADLS Gen2 儲存體帳戶會顯示在選取的集合下方

    顯示對應至集合以起始掃描之資料來源的螢幕擷取畫面

掃描

提示

若要針對掃描的任何問題進行疑難排解:

  1. 確認您已正確設定 掃描的驗證
  2. 檢閱我們的 掃描疑難排解檔

掃描的驗證

您的 Azure 網路可能會允許 Azure 資源之間的通訊,但如果您已在 Azure 內設定防火牆、私人端點或虛擬網路,則必須遵循下列其中一個設定。

網路條件約束 整合執行時間類型 可用的認證類型
沒有私人端點或防火牆 Azure IR 受控識別 (建議的) 、服務主體或帳戶金鑰
已啟用防火牆,但沒有私人端點 Azure IR 受控識別
已啟用私人端點 *自我裝載 IR 服務主體、帳戶金鑰

重要事項

  1. *若要使用自我裝載整合執行時間,您必須先 建立一個 ,並確認 Microsoft Purview 的網路設定
  2. 如果您使用 Self-Hosted Integration Runtime 掃描 parquet 檔案,則必須在 IR 電腦上安裝 64 位 JRE 8 (JAVA 執行時間環境) 或 OpenJDK 。 您可以查看我們的 JAVA 執行時間環境安裝指南

使用系統或使用者指派的受控識別進行掃描

您可以使用兩種類型的受控識別:

  • 系統指派的受控識別 (建議的) - 一旦建立 Microsoft Purview 帳戶,系統指派的受控識別 (SAMI) 就會自動在 Azure AD 租使用者中建立。 視資源類型而定,Microsoft Purview 系統指派的受控識別 (SAMI) 需要特定的 RBAC 角色指派,才能執行掃描。

  • 使用者指派的 受控識別 (預覽) - 類似于系統受控識別,使用者指派的受控識別 (UAMI) 是認證資源,可用來允許 Microsoft Purview 對 Azure Active Directory 進行驗證。 如需詳細資訊,您可以參閱我們的 使用者指派受控識別指南

請務必為您的 Microsoft Purview 帳戶或使用者指派的受控識別 (UAMI) 掃描 ADLS Gen2 資料來源的許可權。 您可以新增 Microsoft Purview 帳戶的系統指派受控識別 (其名稱與您的 Microsoft Purview 帳戶名稱相同,) 訂用帳戶、資源群組或資源層級的 UAMI,視需要的層級掃描許可權而定。

注意事項

您必須是訂用帳戶的擁有者,才能在 Azure 資源上新增受控識別。

  1. Azure 入口網站中,尋找訂用帳戶、資源群組或資源 (,例如您想要允許目錄掃描的Azure Data Lake Storage Gen2儲存體帳戶) 。

    顯示儲存體帳戶的螢幕擷取畫面

  2. 選取左側導覽中的 [存取控制 (IAM) ],然後選取[+ 新增-- >新增角色指派]

    顯示儲存體帳戶存取控制的螢幕擷取畫面

  3. [角色] 設定為[儲存體 Blob 資料讀取者],然後在 [取輸入] 方塊下輸入您的Microsoft Purview 帳戶名稱使用者指派的受控識別。 然後,選取 [儲存 ] 將此角色指派給您的 Microsoft Purview 帳戶。

    顯示指派 Microsoft Purview 帳戶許可權詳細資料的螢幕擷取畫面

    注意事項

    如需詳細資訊,請參閱使用 Azure Active Directory 授權存取 Blob 和佇列中的步驟

    注意事項

    如果您已啟用儲存體帳戶的防火牆,您必須在設定掃描時使用 受控識別 驗證方法。

  4. 在 Azure 入口網站 中移至您的 ADLS Gen2 存儲帳戶

  5. 流覽至 [安全性 + 網路功能 > ]

    顯示提供防火牆存取之詳細資料的螢幕擷取畫面

  6. 在 [允許從中存取] 下選擇[選取的網路]

    顯示允許存取所選網路詳細資料的螢幕擷取畫面

  7. 在 [ 例外狀況] 區段中 ,選 取 [允許受信任的 Microsoft 服務存取此儲存體帳戶 ],然後按 [ 儲存]

    顯示允許受信任的 Microsoft 服務存取儲存體帳戶之例外狀況的螢幕擷取畫面

建立掃描

  1. 開啟您的 Microsoft Purview 帳戶 ,然後選取 開啟 Microsoft Purview 治理入口網站

  2. 流覽至資料對應-- >Sources以檢視集合階層

  3. 選取稍早註冊的 ADLS Gen2 資料來源底下的[新增掃描] 圖示

    顯示建立新掃描畫面的螢幕擷取畫面

如果使用系統或使用者指派的受控識別

  1. 提供掃描的 [名稱 ]、在 [ 認證] 下選取系統指派或使用者指派的受控識別、為掃描選擇適當的集合,然後選取 [ 測試連線]。 在成功的連線上,選取 [ 繼續]

    顯示執行掃描之受控識別選項的螢幕擷取畫面

設定範圍並執行掃描

  1. 您可以挑選清單中的適當專案,將掃描範圍設定為特定資料夾和子資料夾。

    設定掃描範圍

  2. 然後選取掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。

    掃描規則集

  3. 如果建立新的 掃描規則集,請選取要包含在掃描規則中 的檔案類型

    掃描規則集檔案類型

  4. 您可以選取要包含在掃描 規則中的分類 規則

    掃描規則集分類規則

    掃描規則集選取範圍

  5. 選擇掃描觸發程式。 您可以設定排程或執行掃描一次。

    掃描觸發程式

  6. 檢閱您的掃描,然後選取 [儲存並執行]

    檢閱掃描

檢視掃描和掃描執行

若要檢視現有的掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]
  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。
  3. 選取具有您想要檢視結果的掃描。 此窗格會顯示所有先前的掃描執行,以及每個掃描執行的狀態和計量。
  4. 選取執行識別碼以檢查 掃描執行詳細資料

管理您的掃描

若要編輯、取消或刪除掃描:

  1. 移至 Microsoft Purview 治理入口網站。 在左窗格中,選取 [ 資料對應]

  2. 選取資料來源。 您可以在 [最近掃描] 底下檢視該資料來源上現有 掃描的清單,也可以在 [掃描] 索引 標籤上 檢視所有掃描。

  3. 選取您要管理的掃描。 然後您可以:

    • 選取 [編輯掃描 ],以編輯掃描
    • 選取 [ 取消掃描執行],以取消進行中的掃描。
    • 選取 [ 刪除掃描],以刪除掃描

注意事項

  • 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
  • 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤上編輯描述之後重新掃描來源資料表,則資產將不再更新架 變更。

資料共用

Microsoft Purview 資料共用 (預覽) 可讓您就地從 ADLS Gen2 共用資料到 ADLS Gen2。 本節提供有關就地共用和接收資料之 ADLS Gen2 特定需求的詳細資料。 如需如何使用資料共用的逐步指南,請參閱 如何共用資料如何接收共用

就地資料共用支援的儲存體帳戶

就地資料共用支援下列儲存體帳戶:

  • 區域:加拿大中部、加拿大東部、英國南部、英國西部、澳大利亞東部、日本東部、南韓南部和南非北部
  • 備援選項:LRS、GRS、RA-GRS
  • 階層:經常性存取層、非經常性存取層

預覽版僅使用不含生產工作負載的儲存體帳戶。

注意事項

來源和目標儲存體帳戶必須位於彼此相同的區域中。 它們不需要位於與 Microsoft Purview 帳戶相同的區域中。

共用資料所需的儲存體帳戶許可權

若要將儲存體帳戶資產新增或更新至共用,您需要下列其中一個許可權:

  • Microsoft.Authorization/roleAssignments/write - 此許可權可在 擁有者 角色中使用。
  • Microsoft.Storage/storageAccounts/blobServices/containers/blobs/modifyPermissions/ - 此許可權可在 Blob 儲存體資料擁有者 角色中使用。

接收共用資料所需的儲存體帳戶許可權

若要對應所接收共用中的儲存體帳戶資產,您需要下列其中一個許可權:

  • Microsoft.Storage/storageAccounts/write - 此許可權可在 參與者擁有者 角色中取得。
  • Microsoft.Storage/storageAccounts/blobServices/containers/write - 此許可權可在 參與者擁有者儲存體 Blob 資料參與者儲存體 Blob 資料擁有者 角色中取得。

更新來源儲存體帳戶中的共用資料

更新從來源儲存體帳戶將共用檔案或共用資料夾中的資料提供給目標儲存體帳戶中的收件者近乎即時地使用。 當您刪除共用資料夾內的子資料夾或檔案時,收件者將會消失。 若要刪除共用資料夾、檔案或父資料夾或容器,您必須先從來源儲存體帳戶撤銷所有共用的存取權。

存取目標儲存體帳戶中的共用資料

目標儲存體帳戶可讓收件者近乎即時地存取共用資料唯讀。 您可以將 Synapse 工作區和 Databricks 等分析工具連線到共用資料,以執行分析。 存取共用資料的成本會向目標儲存體帳戶收費。

服務限制

來源儲存體帳戶最多可支援 20 個目標,而目標儲存體帳戶最多可支援 100 個來源。 如果您需要增加限制,請連絡支援服務。

存取原則

支援的原則

Microsoft Purview 支援此資料資源的下列原則類型:

Azure 儲存體帳戶上的存取原則必要條件

區域支援

  • 支援所有 Microsoft Purview 區域
  • 支援下欄區域中的儲存體帳戶,而不需要額外的設定。 不過,不支援 ZRS) 帳戶 (區域備援儲存體。
    • 美國東部
    • 美國東部 2
    • 美國中南部
    • 美國西部 2
    • 加拿大中部
    • 北歐
    • 西歐
    • 法國中部
    • 英國南部
    • 東南亞
    • 澳大利亞東部
  • 設定功能旗標 AllowPurviewPolicyEnforcement之後,支援公用雲端中其他區域中的儲存體帳戶,如下一節所述。 如果在設定功能旗標 AllowPurviewPolicyEnforcement之後建立,則支援新建立的 ZRS 儲存體帳戶。

如有需要,您可以 遵循本指南來建立新的儲存體帳戶。

針對來自 Microsoft Purview 的原則設定 Azure 儲存體帳戶所在的訂用帳戶

只有在某些區域中才需要此步驟, (請參閱前一節) 。 若要讓 Microsoft Purview 管理一或多個 Azure 儲存體帳戶的原則,請在您將部署 Azure 儲存體帳戶的訂用帳戶中執行下列 PowerShell 命令。 這些 PowerShell 命令可讓 Microsoft Purview 管理該訂用帳戶中所有 Azure 儲存體帳戶的原則。

如果您要在本機執行這些命令,請務必以系統管理員身分執行 PowerShell。 或者,您可以在下Azure 入口網站中使用Azure Cloud Shell: https://shell.azure.com

# Install the Az module
Install-Module -Name Az -Scope CurrentUser -Repository PSGallery -Force
# Login into the subscription
Connect-AzAccount -Subscription <SubscriptionID>
# Register the feature
Register-AzProviderFeature -FeatureName AllowPurviewPolicyEnforcement -ProviderNamespace Microsoft.Storage

如果最後一個命令的輸出顯示 RegistrationState為 Registered,則您的訂用帳戶會啟用存取原則。 如果輸出正在 註冊,請等候至少 10 分鐘,然後重試命令。 除非 RegistrationState 顯示為 Registered,否則請勿繼續

設定原則的 Microsoft Purview 帳戶

在 Microsoft Purview 中註冊資料來源

您必須先在 Microsoft Purview Studio 中註冊該資料資源,才能在 Microsoft Purview 中建立資料資源的原則。 您稍後會在本指南中找到與註冊資料資源相關的指示。

注意事項

Microsoft Purview 原則依賴資料資源 ARM 路徑。 如果資料資源移至新的資源群組或訂用帳戶,則必須取消註冊,然後再次在 Microsoft Purview 中註冊。

設定許可權以啟用資料來源的資料使用管理

註冊資源之後,但在 Microsoft Purview 中為該資源建立原則之前,您必須設定許可權。 需要一組許可權,才能啟 用資料使用管理。 這適用于資料來源、資源群組或訂用帳戶。 若要啟 用資料使用管理,您必須 同時 擁有資源的特定身分識別和存取管理 (IAM) 許可權,以及特定的 Microsoft Purview 許可權:

  • 您必須在資源的 Azure Resource Manager 路徑上具有下列其中一個IAM 角色組合,或 (任何父系,也就是使用 IAM 許可權繼承) :

    • IAM 擁有者
    • IAM 參與者和 IAM 使用者存取系統管理員

    若要 (RBAC) 許可權設定 Azure 角色型存取控制,請遵循 本指南。 下列螢幕擷取畫面顯示如何存取資料資源Azure 入口網站中的 [存取控制] 區段,以新增角色指派。

    顯示新增角色指派之Azure 入口網站區段的螢幕擷取畫面。

    注意事項

    資料資源的 IAM 擁有者 角色可以繼承自父資源群組、訂用帳戶或訂用帳戶管理群組。 檢查哪些 Azure AD 使用者、群組和服務主體持有或繼承資源的 IAM 擁有者 角色。

  • 如果已啟用繼承) ,您也必須擁有集合的 Microsoft Purview 資料來源 管理員角色或父集合 (。 如需詳細資訊,請參閱 管理 Microsoft Purview 角色指派的指南

    下列螢幕擷取畫面顯示如何在根集合層級指派 資料來源系統管理員 角色。

    顯示在根集合層級指派資料來源系統管理員角色之選取專案的螢幕擷取畫面。

設定 Microsoft Purview 許可權以建立、更新或刪除存取原則

若要建立、更新或刪除原則,您必須在根集合層級取得 Microsoft Purview 中的原則作者角色:

  • 原則 作者 角色可以建立、更新和刪除 DevOps 和資料擁有者原則。
  • 原則 作者 角色可以刪除自助式存取原則。

如需管理 Microsoft Purview 角色指派的詳細資訊,請參閱在Microsoft Purview 資料對應中建立和管理集合

注意事項

原則作者角色必須在根集合層級設定。

此外,若要在建立或更新原則主體時輕鬆搜尋 Azure AD 使用者或群組,您可以從取得 Azure AD 中的目錄讀 取者許可權中獲益。 這是 Azure 租使用者中使用者的常見許可權。 如果沒有目錄讀取者許可權,原則作者就必須輸入資料原則主體中所包含之所有主體的完整使用者名稱或電子郵件。

設定發佈資料擁有者原則的 Microsoft Purview 許可權

如果您將 Microsoft Purview 原則 作者資料來源系統管理員 角色指派給組織中的不同人員,資料擁有者原則允許檢查和平衡。 資料擁有者原則生效之前, (資料來源系統管理員) 必須檢閱該原則,並透過發佈來明確核准。 這不適用於 DevOps 或自助式存取原則,因為建立或更新這些原則時,會自動發佈這些原則。

若要發佈資料擁有者原則,您必須在根集合層級取得 Microsoft Purview 中的資料來源管理員角色。

如需管理 Microsoft Purview 角色指派的詳細資訊,請參閱在Microsoft Purview 資料對應中建立和管理集合

注意事項

若要發佈資料擁有者原則,必須在根集合層級設定資料來源系統管理員角色。

將存取布建責任委派給 Microsoft Purview 中的角色

啟用資料 使用管理的資源之後,任何在根集合層級具有原則 作者 角色的 Microsoft Purview 使用者都可以從 Microsoft Purview 布建該資料來源的存取權。

注意事項

任何 Microsoft Purview 根 集合管理員 都可以將新的使用者指派給根 原則作者 角色。 任何 集合管理員 都可以將新的使用者指派給集合下的資料 源系統管理員 角色。 將擔任 Microsoft Purview 集合系統管理員資料來源系統管理員或原則 作者 角色的使用者降到最低並仔細審查。

如果刪除具有已發佈原則的 Microsoft Purview 帳戶,這類原則會在相依于特定資料來源的一段時間內停止強制執行。 這項變更可能會影響安全性和資料存取可用性。 IAM 中的參與者和擁有者角色可以刪除 Microsoft Purview 帳戶。 您可以前往 Microsoft Purview 帳戶 的 [存取控制 (IAM) ] 區段,然後選取 [ 角色指派],以檢查這些許可權。 您也可以使用鎖定來防止透過Resource Manager鎖定刪除 Microsoft Purview 帳戶。

在 Microsoft Purview 中註冊資料來源以進行資料使用管理

您必須先向 Microsoft Purview 註冊 Azure 儲存體資源,才能建立存取原則。 若要註冊您的資源,請遵循本指南 的必要條件註冊 章節:

註冊資料來源之後,您必須啟用資料使用管理。 這是您在資料來源上建立原則之前的必要條件。 資料使用管理可能會影響資料的安全性,因為它會委派給管理資料來源存取權的特定 Microsoft Purview 角色。 請參閱本指南中與資料使用管理相關的安全做法如何啟用資料使用管理

一旦您的資料來源將 [資料使用管理] 選項設定為 [已啟用],它看起來會像此螢幕擷取畫面:螢幕擷取畫面顯示如何使用 [資料使用管理集] 選項來註冊原則的資料來源以啟

建立原則

若要建立Azure Data Lake Storage Gen2的存取原則,請遵循本指南:

若要建立涵蓋資源群組或 Azure 訂用帳戶內所有資料來源的原則,您可以參閱 本節

後續步驟

請遵循下列指南以深入瞭解 Microsoft Purview 和您的資料。