在 Microsoft Purview 中連線到 Azure Data Lake Gen1
本文概述在 Microsoft Purview 中註冊 Azure Data Lake Storage Gen1 資料來源的程式,包括驗證與與 Azure Data Lake Storage Gen1 來源互動的指示。
注意事項
Azure Data Lake Storage Gen2現已正式推出。 我們建議您立即開始使用它。 如需詳細資訊,請參閱 產品頁面。
支援的功能
中繼資料擷取 | 完整掃描 | 增量掃描 | 限域掃描 | 分類 | 加標籤 | 存取原則 | 血統 | 資料共用 | 即時檢視 |
---|---|---|---|---|---|---|---|---|---|
是 | 是 | 是 | 是 | 是 | 是 | 否 | 有限** | 否 | 否 |
** 如果在 Data Factory 中使用資料集做為來源/接收器,則支援譜系複製活動
必要條件
具有使用中訂用帳戶的 Azure 帳戶。 免費建立帳戶。
使用中的 Microsoft Purview 帳戶。
您必須是資料來源系統管理員和資料讀取者,才能在 Microsoft Purview 治理入口網站中註冊來源及進行管理。 如需詳細資訊,請參閱我們的 Microsoft Purview 許可權頁面 。
登錄
本節可讓您註冊 ADLS Gen1 資料來源,並設定適當的驗證機制,以確保成功掃描資料來源。
註冊步驟
在設定資料來源掃描之前,請務必先在 Microsoft Purview 中註冊資料來源。
透過下列方式開啟 Microsoft Purview 治理入口網站:
- 直接流覽並 https://web.purview.azure.com 選取您的 Microsoft Purview 帳戶。
- 開啟Azure 入口網站,搜尋並選取 Microsoft Purview 帳戶。 選取 [Microsoft Purview 治理入口網站] 按鈕。
流覽至 資料對應 -- > 來源
使用 [集合] 功能表建立集合階層,並視需要將許可權指派給個別子集合
流覽至 [ 來源 ] 功能表下的適當集合,然後選取 [ 註冊 ] 圖示以註冊新的 ADLS Gen1 資料來源
選取 Azure Data Lake Storage Gen1資料來源,然後選取 [繼續]
為數據源提供適當的 名稱 、選取相關的 Azure 訂用帳戶、現有的 Data Lake Store 帳戶名稱 和 集合 ,然後選取 [ 套用]
ADLS Gen1 儲存體帳戶會顯示在選取的集合下方
掃描
掃描的必要條件
若要能夠存取掃描資料來源,必須設定 ADLS Gen1 儲存體帳戶中的驗證方法。 支援下列選項:
注意事項
如果您已啟用儲存體帳戶的防火牆,您必須在設定掃描時使用受控識別驗證方法。
系統指派的受控識別 (建議的) - 一旦建立 Microsoft Purview 帳戶 ,系統受 控識別就會自動在 Azure AD 租使用者中建立。 視資源類型而定,Microsoft Purview SAMI 需要特定的 RBAC 角色指派才能執行掃描。
使用者指派的 受控識別 (預覽) - 類似于系統管理的身分識別,使用者指派的受控識別是一種認證資源,可用來允許 Microsoft Purview 對 Azure Active Directory 進行驗證。 如需詳細資訊,您可以參閱我們 使用者指派的受控識別指南。
服務主體 - 在此方法中,您可以在 Azure Active Directory 租使用者中建立新的或使用現有的服務主體。
掃描的驗證
使用系統或使用者指派的受控識別進行掃描
請務必為您的 Microsoft Purview 帳戶提供掃描 ADLS Gen1 資料來源的許可權。 您可以在訂用帳戶、資源群組或資源層級新增系統受控識別或使用者指派的受控識別,視您希望其具有掃描許可權的專案而定。
注意事項
您必須是訂用帳戶的擁有者,才能在 Azure 資源上新增受控識別。
從Azure 入口網站中,尋找訂用帳戶、資源群組或資源 (,例如,您想要允許目錄掃描的Azure Data Lake Storage Gen1 儲存體帳戶) 。
選取 [概觀 ],然後選取 [資料總管]
在頂端導覽中選 取 [存取 ]
在 [選取使用者或群組] 功能表中,選擇 [選取] 並新增 [Microsoft Purview 名稱] (,這是系統受控識別) 或使用者指派的受控識別 (預覽) 。
選取 [讀取 ] 和 [執行] 許可權。 請務必選擇 [新增] 選項中的 [此資料夾和所有子系],以及 [新增選項] 中的 [ 存取權限專案] 和 [預設許可權專案 ],如下列螢幕擷取畫面所示。 選取 [確定]
提示
訪問 許可權專案 是 目前 檔案和資料夾的許可權專案。 預設許可權專案是新檔案和資料夾將繼承的許可權專案。 若只要將許可權授與目前現有的檔案, 請選擇存取權限專案。 若要授與許可權來掃描未來將新增的檔案和資料夾,請 包含預設許可權專案。
使用服務主體進行掃描
建立新的服務主體
如果您需要 建立新的服務主體,則必須在 Azure AD 租使用者中註冊應用程式,並提供資料來源中服務主體的存取權。 您的 Azure AD 全域管理員或其他角色,例如應用程式管理員,可以執行這項作業。
取得服務主體的應用程式識別碼
複製已建立服務主體概觀中存在的應用程式 (用戶端) 標識符
將 ADLS Gen1 帳戶的存取權授與服務主體
請務必為服務主體提供掃描 ADLS Gen2 資料來源的許可權。 您可以根據服務主體所需的許可權,在訂用帳戶、資源群組或資源層級新增服務主體的存取權。
注意事項
您必須是訂用帳戶的擁有者,才能在 Azure 資源上新增服務主體。
開啟儲存體帳戶並選取 [概觀] -- >Data Explorer,以提供儲存體帳戶的服務主體存取權
在頂端導覽中選 取 [存取 ]
在 [選取使用者或群組] 選取專案中,選取 [選取並新增服務主體]。
選取 [讀取 ] 和 [執行] 許可權。 請務必選擇 [新增] 選項中的 [ 此資料夾和所有子系],以及 [ 存取權限專案] 和預設許可權專案 。 選取 [確定]
建立掃描
開啟您的 Microsoft Purview 帳戶 ,然後選取 開啟 Microsoft Purview 治理入口網站
流覽至資料對應-- >Sources以檢視集合階層
選取稍早註冊的ADLS Gen1 資料來源底下的[新增掃描] 圖示
如果使用系統或使用者指派的受控識別
提供掃描的 [名稱 ]、在 [ 認證] 下選取系統或使用者指派的受控識別、選擇掃描的適當集合,然後選取 [ 測試連線]。 在成功的連線上,選取 [ 繼續]。
如果使用服務主體
提供掃描的[名稱]、為掃描選擇適當的集合,然後選取 [認證] 下的 [+ 新增]
選取建立服務主體時所使用的適當金鑰保存庫聯機和秘密名稱。 服務主體識別碼是應用程式 (用戶端) 識別碼,如先前所示
選 取 [測試連線]。 在成功連線時,選取 [ 繼續]
界定掃描範圍並執行
您可以挑選清單中的適當專案,將掃描範圍設定為特定資料夾和子資料夾。
然後選取掃描規則集。 您可以選擇系統預設值、現有的自訂規則集,或建立內嵌的新規則集。
如果建立新的 掃描規則集,請選取要包含在掃描規則中 的檔案類型 。
您可以選取要包含在掃描 規則中的分類 規則
選擇掃描觸發程式。 您可以設定排程或執行掃描一次。
檢閱您的掃描,然後選取 [儲存並執行]。
檢視掃描
流覽至集合中的資料來源,然後選取 [檢視詳細資料] 以檢查掃描的狀態
掃描詳細資料指出上次執行狀態中的掃描進度,以及掃描和分類的資產數目
[上次執行狀態] 會更新為 [進行中],然後在整個掃描成功執行後完成
管理掃描
掃描可以在完成時管理或再次執行。
選取 掃描名稱 以管理掃描
您可以再次 執行掃描 、 編輯掃描、 刪除掃描
注意事項
- 刪除掃描並不會刪除從先前掃描建立的類別目錄資產。
- 如果您的來源資料表已變更,且您在 Microsoft Purview 的 [架構] 索引標籤中編輯描述之後,重新掃描來源資料表,則不再使用架構變更來更新資產。
您可以再次 執行增量掃描 或 完整掃描 。
後續步驟
現在您已註冊來源,請遵循下列指南來深入瞭解 Microsoft Purview 和您的資料。