分享方式:


快速入門:在 Azure Machine Learning 中使用 Apache Spark 進行互動式資料整頓

為了處理互動式 Azure Machine Learning Notebook 資料整頓,Azure Machine Learning 與 Azure Synapse Analytics 整合可讓您輕鬆存取 Apache Spark 架構。 此存取可讓您進行 Azure Machine Learning Notebook 互動式資料整頓。

在本快速入門指南中,您將了解如何使用 Azure Machine Learning 無伺服器 Spark 計算、Azure Data Lake Storage (ADLS) Gen 2 儲存體帳戶和使用者身分識別傳遞來執行互動式資料整頓。

必要條件

將 Azure 儲存體帳戶認證儲存為 Azure Key Vault 中的秘密

使用 Azure 入口網站使用者介面,將 Azure 儲存體帳戶認證儲存為 Azure Key Vault 中的秘密:

  1. 在 Azure 入口網站中,瀏覽至您的 Azure Key Vault

  2. 選取左面板中的 [祕密]

  3. 選取 [+ 產生/匯入]

    顯示 Azure Key Vault 秘密產生或匯入索引標籤的螢幕擷取畫面。

  4. 在 [建立秘密] 畫面上,為您要建立的秘密輸入名稱

  5. 在 Azure 入口網站中瀏覽至 Azure Blob 儲存體帳戶,如下圖所示:

    顯示 Azure 存取金鑰和連接字串值畫面的螢幕擷取畫面。

  6. 從 Azure Blob 儲存體帳戶頁面左側面板中選取 [存取金鑰]

  7. 選取 [金鑰 1] 旁的 [顯示],然後選取 [複製到剪貼簿],以取得儲存體帳戶存取金鑰

    注意

    建立 Azure Key Vault 秘密時,選取適當的選項來複製

    • Azure Blob 儲存體容器共用存取簽章 (SAS) 權杖
    • Azure Data Lake Storage (ADLS) Gen 2 儲存體帳戶服務主體認證
      • 租用戶識別碼
      • 用戶端識別碼和
      • secret

    (位於各自的使用者介面上)

  8. 瀏覽回 [建立秘密] 畫面

  9. 在 [秘密值] 文字方塊中,輸入在先前步驟中複製到剪貼簿的 Azure 儲存體帳戶存取金鑰認證

  10. 選取 [建立]

    顯示 Azure 秘密建立畫面的螢幕擷取畫面。

提示

Azure CLI適用於 Python 的 Azure Key Vault 祕密用戶端程式庫也可以建立 Azure Key Vault 秘密。

在 Azure 儲存體帳戶中新增角色指派

在開始進行互動式資料整頓之前,我們必須確保輸入和輸出資料路徑是可存取的。 首先,針對

  • Notebooks 工作階段登入使用者的使用者身分識別

  • 服務主體

讀者儲存體 Blob 資料讀者角色指派給登入使用者的使用者身分識別。 不過,在某些情況下,我們可能會想要將整頓的資料寫入回 Azure 儲存體帳戶。 讀者儲存體 Blob 資料讀者角色提供使用者身分識別或服務主體的唯讀存取權。 若要啟用讀取和寫入存取權,請將參與者儲存體 Blob 資料參與者角色指派給使用者身分識別或服務主體。 若要將適當的角色指派給使用者身分識別:

  1. 開啟 Microsoft Azure 入口網站

  2. 搜尋並選取 [儲存體帳戶] 服務

    可展開的螢幕擷取畫面,顯示 Microsoft Azure 入口網站中儲存體帳戶服務的搜尋和選取。

  3. 在 [儲存體帳戶] 頁面上,從清單中選取 Azure Data Lake Storage (ADLS) Gen 2 儲存體帳戶。 顯示儲存體帳戶 [概觀] 的頁面會隨之開啟

    可展開的螢幕擷取畫面,顯示選取 Azure Data Lake Storage (ADLS) Gen 2 儲存體帳戶。

  4. 從左面板中選取 [存取控制 (IAM)]

  5. 選取 [新增角色指派]

    顯示 Azure 存取金鑰畫面的螢幕擷取畫面。

  6. 尋找並選取 [儲存體 Blob 資料參與者] 角色

  7. 選取下一個

    顯示 [Azure 新增角色指派] 畫面的螢幕擷取畫面。

  8. 選取 [使用者、群組或服務主體]

  9. 選取 [+ 選取成員]

  10. 在 [選取] 的下方搜尋使用者身分識別

  11. 從清單中選取使用者身分識別,使其顯示在 [選取的成員] 底下

  12. 選取適當的使用者身分識別

  13. 選取下一個

    顯示 Azure 新增角色指派畫面 [成員] 索引標籤的螢幕擷取畫面。

  14. 選取 [檢閱 + 指派]

    顯示 Azure 新增角色指派畫面 [檢閱並指派] 索引標籤的螢幕擷取畫面。

  15. 針對參與者角色指派重複步驟 2-13

一旦為使用者身分識別已指派了適當的角色後,Azure 儲存體帳戶中的資料就應該可以存取。

注意

如果連結的 Synapse Spark 集區 (英文) 指向的 Synapse Spark 集區位於 Synapse Analytics 工作區,且該工作區具有與其相關聯的受控虛擬網路,則為確保資料存取,應設定連線到儲存體帳戶的受控私人端點

確保 Spark 作業的資源存取

若要存取資料和其他資源,Spark 作業可以使用受控識別或使用者身分識別傳遞。 下表概述了使用 Azure Machine Learning 無伺服器 Spark 計算和連結 Synapse Spark 集區時,資源存取的不同機制。

Spark 集區 支援的身分識別 預設身分識別
無伺服器 Spark 計算 使用者身分識別、附加至工作區的使用者指派的受控識別 使用者身分識別
連結的 Synapse Spark 集區 使用者身分識別、連結附加 Synapse Spark 集區的使用者指派的受控識別、附加 Synapse Spark 集區的系統指派的受控識別 連結 Synapse Spark 集區的系統指派的受控識別

如果 CLI 或 SDK 程式碼定義一個使用受控識別的選項,則 Azure Machine Learning 無伺服器 Spark 計算會依賴連結至工作區的使用者指派受控識別。 您可以使用 Azure Machine Learning CLI v2 或透過 ARMClient,將使用者指派的受控識別連結至現有的 Azure Machine Learning 工作區。

下一步