Share via


執行 Azure Databricks 活動來轉換數據

Data Factory for Microsoft Fabric 中的 Azure Databricks 活動可讓您協調下列 Azure Databricks 作業:

  • Notebook
  • Jar
  • Python

本文提供逐步解說,說明如何使用Data Factory 介面建立 Azure Databricks 活動。

必要條件

若要開始使用,您必須完成下列必要條件:

  • 具有作用中訂用帳戶的租用戶帳戶。 免費建立帳戶
  • 建立工作區。

設定 Azure Databricks 活動

若要在管線中使用 Azure Databricks 活動,請完成下列步驟:

設定連線

  1. 在您的工作區中建立新的管線。

  2. 按兩下 [新增管線活動],然後搜尋 Azure Databricks。

    Screenshot of the Fabric Data pipelines landing page and Azure Databricks activity highlighted.

  3. 或者,您可以在管線 [活動 ] 窗格中搜尋 Azure Databricks,然後選取它將其新增至管線畫布。

    Screenshot of the Fabric UI with the Activities pane and Azure Databricks activity highlighted.

  4. 如果尚未選取,請在畫布上選取新的 Azure Databricks 活動。

    Screenshot showing the General settings tab of the Azure Databricks activity.

請參閱一般設定指引,以設定 [一般設定] 索引卷標。

設定叢集

  1. 選取 [叢集] 索引標籤。然後您可以選擇現有的或建立新的 Azure Databricks 連線,然後挑選新的作業叢集、現有的互動式叢集現有的實例集區

  2. 根據您為叢集挑選的內容,填寫所呈現的對應欄位。

    • 在新的作業叢集和現有的實例集下,您也可以設定背景工作角色數目並啟用現成實例
  3. 您也可以指定其他叢集設定,例如 叢集原則Spark 組態Spark 環境變數自定義標籤,視您要連線的叢集需求而定。 Databricks init 腳本叢集記錄目的地路徑 也可以在其他叢集設定下新增。

    注意

    Azure Data Factory Azure Databricks 鏈接服務中支援的所有進階叢集屬性和動態表達式,現在在 UI 的 [其他叢集組態] 區段下,Microsoft Fabric 的 Azure Databricks 活動也支援。 因為這些屬性現在包含在活動UI中;它們可以輕鬆地與表達式(動態內容)搭配使用,而不需要 Azure Data Factory Azure Databricks 鏈接服務中的進階 JSON 規格。

    Screenshot showing the Cluster settings tab of the Azure Databricks activity.

  4. Azure Databricks 活動現在也支援 叢集原則和 Unity 目錄支援

    • 在進階設定下,您可以選擇 [ 叢集原則 ],以便指定允許的叢集組態。
    • 此外,在進階設定下,您可以選擇設定 Unity 目錄存取模式 ,以增加安全性。

    Screenshot showing the policy ID and Unity Catalog support under Cluster settings tab of the Azure Databricks activity.

設定設定

選取 [設定] 索引標籤,您可以選擇您想要協調的 Azure Databricks 類型 3 個選項。

Screenshot showing the Settings tab of the Azure Databricks activity.

在 Azure Databricks 活動中協調 Notebook 類型:

  1. [設定] 索引標籤下,您可以選擇 [筆記本] 單選按鈕來執行 Notebook。 您必須指定要在 Azure Databricks 上執行的筆記本路徑、要傳遞至筆記本的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。

    Screenshot showing the Notebooks type of the Azure Databricks activity.

在 Azure Databricks 活動中協調 Jar 類型:

  1. [設定] 索引標籤下,您可以選擇 [Jar] 單選按鈕來執行 Jar。 您必須指定要在 Azure Databricks 上執行的類別名稱、要傳遞至 Jar 的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。

    Screenshot showing the Jar type of the Azure Databricks activity.

在 Azure Databricks 活動中協調 Python 類型:

  1. 在 [設定] 索引標籤下,您可以選擇 [Python] 單選按鈕來執行 Python 檔案。 您必須指定要執行之 Python 檔案的 Azure Databricks 內路徑、要傳遞的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。

    Screenshot showing the Python type of the Azure Databricks activity.

Azure Databricks 活動支持的連結庫

在上述 Databricks 活動定義中,您可以指定這些連結庫類型: jareggwhlmavenpypicran

如需詳細資訊,請參閱 連結庫類型的 Databricks 檔

在 Azure Databricks 活動和管線之間傳遞參數

您可以在 databricks 活動中使用baseParameters屬性,將參數傳遞至筆記本。

在某些情況下,您可能需要將特定值從筆記本傳回給服務,以用於服務中的控制流程(條件式檢查),或由下游活動取用(大小限制為 2 MB)。

  1. 例如,在您的筆記本中,您可以呼叫 dbutils.notebook.exit(“returnValue”), 並將對應的 “returnValue” 傳回至服務。

  2. 您可以使用 表示式來取用服務中的輸出,例如 @{activity('databricks activity name').output.runOutput}

Screenshot showing how to pass base parameters in the Azure Databricks activity.

儲存並執行或排程管線

設定管線所需的任何其他活動之後,請切換至 管線編輯器頂端的 [首頁 ] 索引標籤,然後選取 [儲存] 按鈕以儲存管線。 選取 [執行] 以直接執行,或選取 [排程] 來排程它。 您也可以在這裡檢視執行歷程記錄,或設定其他設定。

Screenshot showing how to save and run the pipeline.

如何監視管線執行