共用方式為


執行 Azure Databricks 活動來轉換資料

Microsoft Fabric Data Factory 中的 Azure Databricks 活動可讓您協調下列 Azure Databricks 工作類型:

  • Notebook
  • 罐子
  • Python
  • Job

本文章提供逐步解說,說明如何使用 Data Factory 介面建立 Azure Databricks 活動。

必要條件

若要開始使用,您必須滿足下列必要條件:

配置 Azure Databricks 活動

若要在管線中使用 Azure Databricks 活動,請完成下列步驟:

設定連線

  1. 在工作區中建立新的管線。

  2. 選取 [ 新增管線活動 ],然後搜尋 Azure Databricks。

    強調顯示 Fabric 管線登陸頁面和 Azure Databricks 活動的螢幕擷取畫面。

  3. 或者,您可以在管線活動窗格中搜尋 Azure Databricks,然後選中它以將其新增到管線創作區。

    網狀架構 UI 的螢幕快照,其中已醒目提示 [活動] 窗格和 Azure Databricks 活動。

  4. 如果尚未進行選取,請在創作區選取新的 Azure Databricks 活動。

    此螢幕快照顯示 Azure Databricks 活動的 [一般設定] 索引標籤。

參閱一般設定 指引,以配置一般設定標籤。

設定叢集

  1. 選取 [ 叢集] 索引標籤 。然後您可以選擇現有的或建立新的 Azure Databricks 連線,然後挑選 新的作業叢集現有的互動式叢集現有的實例集區

  2. 根據您為叢集挑選的內容,填寫所展示的對應欄位。

    • 新的作業叢集現有的實例集區下,您也可以設定 背景工作角色 數目並啟用 現成實例
  3. 您也可以根據要連線的叢集需求指定其他叢集設定,例如 叢集原則Spark 組態Spark 環境變數自訂標籤Databricks init 腳本叢集記錄目的地路徑 也可以在其他叢集設定下新增。

    注意

    Azure Data Factory Azure Databricks 連結服務中支援的所有進階叢集屬性和動態運算式,現在也支援 Microsoft Fabric 中 UI 中 [其他叢集設定] 區段下的 Azure Databricks 活動。 由於這些屬性現在包含在活動UI中,因此可以與運算式(動態內容)搭配使用,而不需要進階JSON規格。

    此螢幕快照顯示 Azure Databricks 活動的 [叢集設定] 索引卷標。

  4. Azure Databricks 活動現在也支援 叢集原則和 Unity 目錄支援

    • 在進階設定下,您可以選擇 叢集原則 ,以便指定允許的叢集組態。
    • 此外,在進階設定下,您可以設定 Unity 目錄存取模式 以增加安全性。 可用的 存取模式類型 如下:
      • 單一使用者存取模式 此模式是針對單一使用者使用每個叢集的案例所設計。 它可確保叢集中的資料存取僅限於該使用者。 此模式適用於需要隔離和個別資料處理的工作。
      • 共用存取模式 在此模式中,多個使用者可以存取相同的叢集。 它結合了 Unity Catalog 的資料治理功能與傳統資料表存取控制清單(ACL)。 此模式允許共同作業資料存取,同時維護治理和安全性通訊協定。 不過,它存在某些限制,例如不支援 Databricks Runtime ML、Spark 提交工作,以及特定的 Spark API 和 UDF。
      • 無存取模式 此模式會停用與 Unity 目錄的互動,這表示叢集無法存取 Unity 目錄所管理的資料。 此模式適用於不需要 Unity 目錄治理功能的工作負載。

    螢幕快照顯示 [Azure Databricks 活動] 的 [叢集設定] 索引標籤下的原則識別碼及 Unity Catalog 支援。

設定設定值

選取 [設定] 索引標籤後,您可以從 4 個選項中選擇您要協調的 Azure Databricks 類型

此螢幕快照顯示 Azure Databricks 活動的 [設定] 索引標籤。

在 Azure Databricks 活動中協調 Notebook 類型:

在 [設定] 頁籤下,您可以選擇 [Notebook] 選項按鈕來執行 Notebook。 您必須指定要在 Azure Databricks 上執行的筆記本路徑、要傳遞至筆記本的選擇性基底參數,以及要安裝在叢集上以執行作業的任何額外程式庫。

此螢幕快照顯示 Azure Databricks 活動中的筆記本類型。

在 Azure Databricks 活動中編排 Jar 類型:

設定 索引標籤下,您可以選擇 Jar 單選按鈕來執行 Jar。 您必須指定要在 Azure Databricks 上執行的類別名稱、要傳遞至 Jar 的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他程式庫。

此螢幕快照顯示 Azure Databricks 活動的 Jar 類型。

在 Azure Databricks 活動中統籌 Python 類型:

在 [設定] 索引標籤下,您可以選擇 [Python] 圓形按鈕來執行 Python 檔案。 您必須指定 Azure Databricks 內要執行之 Python 檔案的路徑、要傳遞的選擇性基底參數,以及要在叢集上安裝的任何其他程式庫以執行作業。

此螢幕快照顯示 Azure Databricks 活動的 Python 類型。

在 Azure Databricks 活動中編排作業類型:

在 [ 設定] 索引標籤下,您可以選擇 [ 作業 ] 單選按鈕來執行 Databricks 作業。 您需要使用下拉式清單來指定要在 Azure Databricks 上執行的作業,以及要傳遞的任何可選作業參數。 您可以使用此選項來執行無伺服器作業。

顯示 Azure Databricks 活動作業類型的螢幕快照。

Azure Databricks 活動支援的程式庫

在上述的 Databricks 活動定義中,您可指定以下的程式庫類型:jar、egg、whl、maven、pypi、cran。

如需詳細資訊,請參閱有關程式庫類型的 Databricks 文件

在 Azure Databricks 活動和管線之間傳遞參數

您可以在 Databricks 活動中使用 baseParameters 屬性,將參數傳遞至筆記本。

顯示如何在 Azure Databricks 活動中傳遞基底參數的螢幕快照。

有時候,您可能需要將值從筆記本傳回至服務,以進行控制流程或在下游活動中使用 (大小限制為 2 MB)。

  1. 例如,在您的筆記本中,您可以呼叫 dbutils.notebook.exit(“returnValue”), 對應的 “returnValue” 將傳回給服務。

  2. 您可以使用像 @{activity('databricks activity name').output.runOutput} 這樣的運算式來取用服務中的輸出。

儲存並執行或排程流程

設定管線所需的任何其他活動之後,請切換至管線編輯器頂端的 [ 首頁 ] 索引標籤,然後選取 [儲存] 按鈕以儲存管線。 選取 [執行] 以直接執行,或選取 [排程] 來排程。 您也可以在這裡檢視執行歷程記錄,或進行其他設定。

顯示如何儲存和執行管線的螢幕快照。

如何監控管道運行