Microsoft Fabric Data Factory 中的 Azure Databricks 活動可讓您協調下列 Azure Databricks 工作類型:
- Notebook
- 罐子
- Python
- Job
本文章提供逐步解說,說明如何使用 Data Factory 介面建立 Azure Databricks 活動。
必要條件
若要開始使用,您必須滿足下列必要條件:
- 具有有效訂閱的租戶帳戶。 免費建立帳戶。
- 已建立一個工作區。
配置 Azure Databricks 活動
若要在管線中使用 Azure Databricks 活動,請完成下列步驟:
設定連線
在工作區中建立新的管線。
選取 [ 新增管線活動 ],然後搜尋 Azure Databricks。
或者,您可以在管線活動窗格中搜尋 Azure Databricks,然後選中它以將其新增到管線創作區。
如果尚未進行選取,請在創作區選取新的 Azure Databricks 活動。
參閱一般設定 指引,以配置一般設定標籤。
設定叢集
選取 [ 叢集] 索引標籤 。然後您可以選擇現有的或建立新的 Azure Databricks 連線,然後挑選 新的作業叢集、 現有的互動式叢集或 現有的實例集區。
根據您為叢集挑選的內容,填寫所展示的對應欄位。
- 在 新的作業叢集 和 現有的實例集區下,您也可以設定 背景工作角色 數目並啟用 現成實例。
您也可以根據要連線的叢集需求指定其他叢集設定,例如 叢集原則、 Spark 組態、 Spark 環境變數和 自訂標籤。 Databricks init 腳本 和 叢集記錄目的地路徑 也可以在其他叢集設定下新增。
注意
Azure Data Factory Azure Databricks 連結服務中支援的所有進階叢集屬性和動態運算式,現在也支援 Microsoft Fabric 中 UI 中 [其他叢集設定] 區段下的 Azure Databricks 活動。 由於這些屬性現在包含在活動UI中,因此可以與運算式(動態內容)搭配使用,而不需要進階JSON規格。
Azure Databricks 活動現在也支援 叢集原則和 Unity 目錄支援。
- 在進階設定下,您可以選擇 叢集原則 ,以便指定允許的叢集組態。
- 此外,在進階設定下,您可以設定 Unity 目錄存取模式 以增加安全性。 可用的 存取模式類型 如下:
- 單一使用者存取模式 此模式是針對單一使用者使用每個叢集的案例所設計。 它可確保叢集中的資料存取僅限於該使用者。 此模式適用於需要隔離和個別資料處理的工作。
- 共用存取模式 在此模式中,多個使用者可以存取相同的叢集。 它結合了 Unity Catalog 的資料治理功能與傳統資料表存取控制清單(ACL)。 此模式允許共同作業資料存取,同時維護治理和安全性通訊協定。 不過,它存在某些限制,例如不支援 Databricks Runtime ML、Spark 提交工作,以及特定的 Spark API 和 UDF。
- 無存取模式 此模式會停用與 Unity 目錄的互動,這表示叢集無法存取 Unity 目錄所管理的資料。 此模式適用於不需要 Unity 目錄治理功能的工作負載。
設定設定值
選取 [設定] 索引標籤後,您可以從 4 個選項中選擇您要協調的 Azure Databricks 類型。
在 Azure Databricks 活動中協調 Notebook 類型:
在 [設定] 頁籤下,您可以選擇 [Notebook] 選項按鈕來執行 Notebook。 您必須指定要在 Azure Databricks 上執行的筆記本路徑、要傳遞至筆記本的選擇性基底參數,以及要安裝在叢集上以執行作業的任何額外程式庫。
在 Azure Databricks 活動中編排 Jar 類型:
在 設定 索引標籤下,您可以選擇 Jar 單選按鈕來執行 Jar。 您必須指定要在 Azure Databricks 上執行的類別名稱、要傳遞至 Jar 的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他程式庫。
在 Azure Databricks 活動中統籌 Python 類型:
在 [設定] 索引標籤下,您可以選擇 [Python] 圓形按鈕來執行 Python 檔案。 您必須指定 Azure Databricks 內要執行之 Python 檔案的路徑、要傳遞的選擇性基底參數,以及要在叢集上安裝的任何其他程式庫以執行作業。
在 Azure Databricks 活動中編排作業類型:
在 [ 設定] 索引標籤下,您可以選擇 [ 作業 ] 單選按鈕來執行 Databricks 作業。 您需要使用下拉式清單來指定要在 Azure Databricks 上執行的作業,以及要傳遞的任何可選作業參數。 您可以使用此選項來執行無伺服器作業。
Azure Databricks 活動支援的程式庫
在上述的 Databricks 活動定義中,您可指定以下的程式庫類型:jar、egg、whl、maven、pypi、cran。
如需詳細資訊,請參閱有關程式庫類型的 Databricks 文件。
在 Azure Databricks 活動和管線之間傳遞參數
您可以在 Databricks 活動中使用 baseParameters 屬性,將參數傳遞至筆記本。
有時候,您可能需要將值從筆記本傳回至服務,以進行控制流程或在下游活動中使用 (大小限制為 2 MB)。
例如,在您的筆記本中,您可以呼叫 dbutils.notebook.exit(“returnValue”), 對應的 “returnValue” 將傳回給服務。
您可以使用像
@{activity('databricks activity name').output.runOutput}這樣的運算式來取用服務中的輸出。
儲存並執行或排程流程
設定管線所需的任何其他活動之後,請切換至管線編輯器頂端的 [ 首頁 ] 索引標籤,然後選取 [儲存] 按鈕以儲存管線。 選取 [執行] 以直接執行,或選取 [排程] 來排程。 您也可以在這裡檢視執行歷程記錄,或進行其他設定。