執行 Azure Databricks 活動來轉換數據
Data Factory for Microsoft Fabric 中的 Azure Databricks 活動可讓您協調下列 Azure Databricks 作業:
- Notebook
- Jar
- Python
本文提供逐步解說,說明如何使用Data Factory 介面建立 Azure Databricks 活動。
必要條件
若要開始使用,您必須完成下列必要條件:
- 具有作用中訂用帳戶的租用戶帳戶。 免費建立帳戶。
- 建立工作區。
設定 Azure Databricks 活動
若要在管線中使用 Azure Databricks 活動,請完成下列步驟:
設定連線
在您的工作區中建立新的管線。
按兩下 [新增管線活動],然後搜尋 Azure Databricks。
或者,您可以在管線 [活動 ] 窗格中搜尋 Azure Databricks,然後選取它將其新增至管線畫布。
如果尚未選取,請在畫布上選取新的 Azure Databricks 活動。
請參閱一般設定指引,以設定 [一般設定] 索引卷標。
設定叢集
選取 [叢集] 索引標籤。然後您可以選擇現有的或建立新的 Azure Databricks 連線,然後挑選新的作業叢集、現有的互動式叢集或現有的實例集區。
根據您為叢集挑選的內容,填寫所呈現的對應欄位。
- 在新的作業叢集和現有的實例集區下,您也可以設定背景工作角色數目並啟用現成實例。
您也可以指定其他叢集設定,例如 叢集原則、 Spark 組態、 Spark 環境變數和 自定義標籤,視您要連線的叢集需求而定。 Databricks init 腳本 和 叢集記錄目的地路徑 也可以在其他叢集設定下新增。
注意
Azure Data Factory Azure Databricks 鏈接服務中支援的所有進階叢集屬性和動態表達式,現在在 UI 的 [其他叢集組態] 區段下,Microsoft Fabric 的 Azure Databricks 活動也支援。 因為這些屬性現在包含在活動UI中;它們可以輕鬆地與表達式(動態內容)搭配使用,而不需要 Azure Data Factory Azure Databricks 鏈接服務中的進階 JSON 規格。
Azure Databricks 活動現在也支援 叢集原則和 Unity 目錄支援。
- 在進階設定下,您可以選擇 [ 叢集原則 ],以便指定允許的叢集組態。
- 此外,在進階設定下,您可以選擇設定 Unity 目錄存取模式 ,以增加安全性。
設定設定
選取 [設定] 索引標籤,您可以選擇您想要協調的 Azure Databricks 類型 3 個選項。
在 Azure Databricks 活動中協調 Notebook 類型:
在 [設定] 索引標籤下,您可以選擇 [筆記本] 單選按鈕來執行 Notebook。 您必須指定要在 Azure Databricks 上執行的筆記本路徑、要傳遞至筆記本的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。
在 Azure Databricks 活動中協調 Jar 類型:
在 [設定] 索引標籤下,您可以選擇 [Jar] 單選按鈕來執行 Jar。 您必須指定要在 Azure Databricks 上執行的類別名稱、要傳遞至 Jar 的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。
在 Azure Databricks 活動中協調 Python 類型:
在 [設定] 索引標籤下,您可以選擇 [Python] 單選按鈕來執行 Python 檔案。 您必須指定要執行之 Python 檔案的 Azure Databricks 內路徑、要傳遞的選擇性基底參數,以及要安裝在叢集上以執行作業的任何其他連結庫。
Azure Databricks 活動支持的連結庫
在上述 Databricks 活動定義中,您可以指定這些連結庫類型: jar、 egg、 whl、 maven、 pypi、 cran。
如需詳細資訊,請參閱 連結庫類型的 Databricks 檔 。
在 Azure Databricks 活動和管線之間傳遞參數
您可以在 databricks 活動中使用baseParameters屬性,將參數傳遞至筆記本。
在某些情況下,您可能需要將特定值從筆記本傳回給服務,以用於服務中的控制流程(條件式檢查),或由下游活動取用(大小限制為 2 MB)。
例如,在您的筆記本中,您可以呼叫 dbutils.notebook.exit(“returnValue”), 並將對應的 “returnValue” 傳回至服務。
您可以使用 表示式來取用服務中的輸出,例如
@{activity('databricks activity name').output.runOutput}
。
儲存並執行或排程管線
設定管線所需的任何其他活動之後,請切換至 管線編輯器頂端的 [首頁 ] 索引標籤,然後選取 [儲存] 按鈕以儲存管線。 選取 [執行] 以直接執行,或選取 [排程] 來排程它。 您也可以在這裡檢視執行歷程記錄,或設定其他設定。
相關內容
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應