設定和編輯 Databricks 作業
本文著重於使用工作流程工作區 UI 建立、設定和編輯作業的指示。 Azure Databricks 有其他進入點和設定工具,包括下列專案:
- 若要了解如何使用 Databricks CLI 建立和執行作業,請參閱什麼是 Databricks CLI?。
- 若要了解如何使用作業 API 來建立和執行作業,請參閱 REST API 參考中的作業。
- 若要了解如何直接在 Databricks 筆記本中執行及排程作業,請參閱建立和管理排程的筆記本作業。
提示
若要將作業檢視為 YAML,請按下作業的 [立即執行] 左側的 Kebab 功能表,然後按下 [切換至程式碼版本 (YAML)]。
建立新作業
本節說明建立新作業以使用工作區 UI 排程筆記本工作所需的最低設定。
作業包含一或多個工作。 您可以設定該作業的第一個工作,以建立新的作業。
注意
每個工作類型在工作區 UI 中都有動態組態選項。 請參閱設定和編輯 Databricks 工作。
- 按下側邊欄中的 [工作流程],然後按下 。
- 輸入 [工作名稱]。
- 選取 [路徑] 欄位的筆記本。
- 按一下 [建立工作]。
如果您的工作區未針對作業啟用無伺服器計算,您必須選取 [計算] 選項。 Databricks 建議在設定工作時一律使用作業計算。
新的作業以預設名稱 New Job <date> <time>
出現於工作區作業清單。
在工作區中選取要編輯的作業
若要使用工作區 UI 編輯參數,請進行下列步驟:
- 按一下側邊欄中的 [工作流程]。
- 在 [名稱] 資料行,按下工作名稱。
使用作業 UI 來執行下列動作:
- 編輯工作設定
- 重新命名、複製或刪除作業
- 將新工作新增至現有的作業
- 編輯工作設定
編輯工作設定
側邊面板包含 [工作詳細資料]。 您可以變更工作的觸發程序、計算組態、通知、並行執行數目上限,設定持續時間閾值,以及新增或變更標籤。 如果已啟用作業存取控制,也可以編輯作業權限。
為所有作業工作新增參數
在作業層級設定的參數傳遞至任何接受索引鍵/值參數的作業工作,包括設定為接受關鍵字引數的 Python Wheel 檔案。 請參閱參數化作業。
將標籤新增至作業
若要將標籤或 key:value 屬性新增至作業,可以在編輯作業時新增標籤。 您可以使用標籤在 [作業清單] 中篩選作業。 您可以使用 department
標籤篩選屬於特定部門的所有作業。
注意
由於作業標籤並非設計來儲存敏感性資訊,例如個人識別資訊或密碼,因此 Databricks 建議只針對非敏感性值使用標籤。
卷標也會傳播至執行作業時所建立的作業叢集,讓您能夠搭配現有的叢集監視使用標籤。
請按下 [作業詳細資料] 側面板中的 [+ 標籤] 以新增或編輯標籤。 您可將標記新增為索引鍵/值組或標籤。 若要新增標籤,請在 [索引鍵] 欄位中輸入標籤,並將 [值] 欄位留空。
重新命名、複製或刪除作業
若要重新命名作業,請移至作業 UI,然後按下作業名稱。
您可以藉助複製現有的作業,快速建立新的作業。 複製作業會建立作業的相同複本,但作業識別碼除外。 若要複製作業,請執行下列動作:
- 移至作業的作業 UI。
- 按下 [立即執行] 按鈕旁的 。
- 從下拉式功能表中,選取 [複製作業]。
- 輸入複製作業的名稱。
- 按下 [複製]。
刪除作業
若要刪除作業,移至作業的頁面上,按下作業名稱旁的 ,然後從下拉式功能表中選取 [刪除作業]。
搭配作業使用 Git
如果您的作業包含任何支援使用遠端 Git 提供者的工作,則作業 UI 包含 [Git] 欄位,以及新增或編輯 Git 設定的選項。
您可以設定下列工作類型來使用遠端 Git 存放庫:
- Notebooks
- Python 指令碼
- SQL 檔案
- dbt
作業中的所有工作都必須參考遠端存放庫中的相同認可。 針對使用遠端存放庫的作業,您只能指定下列其中一項:
- [分支]:分支的名稱,例如
main
。 - [標籤]:標籤的名稱,例如
release-1.0.0
。 - [認可]:特定認可的雜湊,例如
e0056d01
。
作業執行開始時,Databricks 會擷取遠端存放庫的快照認可,以確保整個作業針對相同版本的程式碼執行。
當您檢視執行儲存在遠端 Git 存放庫中之程式碼的工作執行歷程記錄時,[工作執行詳細資料] 面板會包含 Git 詳細資料,包括與執行相關聯的認可 SHA。 請參閱檢視執行歷程記錄。
注意
設定為使用遠端 Git 存放庫的工作無法寫入工作區檔案。 它們必須將暫存資料寫入暫時驅動程式記憶體,並將永續性資料寫入磁碟區或資料表。
Databricks 建議在 Git 資料夾中建立參考工作區路徑的作業,以便於開發期間快速反覆執行和測試。 Databricks 建議您在移至預備和生產環境時,重新設定作業以參考遠端 Git 存放庫。 深入瞭解 Databricks 作業中的版本控制原始程式碼。
設定 Git 提供者
作業 UI 有一個對話方塊可設定遠端 Git 存放庫。 您可以從 [Git] 標題下的 [作業詳細資料] 面板,或在設定為使用 [Git 提供者]的任何工作中存取此對話方塊。
用來存取對話方塊的選項會根據工作類型而有所不同,以及是否已為作業設定 Git 參考。 啟動對話方塊的按鈕包括 [新增 Git 設定]、[編輯] 或 [新增 Git 參考]。
在 [Git 資訊] 對話方塊中 (在由 [作業詳細資料] 面板存取時,直接 標示為 [Git]),輸入以下詳細資訊:
- Git 存放庫 URL。
- 從下拉式清單中選取您的 [Git 提供者] 。
- 在 [Git 參考] 欄位中,輸入對應至您要執行之原始程式碼版本的分支、標記或認可識別碼。
- 從下拉式清單選取 [分支]、[標記] 或 [認可]。
注意
對話方塊可能會提示您輸入以下:遺漏此帳戶的 Git 認證。新增認證。 您必須先設定遠端 Git 存放庫,才能使用它作為參考。 請參閱設定 Databricks Git 資料夾 (Repos)。
設定工作的預期完成時間或逾時
可以設定作業的可選持續時間閾值,包括工作的預期,以及完成時間上限。 若要設定持續時間閾值,請按下 [作業詳細資料] 面板中 [持續時間閾值] 底下的 [設定持續時間閾值]。
若要設定任務的預期完成時間,請在 [警告] 欄位中輸入持續時間。 如果作業超過此閾值,就會觸發事件。 您可以使用此事件在作業執行緩慢時發出通知。 請參閱為執行緩慢或延遲的工作設定通知。
若要設定工作的完成時間上限,請在 [逾時] 欄位中輸入最大持續時間。 如果作業未在此時間完成,Azure Databricks 會將其狀態設定為「逾時」。
您可以選擇性地指定工作的持續時間閾值。 請參閱設定工作的預期完成時間或逾時。