設定 Azure Databricks 作業的設定
本文提供在作業 UI 中設定 Azure Databricks 作業和個別作業工作的詳細數據。 若要瞭解如何使用 Databricks CLI 來編輯作業設定,請執行 CLI 命令 databricks jobs update -h
。 若要瞭解如何使用作業 API,請參閱 作業 API。
某些組態選項可在作業上使用,其他選項則可用於個別工作。 例如,並行執行上限只能在作業上設定,而重試原則則針對每個工作定義。
編輯作業
若要變更作業的組態:
- 按兩下 提要欄位中的 [工作流程 ]。
- 在 [ 名稱] 資料行中,按兩下作業名稱。
側邊面板會顯示 [作業詳細數據]。 您可以變更作業的觸發程式、計算組態、 通知、並行執行數目上限、設定持續時間閾值,以及新增或變更卷標。 如果 已啟用作業存取控制 ,您也可以編輯作業許可權。
新增所有作業工作的參數
您可以在傳遞至任何接受索引鍵/值參數之作業的工作上設定參數,包括設定為接受關鍵詞自變數的 Python 轉輪檔案。 在作業層級設定的參數會新增至已設定的工作層級參數。 傳遞至工作的作業參數會顯示在工作組態中,以及工作上設定的任何參數。
您也可以將作業參數傳遞至未設定索引鍵/值參數的工作,例如 JAR
或 Spark Submit
工作。 若要將作業參數傳遞至這些工作,請將自變數格式化為 {{job.parameters.[name]}}
,並將 取代key
[name]
為 可識別 參數的 。
作業參數優先於工作參數。 如果作業參數和工作參數具有相同的索引鍵,則作業參數會覆寫工作參數。
當您使用不同的參數執行作業或修復作業執行時,您可以覆寫已設定的作業參數或新增作業參數。
您也可以使用一組 動態值參考來共用作業和工作的相關內容。
若要新增作業參數,請按兩下 [作業詳細資料] 側面板中的 [編輯參數],並指定每個參數的索引鍵和預設值。 若要檢視可用的動態值參考清單,請按兩下 [ 瀏覽動態值]。
將標籤新增至作業
若要將標籤或key:value 屬性新增至作業,您可以在編輯作業時新增 標籤 。 您可以使用標籤來篩選 [作業] 清單中的作業;例如,您可以使用department
標籤來篩選屬於特定部門的所有作業。
注意
由於作業標籤並非設計來儲存機密資訊,例如個人標識資訊或密碼,因此 Databricks 建議只針對非敏感性值使用標籤。
卷標也會傳播至執行作業時所建立的作業叢集,讓您能夠搭配現有的 叢集監視使用標籤。
若要新增或編輯標籤,請按兩下 [作業詳細資料] 側面板中的 [+ 標籤]。 您可以將標籤新增為索引鍵和值或標籤。 若要新增標籤,請在 [索引鍵] 欄位中輸入標籤,並將 [值] 字段保留空白。
設定共用叢集
若要查看與叢集相關聯的工作,請按兩下 [ 工作 ] 索引標籤,並將滑鼠停留在側邊面板中的叢集上。 若要變更所有相關聯工作的叢集組態,請按下叢集底下的 [ 設定 ]。 若要為所有相關聯的工作設定新的叢集,請按下叢集底下的 [ 交換 ]。
控制作業的存取
作業訪問控制可讓作業擁有者和系統管理員對其作業授與更細緻的許可權。 作業擁有者可以選擇其他使用者或群組可以檢視作業結果。 擁有者也可以選擇誰可以管理其作業執行(立即執行和取消執行許可權)。
如需作業許可權等級的資訊,請參閱 作業 ACL。
您必須擁有作業的 CAN MANAGE 或 IS OWNER 許可權,才能管理作業的許可權。
在提要欄位中,按兩下 [ 作業執行]。
按兩下作業的名稱。
在 [ 作業詳細數據] 面板中,按兩下 [ 編輯許可權]。
在 [許可權設定] 中,按兩下 [ 選取使用者、群組或服務主體...] 下拉功能表,然後選取使用者、群組或服務主體。
按一下 [新增] 。
按一下 [檔案] 。
管理作業擁有者
根據預設,作業的建立者具有IS OWNER許可權,而且是作業執行 身分 設定中的使用者。 作業會在 [執行身分] 設定中以使用者的身分識別身分執行。 如需執行身分設定的詳細資訊,請參閱以服務主體身分執行作業。
工作區管理員可以將作業擁有者變更為自己。 轉移擁有權時,先前的擁有者會被授與 CAN MANAGE 許可權
注意
RestrictWorkspaceAdmins
當工作區上的設定設為 ALLOW ALL
時,工作區管理員可以將作業擁有者變更為其工作區中的任何使用者或服務主體。 若要限制工作區管理員只將作業擁有者變更為自己,請參閱 限制工作區管理員。
設定並行執行上限
按兩下 [進階設定] 底下的 [編輯並行執行],以設定此作業的平行執行數目上限。 如果作業在嘗試啟動新執行時已達到作用中執行次數上限,Azure Databricks 會略過執行。 將此值設定為高於預設值 1,以同時執行相同作業的多個執行。 例如,如果您以頻繁的排程觸發作業,而且想要允許連續執行彼此重疊,或是想要觸發與其輸入參數不同的多個執行,這非常有用。
啟用作業執行的佇列
若要讓作業的執行置於佇列中,以便稍後因為並行限制而無法立即執行時執行,請按兩下 [進階設定] 下的 [佇列] 切換開關。 請參閱 如果我的作業因並行限制而無法執行?。
注意
默認會針對在 2024 年 4 月 15 日之後透過 UI 建立的作業啟用佇列。
設定作業的預期完成時間或逾時
您可以設定作業的選擇性工期閾值,包括作業的預期完成時間,以及作業的最大完成時間。 若要設定持續時間閾值,請按兩下 [ 設定持續時間閾值]。
若要設定作業的預期完成時間,請在 [警告] 欄位中輸入預期的持續時間。 如果作業超過此閾值,您可以設定慢速執行作業的通知。 請參閱 設定慢速執行或延遲作業的通知。
若要設定作業的完成時間上限,請在 [逾時] 字段中輸入最大持續時間。 如果作業目前未完成,Azure Databricks 會將其狀態設定為「逾時」,並停止作業。
編輯工作
若要設定工作組態選項:
- 按兩下 提要欄位中的 [工作流程 ]。
- 在 [ 名稱] 資料行中,按兩下作業名稱。
- 按兩下 [工作] 索引標籤,然後選取要編輯的工作。
定義工作相依性
您可以使用 [相依] 下拉功能表,定義作業中工作執行的順序。 您可以將此欄位設定為作業中的一或多個工作。
注意
如果作業只包含一項工作,則視情況而定。
設定工作相依性會建立工作執行的有向無循環圖形(DAG),這是代表作業排程器執行順序的常見方式。 例如,請考慮下列包含四項工作的工作:
- 工作 1 是根工作,不相依於任何其他工作。
- 工作 2 和工作 3 取決於第一個完成的工作 1。
- 最後,工作 4 取決於工作 2 和工作 3 成功完成。
Azure Databricks 會在執行下游工作之前執行上游工作,並盡可能平行執行其中許多工作。 下圖說明這些工作的處理順序:
設定工作的叢集
若要設定工作執行所在的叢集,請單擊 [叢集 ] 下拉功能表。 您可以編輯共用作業叢集,但如果其他工作仍使用該叢集,則無法刪除共用叢集。
若要深入瞭解如何選取和設定叢集以執行工作,請參閱 搭配您的作業使用 Azure Databricks 計算。
設定相依連結庫
系統會在工作執行前,於叢集上安裝相依程式庫。 您必須設定所有工作相依性,以確保這些相依性會在執行開始前安裝好。 請遵循管理連結庫相依性中的建議,以指定相依性。
設定工作的預期完成時間或逾時
您可以設定任務的選擇性工期閾值,包括任務的預期完成時間,以及任務完成時間上限。 若要設定持續時間閾值,請按兩下 [ 持續時間閾值]。
若要設定工作的預期完成時間,請在 [警告] 欄位中輸入工期。 如果工作超過此臨界值,就會觸發事件。 您可以使用此事件在工作執行緩慢時通知。 請參閱 設定慢速執行或延遲作業的通知。
若要設定任務的最大完成時間,請在 [逾時] 字段中輸入最大工期。 如果工作目前未完成,Azure Databricks 會將其狀態設定為 「逾時」。
設定工作的重試原則
若要設定原則,以判斷重試失敗工作執行的時間和次數,請按兩下 [重試] 旁的 [+ 新增]。 重試間隔的計算方式為失敗執行開始與後續重試執行之間的毫秒數。
注意
如果您同時 設定逾時 和 重試,則逾時會套用至每個重試。