搭配您的作業使用 Azure Databricks 計算

當您執行 Azure Databricks 作業時,根據工作類型而定,在 Azure Databricks 計算上設定為作業一部分的工作會執行無伺服器計算、叢集或 SQL 倉儲。 當作業運作時,選取計算類型和組態選項很重要。 本文提供使用 Azure Databricks 計算資源來執行作業的建議。

若要深入瞭解如何搭配 Azure Databricks 作業使用無伺服器計算,請參閱 使用適用於工作流程的無伺服器計算來執行 Azure Databricks 作業。

注意

秘密不會從叢集的 Spark 驅動程式記錄stdoutstderr數據流中修訂。 為了保護敏感數據,根據預設,Spark 驅動程式記錄只能由具有作業上 CAN MANAGE 許可權、單一使用者存取模式和共用存取模式叢集的用戶檢視。 若要允許具有 CAN ATTACH TO 或 CAN RESTART 許可權的使用者檢視這些叢集上的記錄,請在叢集設定中設定下列 Spark 組態屬性: spark.databricks.acl.needAdminPermissionToViewLogs false

在 [無隔離共用存取模式叢集] 上,Spark 驅動程序記錄可由具有 CAN ATTACH TO 或 CAN MANAGE 許可權的用戶檢視。 若要將誰只能讀取記錄檔給具有 CAN MANAGE 權限的使用者,請將 設定 spark.databricks.acl.needAdminPermissionToViewLogstrue

請參閱 Spark 組態 ,以瞭解如何將 Spark 屬性新增至叢集組態。

使用共用作業叢集

若要使用協調多個工作的作業來優化資源使用量,請使用共用作業叢集。 共用作業叢集可讓相同作業執行中的多個工作重複使用叢集。 您可以使用單一作業叢集來執行屬於作業的所有工作,或針對特定工作負載優化的多個作業叢集。 若要使用共用作業叢集:

  1. 當您建立工作並完成叢集設定時,請選取 [新增作業叢]。
  2. 將工作新增至作業時,請選取新的叢集,或建立新的作業叢集。 當您選取 [ 新增作業叢集] 時所設定的任何叢集 都可供作業中的任何工作使用。

共用作業叢集的範圍是單一作業執行,無法由其他作業或相同作業的執行使用。

無法在共用作業叢集組態中宣告連結庫。 您必須在工作設定中新增相依連結庫。

為您的作業選擇正確的叢集類型

  • 新的作業叢集 是作業或工作執行的專用叢集。 當使用叢集的第一個工作在使用叢集的第一個工作時,會建立和啟動共用作業叢集,並在使用叢集完成最後一個工作之後終止。 叢集不會在閑置時終止,而只會在完成所有工作之後終止。 如果共用作業叢集在完成所有工作之前失敗或終止,則會建立新的叢集。 將範圍設定為單一工作的叢集會在工作完成時建立並啟動。 在生產環境中,Databricks 建議使用新的共用或工作範圍叢集,讓每個作業或工作在完全隔離的環境中執行。
  • 當您在新叢集上執行工作時,工作會被視為數據工程(工作)工作負載,但受限於工作工作負載定價。 當您在現有的所有用途叢集上執行工作時,工作會被視為數據分析(所有用途)工作負載,但受限於所有用途的工作負載定價。
  • 如果您選取已終止的現有叢集,且作業擁有者具有 CAN RESTART 許可權,Azure Databricks 會在排程執行作業時啟動叢集。
  • 現有的所有用途叢集最適合定期更新 儀錶板 等工作。

使用集區來減少叢集的開始時間

若要減少新的作業叢集開始時間,請建立 區,並將作業的叢集設定為使用集區。