本文包含設定 Lakeflow 作業計算的建議和資源。
每個工作可以有一個或多個任務。 您可以為每個工作定義計算資源。 針對相同作業定義的多個工作可以使用相同的計算資源。
每個工作的建議計算為何?
下表指出每個工作類型的建議和支持的計算類型。
備註
作業的無伺服器計算有限制,且不支援所有工作負載。 請參閱 無伺服器計算限制。
任務 | 建議的計算 | 支持的計算 |
---|---|---|
筆記型電腦 | 無伺服器作業 | 無伺服器作業、傳統作業、傳統全用途 |
Python 指令碼 | 無伺服器作業 | 無伺服器作業、傳統作業、傳統全用途 |
Python 輪胎 | 無伺服器作業 | 無伺服器作業、傳統作業、傳統全用途 |
SQL | 無伺服器 SQL 倉儲 | 無伺服器 SQL 倉儲,pro SQL 倉儲 |
Lakeflow 宣言式管線 | 無伺服器管線 | 無伺服器管線,傳統管線 |
dbt | 無伺服器 SQL 倉儲 | 無伺服器 SQL 倉儲,pro SQL 倉儲 |
dbt CLI 命令 | 無伺服器作業 | 無伺服器作業、傳統作業、傳統全用途 |
罐 | 傳統作業 | 傳統作業、傳統全用途 |
Spark 提交 | 傳統作業 | 傳統作業 |
Lakeflow 任務的定價根據執行工作所使用的運算資源。 如需詳細資訊,請參閱 Databricks 定價。
如何設定作業的運算資源?
傳統作業計算會直接從 Lakeflow 作業 UI 進行設定,而這些設定是作業定義的一部分。 所有其他可用的計算類型都會將其設定與其他工作區資產一起儲存。 下表提供更多詳細數據:
計算類型 | 詳細資訊 |
---|---|
經典作業計算 | 您可以使用與所有用途的計算相同的使用者介面和設定,來為傳統作業設定計算。 請參閱計算組態參考。 |
工作任務的無伺服器運算 | 作業的無伺服器計算是支援作業之所有工作的預設值。 Databricks 會管理無伺服器計算的計算設定。 請參閱 使用適用於工作流程的無伺服器計算執行 Lakeflow 作業。 工作區管理員必須啟用無伺服器計算,才能顯示此選項。 請參閱啟用無伺服器計算。 |
SQL 數據倉庫 | 無伺服器和 Pro SQL 倉儲是由工作區系統管理員或具有不受限制叢集建立許可權的使用者所設定。 您可以設定工作以針對現有的 SQL 資料庫執行。 請參閱連線至 SQL 倉儲。 |
Lakeflow 宣告式管線系統計算 | 您可以在管線設定期間設定 Lakeflow 宣告式管線的計算設定。 請參閱 設定 Lakeflow 宣告式管線的計算。 Azure Databricks 會管理無伺服器 Lakeflow 宣告式管線的計算資源。 請參閱 設定無伺服器管線。 |
多功能計算 | 您可以選擇性地使用傳統全用途計算來設定工作。 Databricks 不建議將此設定用於生產作業。 請參閱 計算組態參考 和 是否應該將所有用途的計算用於作業?。 |
跨工作共享計算
設定任務以使用相同的作業計算資源,透過協同多個任務來優化資源使用效率。 跨工作共用計算可以減少與啟動時間相關聯的延遲。
您可以使用單一作業計算資源來執行屬於作業一部分的所有工作,或針對特定工作負載優化的多個作業資源。 作為作業一部分配置的任何計算資源都可供作業中的所有其他任務使用。
下表強調針對單一工作設定的作業計算與工作之間共用的作業計算之間的差異:
單一任務 | 跨工作共用 | |
---|---|---|
開始 | 工作執行開始時。 | 當第一個任務運行開始使用計算資源時。 |
終止 | 工作執行之後。 | 完成設定為使用計算資源的最終工作之後。 |
閑置計算 | 不適用。 | 當工作未使用計算資源執行時,計算會保持開啟和閑置。 |
共享的作業叢集限定於單一作業執行,無法被其他作業或同一作業的其他執行所使用。
無法在共用作業叢集組態中宣告程式庫。 您必須在工作設定中新增相依連結庫。
檢閱、設定及切換計算任務
[作業詳細數據] 面板中的 [計算] 區段會列出針對目前作業中的工作所設定的所有計算。
當您將滑鼠停留在計算規格上時,系統會在工作圖表中醒目提示設定為使用計算資源的工作。
使用 [ 交換] 按鈕來變更與計算資源相關聯之所有工作的計算。
傳統作業計算資源具有 [ 設定 ] 選項。 其他計算資源可讓您選擇檢視和修改計算組態詳細數據。
詳細資訊
如需設定 Azure Databricks 傳統作業的其他詳細數據,請參閱 設定傳統 Lakeflow 作業的最佳做法。