共用方式為


集區最佳做法

本文說明什麼是集區,以及如何最佳設定集區。 如需建立集區的相關信息,請參閱 集區組態參考

集區考慮

建立集區時,請考慮下列事項:

  • 使用以目標工作負載為基礎的實例類型和 Azure Databricks 運行時間建立集區。
  • 可能的話,請使用現成實例填入集區,以降低成本。
  • 使用短運行時間和嚴格的運行時間需求,為作業填入隨選實例的集區。
  • 使用集區標籤和叢集標籤來管理計費。
  • 預先填入集區,以確保叢集需要實例時可以使用這些實例。

根據工作負載建立集區

如果您的驅動程序節點和背景工作節點有不同的需求,請為每個節點建立不同的集區。

您可以建立每個實例類型的集區,以及您組織常用的 Azure Databricks 運行時間,將實例擷取時間降至最低。 例如,如果大部分的數據工程叢集使用實例類型 A,數據科學叢集會使用實例類型 B,而分析叢集使用實例類型 C,請建立具有每個實例類型的集區。

將集區設定為針對作業使用隨選實例,其運行時間較短,以及嚴格的運行時間需求。 使用隨選實例來防止被收購的實例遺失到現貨市場較高的投標人。

設定集區,以針對支援互動式開發或作業的叢集使用現成實例,這些叢集會優先節省成本,以節省可靠性的成本。

用來管理成本和計費的標記集區

將集區標記到正確的成本中心可讓您管理成本和使用量退款。 您可以使用多個自定義標籤,將多個成本中心與集區產生關聯。 不過,請務必瞭解從集區建立叢集時如何傳播標籤。 來自集區的標記會傳播至基礎雲端提供者實例,但叢集的標籤則不會。 將管理雲端提供者計算成本退款所需的所有自定義標籤套用至集區。

集區標籤和叢集卷標都會傳播至 Azure Databricks 計費。 您可以使用叢集和集區卷標的組合來管理 Azure Databricks Units 的退款。

若要深入瞭解,請參閱 使用標記監視使用量。

設定集區以控制成本

您可以使用下列組態選項來協助控制集區的成本:

  • [最小閑置 實例] 設定為0,以避免為未執行工作的執行實例付費。 取捨是叢集需要取得新實例的時間可能增加。
  • 設定閑置實例自動終止時間,以在實例從叢集釋出時以及從集區卸載時提供緩衝區。 將此設定為期間,可讓您將成本降至最低,同時確保排程作業的實例可用性。 例如,作業 A 排定於上午 8:00 執行,需要 40 分鐘才能完成。 作業 B 排定於上午 9:00 執行,需要 30 分鐘才能完成。 將 [閑置實例自動終止] 值設定為 20 分鐘,以確保作業 A 完成時,當作業 B 啟動時傳回集區的實例。 除非由另一個叢集宣告這些實例,否則這些實例會在作業 B 結束 20 分鐘後終止。
  • 根據預期的使用量設定 最大容量 。 這會設定集區中已使用和閑置實例數目上限。 如果作業或叢集以最大容量向集區要求實例,要求會失敗,而且叢集不會取得更多實例。 因此,Databricks 建議您只有在有嚴格的實例配額或預算條件約束時,才設定最大容量。

預先填入集區

若要完全受益於集區,您可以預先填入新建立的集區。 設定集 區組態中大於零的最小閑置 實例。 或者,如果您遵循將此值設定為零的建議,請使用入門作業來確保新建立的集區具有可供叢集存取的實例。

使用入門作業方法,排程具有彈性運行時間需求的作業,以更嚴格的效能需求或在用戶開始使用互動式叢集之前執行作業。 作業完成之後,用於作業的實例會釋回集區。 將 [最小閑置實例] 設定為0,並將閒置實例自動終止時間設定為足夠高,以確保閒置實例仍可供後續作業使用。

使用入門作業可讓集區實例啟動、填入集區,並保留供下游作業或互動式叢集使用。