本文說明在使用 UI 建立集區時的可用設定。 若要了解如何使用 Databricks CLI 來建立集區,請參閱 Databricks CLI 命令。 若要了解如何使用 REST API 來建立集區,請參閱執行個體集區 API。
注意
如果您的工作負載支援無伺服器計算,Databricks 建議使用無伺服器計算,而不是使用資源池,以利用隨時可用且可擴展的計算能力。 請參閱連線至無伺服器計算。
集區大小
建立集區時,若要控制大小,您可以設定三個參數:閒置執行個體數下限、容量上限和閒置執行個體自動終止。
閒置執行個體數下限
集區保持閒置的執行個體數目下限。 不論自動終止設定為何,這些執行個體都不會終止。 如果叢集從集區取用閒置的執行個體,Azure Databricks 會佈建其他執行個體以維持最小值。
容量上限
集區可以配置的執行個體數目上限。 如果設定,此值會限制所有執行個體 (閒置 + 已使用)。 如果使用集區的叢集在自動縮放期間要求比此數目更多的執行個體,則要求會失敗並顯示 INSTANCE_POOL_MAX_CAPACITY_FAILURE
錯誤。
此組態為選用。 Azure Databricks 建議僅在下列情況下設定值:
- 您必須遵守一定的執行個體配額。
- 您想要防止一組工作影響另一組工作。 例如,假設您的執行個體配額為 100,您的團隊 A 和 B 需要執行工作。 您可以建立配額上限為 50 的集區 A 和配額上限為 50 的集區 B,以便兩個團隊公平地共用配額 100。
- 您需要控制成本。
閒置執行個體自動終止
執行個體閒置的時間(以分鐘為單位)超過最低閒置執行個體數設定的值後,將由集區終止。
執行個體類型
集區由為新叢集做好準備的閒置執行個體和正在執行的叢集所使用的執行個體組成。 所有這些執行個體都屬於相同的執行個體提供者類型,此類型是在建立集區時選取的。
無法編輯集區的實例類型。 連結至集區的叢集對於 driver 節點和工作節點使用相同的實例類型。 不同的執行個體類型系列適用不同的使用案例,例如記憶體密集型工作負載或計算密集型工作負載。
Azure Databricks 一律會在停止對實例類型的支援之前,提供一年的淘汰通知。
注意
如果安全需求包括計算隔離,請選取Standard_F72s_V2執行個體作為工作類型。 這些執行個體類型代表使用整個實體主機的隔離虛擬機器,並提供所需的隔離層級以支援,例如美國國防部的影響等級 5 (IL5) 工作負載。
預先載入的 Databricks Runtime 版本
您可以透過選取要在集區中閒置執行個體上載入的 Databricks Runtime 版本,來加快叢集啟動。 如果使用者在建立集區支援的叢集時選取該運行時間,該叢集會比未使用預先載入 Databricks Runtime 版本的集區支援叢集更快速地啟動。
將此選項設定為 None 會減慢叢集啟動速度,因為它會導致 Databricks Runtime 版本隨需下載至資源池內的閒置執行個體。 當叢集釋放集區中的執行個體時,Databricks Runtime 版本將在這些執行個體上保持快取狀態。 使用相同 Databricks Runtime 版本的下一個叢集建立作業可能會因這種快取行為而受益,但這並非絕對保證。
預先載入的 Docker 映像
如果您使用 執行個體集區 API 來建立集區,Docker 鏡像則能被集區支援。
集區標籤
集區標籤可讓您輕鬆監視組織中各種群組所使用的雲端資源的成本。 您可以在建立集區時將標籤指定為索引鍵/值組,Azure Databricks 會將這些標籤套用至 VM 和磁碟的磁碟區等雲端資源以及 DBU 使用量報告。
為了方便起見,Azure Databricks 對每個集區套用三個預設標籤:Vendor
、DatabricksInstancePoolId
和 DatabricksInstancePoolCreatorId
。 您也可以在建立集區時新增自訂標籤。 您最多可以新增 41 個自訂標籤。
自訂標籤
若要將其他標籤新增至集區,請瀏覽至 [建立集區] 頁面底部的 [標籤] 索引標籤。 按一下 [+ 新增] 按鈕,然後輸入索引鍵/值組。
集區支援的叢集會從集區組態繼承預設和自訂標籤。 如需集區標籤和叢集標籤如何一起運作的詳細資訊,請參閱 使用標籤來屬性和追蹤使用量。
自動縮放本機儲存體
通常很難估算特定工作會佔用的磁碟空間量。 為了讓您不必估算在建立時要連結至集區的受控磁碟的 GB 數,Azure Databricks 會自動在所有 Azure Databricks 集區上啟用自動縮放本機儲存體。
使用自動調整本機記憶體,Azure Databricks 會監視集區實例上可用的可用磁碟空間量。 如果某個執行個體的磁碟空間太少,系統會在此執行個體的磁碟空間不足之前自動連結新的受控磁碟。 虛擬機器所連接的所有磁碟空間總上限為 5 TB(包括虛擬機器的初始本機儲存空間)。
僅當虛擬機器傳回 Azure 時,附加在虛擬機器上的受控磁碟才會被卸載。 也就是說,只要虛擬機器是某個集區的一部分,受控磁碟就不會從該虛擬機器中斷連結。
現成執行個體
為了節省成本,您可以通過選取 [所有現貨執行個體] 圓形按鈕來使用 現貨執行個體。
集區中的叢集將以現成執行個體啟動所有節點,包括驅動程序和工作角色(不同於非集區叢集使用混合隨需驅動程序和現成工作角色)。
如果現成執行個體因無法使用而收回,則隨需執行個體不會取代收回的執行個體。