Sdílet prostřednictvím


Referenční příručka ke konfiguraci poolu

Tento článek popisuje dostupná nastavení při vytváření fondu pomocí uživatelského rozhraní. Informace o použití rozhraní příkazového řádku Databricks k vytvoření fondu najdete v tématu Příkazy rozhraní příkazového řádku Databricks. Informace o použití rozhraní REST API k vytvoření fondu najdete v rozhraní API fondů instancí.

Poznámka:

Pokud vaše pracovní zátěž podporuje bezserverové výpočty, Databricks doporučuje používat bezserverové výpočty místo fondů, abyste využili škálovatelné výpočetní kapacity, které jsou vždy dostupné. Viz Připojení k výpočetním prostředkům bez serveru.

Velikost fondu

Při vytváření fondu můžete v rámci kontroly jeho velikosti nastavit tři parametry: minimální počet nečinných instancí, maximální kapacitu a automatické ukončení nečinných instancí.

Minimální počet nečinných instancí

Minimální počet instancí, které fond udržuje nečinné. Tyto instance se neukončí bez ohledu na nastavení automatického ukončení. Pokud cluster využívá nečinné instance z fondu, Azure Databricks zřídí další instance, aby minimum zůstalo zachováno.

Maximální kapacita

Maximální počet instancí, které fond může poskytnout. Pokud je tato hodnota nastavena, všechny instance (nečinné + použité). Pokud cluster využívající fond vyžaduje více instancí, než je toto číslo během automatického škálování, požadavek selže s chybou INSTANCE_POOL_MAX_CAPACITY_FAILURE .

Tato konfigurace je volitelná. Azure Databricks doporučuje nastavit hodnotu pouze za následujících okolností:

  • Máte kvótu instance, ve které musíte zůstat.
  • Chcete chránit jednu sadu práce před dopadem na jinou sadu práce. Předpokládejme například, že kvóta pro vaši instanci je 100 a máte týmy A a B, které potřebují provádět úkoly. Můžete vytvořit fond A s maximálním limitem 50 a fondem B s maximálním 50, aby dva týmy sdílely kvótu 100.
  • Musíte omezit náklady.

Automatické ukončení nečinné instance

Doba v minutách, po kterou mohou instance zůstat nečinné nad hodnotou nastavenou v Minimální nečinné instance, než je ukončí fond.

Typy instancí

Fond se skládá z nečinných instancí, které jsou připravené pro nové clustery, a z instancí, které používají běžící clustery. Všechny tyto instance mají stejný typ zprostředkovatele instance, který byl vybrán při vytváření fondu.

Typ instance fondu nelze upravit. Clustery připojené k fondu používají stejný typ instance pro řídicí a pracovní uzly. Různé rodiny typů instancí odpovídají různým případům použití, jako jsou úlohy náročné na paměť nebo úlohy náročné na výpočetní výkon.

Azure Databricks vždy poskytuje oznámení o vyřazení jednoho roku před ukončením podpory pro typ instance.

Poznámka:

Pokud vaše požadavky na zabezpečení zahrnují izolaci výpočetních prostředků, vyberte jako typ pracovního procesu Standard_F72s_V2 instanci. Tyto typy instancí představují izolované virtuální počítače, které obsazují celý fyzický hostitel a poskytují potřebnou úroveň izolace k zajištění podpory, například pro pracovní úlohy Ministerstva obrany USA na úrovni dopadu 5 (IL5).

Předem načtená verze Databricks Runtime

Spuštění clusteru můžete urychlit výběrem verze Databricks Runtime, která se načte na nečinné instance ve fondu. Pokud uživatel vybere tento modul runtime při vytváření clusteru zálohovaného fondem, spustí se tento cluster ještě rychleji než cluster s podporou fondu, který nepoužívá předem načtenou verzi Databricks Runtime.

Když tuto možnost nastavíte na Žádné , zpomalí se spuštění clusteru, protože verze Databricks Runtime se stáhne na vyžádání do nečinných instancí ve fondu. Když cluster uvolní instance ve fondu, zůstane verze Databricks Runtime uložená v mezipaměti těchto instancí. Další operace vytvoření clusteru, která používá stejnou verzi Databricks Runtime, může těžit z tohoto chování při ukládání do mezipaměti, ale není to zaručeno.

Přednačtený obraz Dockeru

Image Dockeru se podporují s fondy, pokud k vytvoření fondu použijete rozhraní API pro fondy instancí .

Značky poolu

Značky fondů umožňují snadno monitorovat náklady na cloudové prostředky používané různými skupinami ve vaší organizaci. Značky můžete zadat jako páry klíč-hodnota při vytváření fondu a Azure Databricks tyto značky použije na cloudové prostředky, jako jsou virtuální počítače a diskové svazky, a také sestavy využití DBU.

Pro usnadnění přístupu azure Databricks použije pro každý fond tři výchozí značky: Vendor, DatabricksInstancePoolIda DatabricksInstancePoolCreatorId. Vlastní značky můžete přidat také při vytváření fondu. Můžete přidat až 41 vlastních značek.

Vlastní značky

Pokud chcete do fondu přidat další štítky, přejděte na kartu Záložky v dolní části stránky Vytvořit fond. Klikněte na tlačítko + Přidat a zadejte dvojici klíč-hodnota.

Klastry vázané na pool dědí výchozí a vlastní značky z konfigurace poolu. Podrobné informace o tom, jak značky fondu a značky clusteru spolupracují dohromady, najdete v tématu Použití značek k přiřazení a sledování využití.

Automatické škálování místního úložiště

Často může být obtížné odhadnout, kolik místa na disku bude konkrétní úloha trvat. Azure Databricks automaticky umožňuje automatické škálování místního úložiště ve všech fondech Azure Databricks, abyste nemuseli odhadnout, kolik gigabajtů spravovaného disku se má připojit k vašemu fondu.

Díky automatickému škálování místního úložiště Azure Databricks sleduje množství dostupného volného místa na disku v instancích vašeho fondu. Pokud instanci začíná docházet místo na disku, je automaticky připojen nový spravovaný disk, aby se zabránilo vyčerpání místa. Disky jsou připojené až k limitu 5 TB celkového místa na disku na virtuální počítač (včetně počátečního místního úložiště virtuálního počítače).

Spravované disky připojené k virtuálnímu počítači se odpojily jenom v případech, kdy se virtuální počítač vrátí do Azure. To znamená, že spravované disky se nikdy neodpojí od virtuálního počítače, dokud je součástí fondu.

Spotové instance

Pokud chcete ušetřit náklady, můžete se rozhodnout použít spotové instance tak, že zaškrtnete přepínač Všechny spoty .

Clustery ve fondu se spustí s spotovými instancemi pro všechny uzly, ovladače a pracovní procesy (na rozdíl od hybridních pracovních procesů na vyžádání a pracovních procesů spotových instancí pro clustery bez fondu).

Pokud jsou spot instance vypovězeny z důvodu nedostupnosti, instance na vyžádání nenahrazují vypovězené instance.