Vytvoření clusteru Spark

Dokončeno

V pracovním prostoru Azure Databricks můžete vytvořit jeden nebo více clusterů pomocí portálu Azure Databricks.

Screenshot of the Create Cluster interface in the Azure Databricks portal.

Při vytváření clusteru můžete zadat nastavení konfigurace, včetně:

  • Název clusteru.
  • Režim clusteru, který může být:
    • Standard: Vhodné pro úlohy s jedním uživatelem, které vyžadují více pracovních uzlů.
    • Vysoká souběžnost: Vhodné pro úlohy, ve kterých bude cluster souběžně používat více uživatelů.
    • Jeden uzel: Vhodný pro malé úlohy nebo testování, kde se vyžaduje jenom jeden pracovní uzel.
  • Verze modulu Databricks Runtime , která se má použít v clusteru, která určuje verzi Sparku a jednotlivých komponent, jako je Python, Scala a další, které se nainstalují.
  • Typ virtuálního počítače používaného pro pracovní uzly v clusteru.
  • Minimální a maximální počet pracovních uzlů v clusteru.
  • Typ virtuálního počítače používaného pro uzel ovladače v clusteru.
  • Určuje, jestli cluster podporuje automatické škálování pro dynamickou změnu velikosti clusteru.
  • Jak dlouho může cluster zůstat nečinný, než se automaticky vypne.

Jak Azure spravuje prostředky clusteru

Když vytvoříte pracovní prostor Azure Databricks, zařízení Databricks se ve vašem předplatném nasadí jako prostředek Azure. Při vytváření clusteru v pracovním prostoru zadáte typy a velikosti virtuálních počítačů, které se mají použít pro ovladače i pracovní uzly, a některé další možnosti konfigurace, ale Azure Databricks spravuje všechny ostatní aspekty clusteru.

Zařízení Databricks se nasadí do Azure jako spravovaná skupina prostředků v rámci vašeho předplatného. Tato skupina prostředků obsahuje virtuální počítače ovladače a pracovního procesu pro vaše clustery spolu s dalšími požadovanými prostředky, včetně virtuální sítě, skupiny zabezpečení a účtu úložiště. Všechna metadata pro váš cluster, jako jsou naplánované úlohy, se ukládají ve službě Azure Database s geografickou replikací kvůli odolnosti proti chybám.

Azure Kubernetes Service (AKS) se interně používá ke spouštění řídicí roviny a roviny dat Azure Databricks prostřednictvím kontejnerů běžících na nejnovější generaci hardwaru Azure (virtuálních počítačů Dv3) s 100us latencí 100us na vysoce výkonných virtuálních počítačích Azure s akcelerovanými síťovými službami. Azure Databricks využívá tyto funkce Azure k dalšímu zlepšení výkonu Sparku. Jakmile jsou služby ve vaší spravované skupině prostředků připravené, můžete cluster Databricks spravovat prostřednictvím uživatelského rozhraní Azure Databricks a prostřednictvím funkcí, jako je automatické škálování a automatické ukončení.

Diagram of Azure Databricks architecture.

Poznámka:

Máte také možnost připojit cluster k fondu nečinných uzlů, abyste zkrátili dobu spuštění clusteru. Další informace najdete v dokumentaci k Azure Databricks v části Fondy .