Vytvoření clusteru Spark

Dokončeno

V pracovním prostoru Azure Databricks můžete vytvořit jeden nebo více clusterů pomocí uživatelského rozhraní pracovního prostoru Azure Databricks.

Snímek obrazovky s rozhraním Vytvořit cluster v uživatelském rozhraní pracovního prostoru Azure Databricks

Při vytváření clusteru můžete zadat nastavení konfigurace, včetně:

  • Název clusteru.
  • Režim clusteru , který může být:
    • Standard: Vhodné pro úlohy s jedním uživatelem, které vyžadují více pracovních uzlů.
    • s vysokou souběžností: Vhodné pro úlohy, ve kterých bude cluster souběžně používat více uživatelů.
    • Jeden uzel: Vhodný pro malé úlohy nebo testování, kde se vyžaduje jenom jeden pracovní uzel.
  • Verze databricks Runtime , která se má použít v clusteru; která určuje verzi Sparku a jednotlivých komponent, jako je Python, Scala a další, které se nainstalují.
  • Typ virtuálního počítače používaného pro pracovní uzly v clusteru.
  • Minimální a maximální počet pracovních uzlů v clusteru.
  • Typ virtuálního počítače používaného pro uzel ovladače v clusteru.
  • Určuje, jestli cluster podporuje automatické škálování pro dynamickou změnu velikosti clusteru.
  • Jak dlouho může cluster zůstat nečinný, než se automaticky vypne.

Jak Azure spravuje prostředky clusteru

Když vytvoříte pracovní prostor Azure Databricks, zařízení Databricks se ve vašem předplatném nasadí jako prostředek Azure. Při vytváření clusteru v pracovním prostoru zadáte typy a velikosti virtuálních počítačů, které se mají použít pro ovladače i pracovní uzly, a některé další možnosti konfigurace, ale Azure Databricks spravuje všechny ostatní aspekty clusteru.

Zařízení Databricks se nasadí do Azure jako spravovaná skupina prostředků v rámci vašeho předplatného. Tato skupina prostředků obsahuje virtuální počítače ovladače a pracovního procesu pro vaše clustery spolu s dalšími požadovanými prostředky, včetně virtuální sítě, skupiny zabezpečení a účtu úložiště. Všechna metadata pro váš cluster, jako jsou naplánované úlohy, se ukládají ve službě Azure Database s geografickou replikací kvůli odolnosti proti chybám.

Azure Databricks je rozdělený do dvou hlavních rovin: řídicí rovina, která se skládá z back-endových služeb (například webového uživatelského rozhraní) spravovaných Microsoftem a výpočetní roviny, ve které běží vaše datové úlohy. Existují dvě varianty výpočetních prostředků: klasické výpočetní prostředí, které využívá vaše vlastní předplatné Azure a virtuální síť (nabízející izolaci v rámci předplatného) a bezserverové výpočetní prostředí, které běží ve spravovaném prostředí Databricks, ale stále ve stejné oblasti Azure jako váš pracovní prostor, s ovládacími prvky zabezpečení sítě a zabezpečení, které izolují mezi zákazníky. Každý pracovní prostor ve vašem předplatném má účet úložiště, který obsahuje systémová data (poznámkové bloky, protokoly, metadata úloh), distribuovaný systém souborů (DBFS) a prvky katalogu (pokud máte povolený Katalog Unity), s dalšími kontrolními mechanismy pro kontrolu sítí, nastavení bran firewall a řízení přístupu pro zajištění zabezpečení a správné izolace.

Diagram architektury Azure Databricks

Poznámka:

Máte také možnost připojit cluster k fondu nečinných uzlů, abyste zkrátili dobu spuštění clusteru. Další informace najdete v dokumentaci k Azure Databricks v části Fondy .