Co je Apache Spark™ ve službě HDInsight v AKS? (Preview)

Článek
10/30/2023

Důležité

Tato funkce je aktuálně dostupná jako ukázková verze. Doplňkové podmínky použití pro Microsoft Azure Preview obsahují další právní podmínky, které se vztahují na funkce Azure, které jsou v beta verzi, ve verzi Preview nebo ještě nejsou vydány v obecné dostupnosti. Informace o této konkrétní verzi Preview najdete v tématu Azure HDInsight o službě AKS ve verzi Preview. Pokud máte dotazy nebo návrhy funkcí, odešlete prosím žádost na AskHDInsight s podrobnostmi a sledujte nás o dalších aktualizacích v komunitě Azure HDInsight.

Apache Spark™ je architektura paralelního zpracování, která podporuje zpracování v paměti za účelem zvýšení výkonu analytických aplikací pro velké objemy dat.

Apache Spark™ poskytuje primitiva pro cluster computing v paměti. Úloha Sparku dokáže data načíst a uložit je do mezipaměti a opakovaně se na ně dotazovat. Výpočetní prostředí v paměti je rychlejší než aplikace založené na discích, jako je Hadoop, které sdílí data prostřednictvím distribuovaného systému souborů Hadoop (HDFS). Apache Spark umožňuje integraci s programovacími jazyky Scala a Python, abyste mohli manipulovat s distribuovanými datovými sadami, jako jsou místní kolekce. Není nutné strukturovat všechno jako mapovací a redukční operace.

Diagram znázorňující přehled Sparku ve službě HDInsight v AKS

Cluster Apache Spark se službou HDInsight v AKS

Azure HDInsight je spravovaná opensourcová analytická služba určená pro podniky.

Apache Spark™ ve službě Azure HDInsight v AKS je spravovaná služba Spark v Microsoft Azure. Díky Apache Sparku ve službě Azure HDInsight v AKS můžete ukládat a zpracovávat data v rámci Azure. Clustery Spark ve službě HDInsight jsou kompatibilní s Azure Data Lake Storage Gen2 a umožňují použít zpracování Sparku ve stávajících úložištích dat.

Architektura Apache Spark pro HDInsight v AKS umožňuje rychlou analýzu dat a cluster computing pomocí zpracování v paměti. Jupyter Notebook umožňuje pracovat s daty, kombinovat kód s textem markdownu a provádět jednoduché vizualizace.

Apache Spark v AKS ve službě HDInsight se skládá z několika komponent jako podů.

Kontrolery clusteru

Kontrolery clusteru zodpovídají za instalaci a správu příslušných služeb. V clusteru Spark se instalují a spravují různé kontrolery.

Komponenty služby Apache Spark

Služba Zookeeper: Cluster Zookeeper se třemi uzly slouží jako distribuovaný koordinátor nebo úložiště s vysokou dostupností pro jiné služby.

Služba Yarn: Cluster Hadoop Yarn, úlohy Sparku by se v clusteru naplánovaly jako aplikace Yarn.

Klientská rozhraní: Clustery Apache Spark ve službě HDInsight v AKS poskytují různá klientská rozhraní. Livy Server, Jupyter Notebook, Spark History Server, poskytuje služby Sparku hdInsight uživatelům AKS.

Reference

Názvy open source projektů Apache, Apache Spark, Apache Spark a přidružené jsou ochranné známky služby Apache Software Foundation (ASF).

Co je Apache Spark™ ve službě HDInsight v AKS? (Preview)

Cluster Apache Spark se službou HDInsight v AKS

Kontrolery clusteru

Komponenty služby Apache Spark

Reference

Další materiály