Vad är Apache Spark™ i HDInsight på AKS? (Förhandsversion)

Artikel
10/30/2023

Viktigt!

Den här funktionen finns i förhandsgranskning. De kompletterande användningsvillkoren för Förhandsversioner av Microsoft Azure innehåller fler juridiska villkor som gäller för Azure-funktioner som är i betaversion, förhandsversion eller på annat sätt ännu inte har släppts i allmän tillgänglighet. Information om den här specifika förhandsversionen finns i Azure HDInsight på AKS-förhandsversionsinformation. Om du vill ha frågor eller funktionsförslag skickar du en begäran på AskHDInsight med informationen och följer oss för fler uppdateringar i Azure HDInsight Community.

Apache Spark™ är ett ramverk för parallell bearbetning som stöder minnesintern bearbetning för att öka prestandan för analysprogram med stordata.

Apache Spark™ tillhandahåller primitiver för minnesintern klusterberäkning. Ett Spark-jobb kan läsa in och cachelagra data i minnet och köra frågor mot det upprepade gånger. Minnesintern databehandling är snabbare än diskbaserade program, till exempel Hadoop, som delar data via Hadoop-distribuerat filsystem (HDFS). Med Apache Spark kan du integrera med programmeringsspråken Scala och Python så att du kan ändra distribuerade datauppsättningar som lokala samlingar. Det finns inget behov av att strukturera det hela i mappnings- och reduceringsåtgärder.

Diagram som visar Spark-översikt i HDInsight på AKS.

Apache Spark-kluster med HDInsight på AKS

Azure HDInsight är en hanterad analystjänst med fullständigt spektrum med öppen källkod för företag.

Apache Spark™ i Azure HDInsight på AKS är den hanterade Spark-tjänsten i Microsoft Azure. Med Apache Spark i Azure HDInsight på AKS kan du lagra och bearbeta dina data i Azure. Spark-kluster i HDInsight är kompatibla med eller Azure Data Lake Storage Gen2, så att du kan använda Spark-bearbetning på dina befintliga datalager.

Apache Spark-ramverket för HDInsight på AKS möjliggör snabb dataanalys och klusterberäkning med hjälp av minnesintern bearbetning. Med Jupyter Notebook kan du interagera med dina data, kombinera kod med markdown-text och göra enkla visualiseringar.

Apache Spark på AKS i HDInsight består av flera komponenter som poddar.

Klusterkontrollanter

Klusterstyrenheter ansvarar för att installera och hantera respektive tjänst. Olika styrenheter installeras och hanteras i ett Spark-kluster.

Apache Spark-tjänstkomponenter

Zookeeper-tjänst: Ett Zookeeper-kluster med tre noder, fungerar som distribuerad koordinator eller lagring med hög tillgänglighet för andra tjänster.

Yarn-tjänst: Hadoop Yarn-kluster, Spark-jobb schemaläggs i klustret som Yarn-program.

Klientgränssnitt: Apache Spark-kluster i HDInsight på AKS tillhandahåller olika klientgränssnitt. Livy Server, Jupyter Notebook, Spark History Server, tillhandahåller Spark-tjänster till HDInsight på AKS-användare.

Referens

Apache, Apache Spark, Spark och associerade öppen källkod projektnamn är varumärken som tillhör Apache Software Foundation (ASF).

Vad är Apache Spark™ i HDInsight på AKS? (Förhandsversion)

Apache Spark-kluster med HDInsight på AKS

Klusterkontrollanter

Apache Spark-tjänstkomponenter

Referens

Ytterligare resurser