Worum handelt es sich bei Apache Spark™ in HDInsight auf AKS? (Vorschau)

Artikel
10/16/2024

Hinweis

Azure HDInsight on AKS wird am 31. Januar 2025 eingestellt. Vor dem 31. Januar 2025 müssen Sie Ihre Workloads zu Microsoft Fabric oder einem gleichwertigen Azure-Produkt migrieren, um ein abruptes Beenden Ihrer Workloads zu vermeiden. Die verbleibenden Cluster in Ihrem Abonnement werden beendet und vom Host entfernt.

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die zusätzlichen Nutzungsbedingungen für Microsoft Azure-Vorschauen enthalten weitere rechtliche Bestimmungen, die für Azure-Features in Betaversionen, in Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschau von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

Apache Spark™ ist ein Framework für die Parallelverarbeitung, das In-Memory-Verarbeitung unterstützt, um die Leistung von Big Data-Analyseanwendungen zu steigern.

Apache Spark™ stellt Primitive für In-Memory-Clustercomputing bereit. Bei einem Spark-Auftrag können Daten in den Arbeitsspeicher geladen, zwischengespeichert und dann wiederholt abgefragt werden. In-Memory-Computing ist schneller als datenträgerbasierte Anwendungen wie Hadoop, die Daten über HDFS (Hadoop Distributed File System) freigeben. Apache Spark kann in die Programmiersprachen Scala und Python integriert werden, um die Arbeit mit verteilten Datasets (beispielsweise lokale Sammlungen) zu ermöglichen. Es ist nicht erforderlich, alles in Form von Mapper- und Reducer-Vorgängen zu strukturieren.

Diagramm mit Spark-Übersicht in HDInsight on AKS

Einen Apache Spark-Cluster unter HDInsight auf AKS

Azure HDInsight ist ein umfassender, verwalteter Open-Source-Analysedienst für Unternehmen.

Apache Spark™ in Azure HDInsight auf AKS ist der verwaltete Spark-Dienst in Microsoft Azure. Mit Apache Spark in Azure HDInsight auf AKS können Sie alle Daten in Azure speichern und verarbeiten. Spark-Cluster in HDInsight sind mit Azure Data Lake Storage Gen2 kompatibel, sodass Sie vorhandene Datenspeicher mit Spark verarbeiten können.

Das Apache Spark-Framework für HDInsight on AKS ermöglicht schnelle Datenanalysen und Clustercomputing mit In-Memory-Verarbeitung. Jupyter Notebook ermöglicht es Ihnen, mit Ihren Daten zu interagieren, Code mit Markdowntext zu kombinieren und einfache Visualisierungen durchzuführen.

Apache Spark auf AKS in HDInsight besteht aus mehreren Komponenten als Pods.

Clustercontroller

Clustercontroller sind für die Installation und Verwaltung der jeweiligen Dienste verantwortlich. Verschiedene Controller werden in einem Spark-Cluster installiert und verwaltet.

Apache Spark-Dienstkomponenten

Zookeeper-Dienst: Ein Zookeeper-Cluster mit drei Knoten dient als verteilter Koordinator oder Hochverfügbarkeitsspeicher für andere Dienste.

Yarn-Dienst: Hadoop Yarn-Cluster: Spark-Aufträge werden im Cluster als Yarn-Anwendungen geplant.

Clientschnittstellen: Apache Spark-Cluster in HDInsight auf AKS bietet verschiedene Clientschnittstellen. Livy Server, Jupyter Notebook und Spark History Server bieten Spark-Dienste für HDInsight on AKS-Benutzer*innen.

Verweis

Apache, Apache Spark, Spark und zugehörige Open Source-Projektnamen sind Handelsmarken der Apache Software Foundation (ASF).

Freigeben über

Worum handelt es sich bei Apache Spark™ in HDInsight auf AKS? (Vorschau)

Einen Apache Spark-Cluster unter HDInsight auf AKS

Clustercontroller

Apache Spark-Dienstkomponenten

Verweis

Feedback

Zusätzliche Ressourcen