Freigeben über


Worum handelt es sich bei Apache Spark™ in HDInsight auf AKS? (Vorschau)

Wichtig

Diese Funktion steht derzeit als Vorschau zur Verfügung. Die ergänzenden Nutzungsbedingungen für Microsoft Azure-Vorschauversionen enthalten weitere rechtliche Bedingungen, die für Azure-Funktionen in Betaversionen, Vorschauversionen oder anderen Versionen gelten, die noch nicht allgemein verfügbar gemacht wurden. Informationen zu dieser spezifischen Vorschau finden Sie unter Informationen zur Vorschauversion von Azure HDInsight on AKS. Bei Fragen oder Funktionsvorschlägen senden Sie eine Anfrage an AskHDInsight mit den entsprechenden Details, und folgen Sie uns für weitere Updates in der Azure HDInsight-Community.

Apache Spark™ ist ein Framework für die Parallelverarbeitung, das In-Memory-Verarbeitung unterstützt, um die Leistung von Big Data-Analyseanwendungen zu steigern.

Apache Spark™ stellt Primitive für In-Memory-Clustercomputing bereit. Bei einem Spark-Auftrag können Daten in den Arbeitsspeicher geladen, zwischengespeichert und dann wiederholt abgefragt werden. In-Memory-Computing ist schneller als datenträgerbasierte Anwendungen wie Hadoop, die Daten über HDFS (Hadoop Distributed File System) freigeben. Apache Spark kann in die Programmiersprachen Scala und Python integriert werden, um die Arbeit mit verteilten Datasets (beispielsweise lokale Sammlungen) zu ermöglichen. Es ist nicht erforderlich, alles in Form von Mapper- und Reducer-Vorgängen zu strukturieren.

Diagramm mit Spark-Übersicht in HDInsight on AKS

Einen Apache Spark-Cluster unter HDInsight auf AKS

Azure HDInsight ist ein umfassender, verwalteter Open-Source-Analysedienst für Unternehmen.

Apache Spark™ in Azure HDInsight auf AKS ist der verwaltete Spark-Dienst in Microsoft Azure. Mit Apache Spark in Azure HDInsight auf AKS können Sie alle Daten in Azure speichern und verarbeiten. Spark-Cluster in HDInsight sind mit Azure Data Lake Storage Gen2 kompatibel, sodass Sie vorhandene Datenspeicher mit Spark verarbeiten können.

Das Apache Spark-Framework für HDInsight on AKS ermöglicht schnelle Datenanalysen und Clustercomputing mit In-Memory-Verarbeitung. Jupyter Notebook ermöglicht es Ihnen, mit Ihren Daten zu interagieren, Code mit Markdowntext zu kombinieren und einfache Visualisierungen durchzuführen.

Apache Spark auf AKS in HDInsight besteht aus mehreren Komponenten als Pods.

Clustercontroller

Clustercontroller sind für die Installation und Verwaltung der jeweiligen Dienste verantwortlich. Verschiedene Controller werden in einem Spark-Cluster installiert und verwaltet.

Apache Spark-Dienstkomponenten

Zookeeper-Dienst: Ein Zookeeper-Cluster mit drei Knoten dient als verteilter Koordinator oder Hochverfügbarkeitsspeicher für andere Dienste.

Yarn-Dienst: Hadoop Yarn-Cluster: Spark-Aufträge werden im Cluster als Yarn-Anwendungen geplant.

Clientschnittstellen: Apache Spark-Cluster in HDInsight auf AKS bietet verschiedene Clientschnittstellen. Livy Server, Jupyter Notebook und Spark History Server bieten Spark-Dienste für HDInsight on AKS-Benutzer*innen.

Verweis