Partager via


Qu’est-ce qu’Apache Spark™ dans HDInsight sur AKS ? (Préversion)

Remarque

Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.

Seul le support de base sera disponible jusqu’à la date de mise hors service.

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

Apache Spark™ est une infrastructure de traitement parallèle qui prend en charge le traitement en mémoire pour améliorer les performances des applications d’analytique du Big Data.

Apache Spark™ fournit des primitives pour le calcul de cluster en mémoire. Un travail Spark peut charger et mettre en cache des données en mémoire et les interroger à plusieurs reprises. L’informatique en mémoire est plus rapide que les applications sur disque, telles que Hadoop, qui partage les données via le système de fichiers distribués Hadoop (HDFS). Apache Spark facilite l’intégration aux langages de programmation Scala et Python pour vous permettre de manipuler des ensembles de données distribuées comme des collections locales. Il n’est pas nécessaire de tout structurer comme des opérations de réduction et de mappage.

Diagramme montrant la vue d’ensemble de Spark dans HDInsight sur AKS.

Cluster Apache Spark avec HDInsight sur AKS

Azure HDInsight est un service d’analytique open source managé et complet pour les entreprises.

Apache Spark™ dans Azure HDInsight sur AKS est le service Spark géré dans Microsoft Azure. Avec Apache Spark dans Azure HDInsight sur AKS, vous pouvez stocker et traiter vos données dans Azure. Les clusters Spark dans HDInsight sont compatibles avec ou Azure Data Lake Storage Gen2, vous permet d’appliquer le traitement Spark sur vos magasins de données existants.

L’infrastructure Apache Spark pour HDInsight sur AKS permet l’analyse rapide des données et le calcul en cluster à l’aide du traitement en mémoire. Jupyter Notebook vous permet d’interagir avec vos données, de combiner du code avec du texte Markdown et d’effectuer des visualisations simples.

Apache Spark sur AKS dans HDInsight se compose de plusieurs composants sous forme de pods.

Contrôleurs de cluster

Les contrôleurs de cluster sont responsables de l’installation et de la gestion des services respectifs. Différents contrôleurs sont installés et gérés dans un cluster Spark.

Composants du service Apache Spark

Service Zookeeper : Un cluster Zookeeper à trois nœuds sert de coordinateur distribué ou de stockage à haute disponibilité pour d’autres services.

Service Yarn : Cluster Hadoop Yarn, les travaux Spark seront planifiés dans le cluster en tant qu’applications Yarn.

Interfaces clientes : Les clusters Apache Spark, dans HDInsight sur AKS, fournissent différentes interfaces clientes. Livy Server, Jupyter Notebook, Spark History Server, fournit des services Spark aux utilisateurs de HDInsight on AKS.

Référence