HDInsight sur AKS : foire aux questions

Article
09/20/2024

Cet article traite des questions courantes sur Azure HDInsight sur AKS.

Remarque

Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.

Seul le support de base sera disponible jusqu’à la date de mise hors service.

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

Général

Qu’est-ce que HDInsight sur AKS ?

HDInsight sur AKS, une nouvelle version de HDInsight, fournit un service de cluster managé prêt pour l’entreprise avec des projets d’analytique open source émergents comme Apache Flink (pour streaming), Trino (pour l’analytique ad hoc et bi) et Apache Spark. Pour plus d’informations, consultez What is Content Moderator? (Présentation de Content Moderator).
Quelles formes de cluster HDInsight sur AKS prend-il en charge ?

HDInsight sur AKS prend en charge Trino, Apache Flink et Apache Spark pour commencer. Toutefois, d’autres formes de cluster telles que Kafka, Hive, etc., sont sur la feuille de route.
Comment bien démarrer avec HDInsight sur AKS ?

Pour commencer, visitez la Place de marché Azure, recherchez Azure HDInsight sur le service AKS et reportez-vous à Bien démarrer.
Que se passe-t-il pour la version HDInsight existante sur la machine virtuelle et les clusters actuellement en cours d’exécution ?

Aucune modification n’est apportée à HDInsight (HDInsight sur machine virtuelle). Tous vos clusters existants continuent à s’exécuter, et vous pouvez continuer à créer et mettre à l’échelle de nouveaux clusters HDInsight.
Quel système d’exploitation est pris en charge avec HDInsight sur AKS ?

HDInsight sur AKS est basé sur le système d’exploitation Mariner. Pour plus d’informations, consultez Version du système d’exploitation.
Dans quelles régions HDInsight est-il disponible sur AKS ?

Pour obtenir la liste des régions prises en charge, consultez Disponibilité régionale.
Quel est le coût de déploiement d’un cluster HDInsight sur AKS ?

Pour plus d’informations sur la tarification, consultez la tarification HDInsight sur AKS.

Gestion de cluster

Puis-je exécuter plusieurs clusters simultanément ?

Oui, vous pouvez exécuter autant de clusters que vous le souhaitez par pool de clusters simultanément. Toutefois, assurez-vous que vous n’êtes pas contraint par quota pour votre abonnement. Le nombre maximal de nœuds autorisés dans un pool de clusters est de 250 en préversion publique.
Puis-je installer ou ajouter d’autres plug-ins/bibliothèques sur mon cluster ?

Oui, vous pouvez installer des plug-ins et des bibliothèques personnalisés en fonction des formes de cluster.
- Pour Trino, reportez-vous à Installer des plug-ins personnalisés.
- Pour Spark, reportez-vous à la Gestion de la bibliothèque dans Spark.
Puis-je connecter SSH à mon cluster ?

Oui, vous pouvez SSH sur votre cluster via webssh et exécuter des requêtes et envoyer des travaux directement à partir de là.

Metastore

Puis-je utiliser un metastore externe pour me connecter à mon cluster ?

Oui, vous pouvez utiliser un metastore externe. Néanmoins, il est seulement possible d’utiliser Azure SQL Database comme un metastore personnalisé externe.
Peut-on partager un metastore entre plusieurs clusters ?

Oui, vous pouvez partager un metastore sur plusieurs HDInsight d’AKS.
Quelle est la version du metastore Hive prise en charge ?

Version 3.1.2 du metastore Hive

Charges de travail

Trino

Qu’est-ce que Trino ?

Trino est un moteur de requête SQL fédéré et distribué open source, qui vous permet d’interroger des données résidant sur différentes sources de données sans passer à un entrepôt de données central. Vous pouvez interroger les données à l’aide d’ANSI SQL, sans avoir besoin d’apprendre une nouvelle langue. Pour plus d’informations, consultez la Vue d’ensemble Trino.
Quels connecteurs prenez-vous en charge ?

HDInsight sur AKS Trino prend en charge plusieurs connecteurs. Pour plus d’informations, consultez cette liste de connecteurs Trino. Nous continuons à ajouter de nouveaux connecteurs quand de nouveaux connecteurs sont disponibles dans la version open source.
Puis-je ajouter des catalogues à un cluster existant ?

Oui, vous pouvez ajouter des catalogues pris en charge au cluster existant. Pour plus d’informations, consultez Ajouter des catalogues à un cluster existant.

Apache Flink

Qu’est-ce qu’Apache Flink ?

Apache Flink est un moteur analytique open source de classe pour le traitement de flux et l’exécution d’un calcul avec état sur des flux de données illimités et délimités. Il peut effectuer des calculs à la vitesse en mémoire et à n’importe quelle échelle. Flink sur HDInsight sur AKS offre Apache Flink open source managé. Pour plus d’informations, consultez la vue d’ensemble de Flink.
Prenez-vous en charge le mode session et l’application dans Apache Flink ?

Dans HDInsight sur AKS, Flink prend actuellement en charge les clusters en mode session.
Qu’est-ce que la gestion du back-end d’état et comment elle est effectuée dans HDInsight sur AKS ?

Les back-ends déterminent où l’état est stocké. Lorsque les points de contrôle sont activés, cet état est conservé sur les points de contrôle pour vous protéger contre la perte de données et récupérer de manière cohérente. La façon dont l’état est représenté en interne, et comment et où il est conservé sur les points de contrôle dépend du back-end d’état choisi. Pour plus d’informations, consultez Vue d’ensemble de Flink

Apache Spark

Qu’est-ce qu’Apache Spark ?

Apache Spark est une infrastructure de traitement des données qui peut rapidement effectuer des tâches de traitement sur des jeux de données volumineux et peut également distribuer des tâches de traitement des données sur plusieurs ordinateurs, soit en même temps que d’autres outils informatiques distribués.
Quelles API de langage sont prises en charge dans Spark ?

Azure HDInsight sur AKS prend en charge Python et Scala.
Le metastore externe est-il pris en charge dans HDInsight sur AKS Spark ?

HDInsight sur AKS prend en charge la connectivité de metastore externe. Actuellement, seule Azure SQL DB est prise en charge en tant que metastore externe.
Quelles sont les différentes façons d’envoyer des travaux dans HDInsight sur AKS Spark ?

Vous pouvez envoyer des travaux sur HDInsight sur AKS Spark à l’aide de Jupyter Notebook, Zeppelin Notebook, SDK et du terminal de cluster. Pour plus d’informations, consultez Envoyer et gérer des travaux sur un cluster Spark dans HDInsight sur AKS

Partager via