Quelles sont les nouveautés de HDInsight sur AKS ? (Préversion)

Article
14/10/2024

Notes

Nous allons mettre hors service Azure HDInsight sur AKS le 31 janvier 2025. Avant le 31 janvier 2025, vous devrez migrer vos charges de travail vers Microsoft Fabric ou un produit Azure équivalent afin d’éviter leur arrêt brutal. Les clusters restants de votre abonnement seront arrêtés et supprimés de l’hôte.

Seul le support de base est disponible jusqu’à la date de mise hors service.

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. Les Conditions d’utilisation supplémentaires pour les préversions de Microsoft Azure contiennent davantage de conditions légales qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou ne se trouvant pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Pour toute question ou pour des suggestions à propos des fonctionnalités, veuillez envoyer vos requêtes et leurs détails sur AskHDInsight, et suivez-nous sur la Communauté Azure HDInsight pour plus de mises à jour.

Dans HDInsight sur AKS, toutes les opérations et la gestion des clusters prennent en charge nativement le management des services sur le portail Azure pour des clusters individuels.

Dans HDInsight sur AKS, deux nouveaux concepts sont introduits :

Les pools de clusters sont utilisés pour regrouper et gérer des clusters.
Les clusters sont utilisés pour les calculs open source. Ils sont hébergés dans un pool de clusters.

Pools de clusters

HDInsight sur AKS s’exécute sur Azure Kubernetes Service (AKS). La ressource de niveau supérieur est le pool de clusters et gère tous les clusters s’exécutant sur le même cluster AKS. Lorsque vous créez un pool de clusters, un cluster AKS sous-jacent est créé en même temps pour héberger tous les clusters du pool. Les pools de clusters sont un regroupement logique de clusters, ce qui permet de créer une interopérabilité robuste entre plusieurs types de cluster et permet aux entreprises d’avoir les clusters dans le même réseau virtuel. Les pools de clusters fournissent un accès rapide et économique à tous les types de cluster créés à la demande et à grande échelle. Un pool de clusters correspond à un cluster dans l’infrastructure AKS.

Clusters

Les clusters sont des charges de travail de calcul open source individuelles, telles qu’Apache Spark, Apache Flink et Trino, qui peuvent être créées rapidement en quelques minutes avec des configurations prédéfinies et quelques clics. Bien que s’exécutant sur le même pool de clusters, chaque cluster peut avoir ses propres configurations, telles que le type de cluster, la version, la taille de machine virtuelle du nœud et le nombre de nœuds. Les clusters s’exécutent sur des ressources de calcul séparées avec leurs propres DNS et points de terminaison.

Fonctionnalités actuellement en préversion

La liste des tableaux suivants présente les fonctionnalités de HDInsight sur AKS qui sont actuellement en préversion. Les fonctionnalités en préversion sont classées par ordre alphabétique.

Zone	Fonctionnalités
Notions de base	Créer un pool et des clusters depuis le portail, prise en charge de l’interpréteur de commandes web sécurisé (ssh), possibilité de choisir le nombre de nœuds Worker lors de la création du cluster
Stockage	Prise en charge du stockage ADLS Gen2
Metastore	Prise en charge du metastore externe pour Trino, Spark et Flink, intégration à HDInsight
Sécurité	Prise en charge du RBAC ARM, prise en charge de l’authentification basée sur MSI, option permettant de fournir l’accès au cluster à d’autres utilisateurs
Journalisation et supervision	Agrégation de journaux dans Azure Log Analytics, pour les journaux de serveur, les métriques de cluster et de service via Managed Prometheus et Grafana, les métriques du serveur de support dans Azure Monitor, page État du service pour la surveillance de l’intégrité du service
Échelle automatique	Mise à l’échelle automatique basée sur la charge et mise à l'échelle automatique basée sur la planification
Personnaliser et configurer des clusters	Prise en charge des actions de script lors de la création du cluster, prise en charge de la gestion des bibliothèques, paramètres de configuration du service après la création du cluster
Trino	Prise en charge des catalogues Trino, prise en charge de Trino CLI, prise en charge de DBeaver pour la soumission de requêtes, ajout ou suppression de plug-ins et de connecteurs, prise en charge des événements de journalisation de requête, prise en charge de l’analyse des statistiques de requête pour n’importe quel connecteur dans le tableau de bord Trino, prise en charge du tableau de bord Trino pour la surveillance des requêtes, mise en cache des requêtes, intégration à Power BI, intégration à Apache Superset, Redash, prise en charge de plusieurs connecteurs
Flink	Prise en charge de l’interface utilisateur web native Flink, prise en charge par Flink de HMS pour DStream, envoi de travaux au cluster à l’aide de l’API REST et du portail Azure, exécution des programmes empaquetés en tant que fichiers JAR au moyen de l’interfaceCLI Flink, prise en charge des points d’enregistrement persistants, prise en charge de la mise à jour des options de configuration lorsque le travail est en cours d’exécution, connexion à plusieurs services Azure : Azure Cosmos DB, Azure Databricks, Azure Data Explorer, Azure Event Hubs, Azure IoT Hub, Azure Pipelines, Gestionnaire du flux de travail Azure Data Factory, HDInsight Kafka, envoi de travaux au cluster à l’aide de l’interface CLI Flink et de CDC avec Flink
Spark	Jupyter Notebook, Prise en charge de Delta lake 2.0, Support Zeppelin, Support ATS, Prise en charge de l’interface serveur de l’historique Yarn, Soumission de travaux à l’aide de SSH, soumission de travaux à l’aide du Kit de développement logiciel (SDK) et notebook Machine Learning

Feuille de route des fonctionnalités

Fonctionnalité	Chronologie estimée des mises en production	État
Mise à l'échelle automatique - Basé sur le chargement - Trino	Q1 2024	Terminée
Mise à l’échelle automatique basée sur la charge aléatoire pour Spark	T2 2024	En cours
Mise à niveau sur place	T2 2024	Terminée
Prise en charge de l’instance réservée	T2 2024	En cours
Authentification basée sur MSI pour metastore (SQL)	Q1 2024	En cours
Spark 3.4	T2 2024	En cours
Trino 426	Q1 2024	Terminée
Ranger pour RBAC	T2 2024	En cours
Prise en charge du mode application pour Flink	Q1 2024	Terminée
Flink 1.17	Q1 2024	Terminée
Prise en charge d’SPARK ACID	Q1 2024	En cours
Références SKU configurables pour le nœud principal, SSH	T2 2024	En cours
Prise en charge de Flink SQL Gateway	Q1 2024	Terminée
Clusters privés pour HDInsight sur AKS	Q1 2024	Terminée
Prise en charge de Ranger pour Spark SQL	T4 2024	En cours
Listes de contrôle d’accès Ranger sur la couche de stockage	T4 2024	En cours
Prise en charge de One Lake en tant que conteneur principal	T2 2024	En cours

Partager via

Quelles sont les nouveautés de HDInsight sur AKS ? (Préversion)

Pools de clusters

Clusters

Fonctionnalités actuellement en préversion

Feuille de route des fonctionnalités

Commentaires

Ressources supplémentaires