Partage via


Introduction au stockage en cluster

Important

Cette fonctionnalité est disponible actuellement en mode Aperçu. L’Avenant aux conditions d’utilisation des préversions de Microsoft Azure comporte des clauses juridiques supplémentaires qui s’appliquent aux fonctionnalités Azure en version bêta, en préversion ou pas encore en disponibilité générale. Pour plus d’informations sur cette préversion spécifique, consultez les Informations sur la préversion d’Azure HDInsight sur AKS. Si vous avez des questions ou des suggestions de fonctionnalités, soumettez une demande sur AskHDInsight avec les détails et suivez-nous pour obtenir les dernières actualités sur la Communauté Azure HDInsight.

Azure HDInsight sur AKS peut s’intégrer en toute transparence au stockage Azure, qui est une solution de stockage à usage général qui fonctionne parfaitement avec de nombreux autres services Azure. Azure Data Lake Storage Gen2 (ADLS Gen2) est le système de fichiers par défaut pour les clusters.

Le compte de stockage peut être utilisé comme emplacement par défaut pour les données, les journaux de cluster et d’autres sorties générées pendant l’opération du cluster. Il peut également s’agir d’un stockage par défaut pour le catalogue Hive qui dépend du type de cluster.

Pour plus d’informations, consultez Présentation d’Azure Data Lake Storage Gen2.

Identités managées pour l’accès sécurisé aux fichiers

Azure HDInsight sur AKS utilise des identités managées (MSI) pour sécuriser l’accès du cluster aux fichiers dans Azure Data Lake Storage Gen2. L’identité managée est une fonctionnalité de Microsoft Entra ID qui fournit aux services Azure un ensemble d'informations d'identification gérées automatiquement. Ces informations d’identification peuvent être utilisées pour s’authentifier auprès de n’importe quel service prenant en charge l’authentification Active Directory. Du plus, les identités managées vous évitent de stocker les informations d’identification dans les fichiers de code ou de configuration.

Dans Azure HDInsight sur AKS, une fois que vous avez sélectionné une identité managée et un stockage lors de la création du cluster, l’identité managée peut fonctionner en toute transparence avec le stockage pour la gestion des données, à condition que le rôle Propriétaire des données blob de stockage soit attribué à l’identité MSI affectée par l’utilisateur.

Le tableau suivant présente les options de stockage prises en charge pour Azure HDInsight sur AKS (préversion publique) :

Type de cluster Stockage pris en charge Connexion Rôle sur le stockage
Trino, Apache Flink et Apache Spark ADLS Gen2 Identité managée (MSI) du cluster affectée par l’utilisateur de cluster La MSI affectée par l’utilisateur doit détenir le rôle Propriétaire de données blob du stockage sur le compte de stockage.

Remarque

Pour partager un compte de stockage sur plusieurs clusters, vous pouvez simplement affecter le « propriétaire des données blob de stockage » MSI du cluster correspondant sur le compte de stockage partagé. Découvrez comment attribuer un rôle.

Après cela, vous pouvez utiliser le chemin abfs:// de stockage complet pour accéder aux données via vos applications.

Pour plus d’informations, voir Identités managées pour les ressources Azure.
Découvrez comment créer un compte ADLS Gen2.

Architecture de stockage Azure HDInsight sur AKS

Le schéma suivant résume l’architecture Azure HDInsight sur AKS de stockage Azure.

Capture d’écran montrant l’architecture de stockage.

Gestion du stockage

Actuellement, Azure HDInsight sur AKS ne prend pas en charge les comptes de stockage avec suppression réversible activée, veillez à désactiver la suppression réversible pour votre compte de stockage.

Capture d’écran montrant l’interface utilisateur du portail pour la suppression réversible.