Créer un cluster avec Data Lake Storage Gen2 à partir du portail Azure
Le portail Azure est un outil web qui permet de gérer les services et les ressources hébergés dans le cloud Microsoft Azure. Cet article vous montre comment créer des clusters Azure HDInsight Linux par le biais du portail. Plus de détails sont disponibles dans Créer des clusters HDInsight.
Avertissement
La facturation des clusters HDInsight est calculée au prorata des minutes écoulées, que vous les utilisiez ou non. Veillez à supprimer votre cluster une fois que vous avez terminé de l’utiliser. Consultez Guide pratique pour supprimer un cluster HDInsight.
Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.
Pour créer un cluster HDInsight qui utilise Data Lake Storage Gen2 comme stockage, effectuez les étapes suivantes pour configurer un compte qui dispose d’un espace de noms hiérarchique.
Créer une identité managée attribuée par l’utilisateur
Créez une identité managée affectée à l’utilisateur, si vous n’en avez pas encore.
- Connectez-vous au portail Azure.
- Dans le coin supérieur gauche, cliquez sur Créer une ressource.
- Dans la zone de recherche, tapez user assigned (utilisateur affecté) , puis cliquez sur Identité managée affectée par l'utilisateur.
- Cliquez sur Créer.
- Entrez un nom pour votre identité managée, sélectionnez l'abonnement, le groupe de ressources et l'emplacement correspondants.
- Cliquez sur Créer.
Pour plus d’informations sur le fonctionnement des identités managées dans Azure HDInsight, consultez Identités managées dans Azure HDInsight.
Créer un compte de stockage à utiliser avec Data Lake Storage Gen2
Créez un compte de stockage à utiliser avec Data Lake Storage Gen2.
- Connectez-vous au portail Azure.
- Dans le coin supérieur gauche, cliquez sur Créer une ressource.
- Dans la zone de recherche, tapez stockage, puis cliquez sur compte de stockage.
- Cliquez sur Créer.
- Sur l’écran
Create storage account
:- Sélectionnez l’abonnement et le groupe de ressources correspondants.
- Attribuez un nom à votre compte de stockage avec Data Lake Storage Gen2.
- Cliquez sur l’onglet Avancé.
- Cliquez sur Activé en regard de Espace de noms hiérarchique sous Data Lake Storage Gen2.
- Cliquez sur Vérifier + créer.
- Cliquez sur Créer
Pour plus d'informations sur les autres options lors de la création d'un compte de stockage, voir Démarrage rapide : Créez un compte de stockage pour Azure Data Lake Storage Gen2.
Définir des autorisations pour l’identité managée sur Data Lake Storage Gen2
Affectez l’identité managée au rôle Propriétaire des données Blob du stockage sur le compte de stockage.
Dans le portail Azure, accédez à votre compte de stockage.
Sélectionnez Contrôle d’accès (IAM) .
Sélectionner Ajouter> Ajouter une attribution de rôle.
Sous l’onglet Rôle, sélectionnez Propriétaire des données de blob de stockage.
Sous l’onglet Membres, sélectionnez Identité managée, puis Sélectionner des membres.
Sélectionnez votre abonnement, sélectionnez Identité managée affectée par l’utilisateur, puis votre identité managée affectée par l’utilisateur.
Dans l’onglet Passer en revue + affecter, sélectionnez Passer en revue + affecter pour affecter le rôle.
L’identité affectée par l’utilisateur que vous avez sélectionnée est maintenant listée sous le rôle sélectionné.
Pour plus d’informations sur l’attribution de rôle, consultez Attribuer des rôles Azure à l’aide du Portail Azure
Une fois cette configuration initiale terminée, vous pouvez créer un cluster par le biais du portail. Le cluster doit être dans la même région Azure que le compte de stockage. Sous l’onglet Stockage du menu de création du cluster, sélectionnez les options suivantes :
Comme Type de stockage principal, sélectionnez Azure Data Lake Storage Gen2.
Sous Compte de stockage principal, recherchez et sélectionnez le compte de stockage nouvellement créé avec le stockage Data Lake Storage Gen2.
Sous Identité, sélectionnez l’identité managée affectée par l’utilisateur nouvellement créée.
Remarque
- Pour ajouter un compte de stockage secondaire avec Data Lake Storage Gen2, au niveau du compte de stockage, attribuez simplement l’identité managée créée précédemment au nouveau Data Lake Storage Gen2 que vous voulez ajouter. Sachez que l’ajout d’un compte de stockage secondaire avec Data Lake Storage Gen2 via le panneau « Comptes de stockage supplémentaires » de HDInsight n’est pas pris en charge.
- Vous pouvez activer RA-GRS ou RA-ZRS sur le compte Stockage Blob Azure utilisé par HDInsight. La création d’un cluster sur le point de terminaison secondaire RA-GRS ou RA-ZRS n’est toutefois pas prise en charge.
- HDInsight ne prend pas en charge la définition de Data Lake Storage Gen2 en tant que stockage géo-redondant interzone avec accès en lecture (RA-GZRS) ou stockage géo-redondant interzone (GZRS).
Supprimer le cluster
Dépanner
Si vous rencontrez des problèmes lors de la création de clusters HDInsight, reportez-vous aux exigences de contrôle d’accès.
Étapes suivantes
Vous avez créé un cluster HDInsight. Apprenez maintenant à l’utiliser.
Clusters Apache Spark
- Personnaliser des clusters HDInsight Linux à l’aide d’actions de script
- Créer une application autonome avec Scala
- Exécuter des tâches à distance avec Apache Livy sur un cluster Apache Spark
- Apache Spark avec BI : effectuer une analyse interactive des données à l’aide de Spark sur HDInsight avec des outils décisionnels
- Apache Spark avec Machine Learning : utiliser Spark dans HDInsight pour prédire les résultats de l’inspection d’aliments