Créer un cluster avec Data Lake Storage Gen2 à l’aide d’Azure CLI
Pour créer un cluster HDInsight qui utilise Data Lake Storage Gen2 comme stockage, effectuez les étapes suivantes.
Prérequis
- Si vous ne connaissez pas Azure Data Lake Storage Gen2, consultez la section Vue d’ensemble.
- Si vous n’avez pas encore de compte Azure, inscrivez-vous à un essai gratuit avant de continuer.
- Pour exécuter les exemples de script d’Azure CLI, vous disposez de trois options :
- Utilisez Azure Cloud Shell à partir du portail Azure (voir section suivante).
- Utilisez l’interface intégrée Azure Cloud Shell via le bouton « Essayer », situé dans le coin supérieur droit de chaque bloc de code.
- Installez la dernière version d’Azure CLI (2.0.13 ou ultérieure) si vous préférez utiliser une console CLI locale. Connectez-vous à Azure avec la commande
az login
en utilisant un compte associé à l’abonnement Azure sous lequel vous souhaitez déployer l’identité managée affectée par l’utilisateur.Azure CLI.
Azure Cloud Shell
Azure héberge Azure Cloud Shell, un environnement d’interpréteur de commandes interactif que vous pouvez utiliser dans votre navigateur. Vous pouvez utiliser Bash ou PowerShell avec Cloud Shell pour utiliser les services Azure. Vous pouvez utiliser les commandes préinstallées Cloud Shell pour exécuter le code de cet article sans avoir à installer quoi que ce soit dans votre environnement local.
Pour démarrer Azure Cloud Shell :
Option | Exemple/Lien |
---|---|
Sélectionnez Essayer dans le coin supérieur droite d’un bloc de codes ou de commandes. La sélection de Essayer ne copie pas automatiquement le code ni la commande dans Cloud Shell. | |
Accédez à https://shell.azure.com ou sélectionnez le bouton Lancer Cloud Shell pour ouvrir Cloud Shell dans votre navigateur. | |
Sélectionnez le bouton Cloud Shell dans la barre de menus en haut à droite du portail Azure. |
Pour utiliser Azure Cloud Shell :
Démarrez Cloud Shell.
Sélectionnez le bouton Copier sur un bloc de codes (ou un bloc de commandes) pour copier le code ou la commande.
Collez le code ou la commande dans la session Cloud Shell en sélectionnant Ctrl+Maj+V sur Windows et Linux ou en sélectionnant Cmd+Maj+V sur macOS.
Sélectionnez Entrée pour exécuter le code ou la commande.
Avertissement
La facturation des clusters HDInsight est calculée au prorata des minutes écoulées, que vous les utilisiez ou non. Veillez à supprimer votre cluster une fois que vous avez terminé de l’utiliser. Consultez Guide pratique pour supprimer un cluster HDInsight.
Vous pouvez télécharger un exemple de fichier de modèle et télécharger un exemple de fichier de paramètres. Avant d’utiliser le modèle et l’extrait de code Azure CLI ci-dessous, remplacez les espaces réservés suivants par leurs valeurs correctes :
Espace réservé | Description |
---|---|
<SUBSCRIPTION_ID> |
L’ID de votre abonnement Azure |
<RESOURCEGROUPNAME> |
Le groupe de ressources dans lequel vous souhaitez créer le cluster et le compte de stockage. |
<MANAGEDIDENTITYNAME> |
Nom de l’identité managée qui recevra les autorisations sur votre compte de stockage avec Azure Data Lake Storage Gen2. |
<STORAGEACCOUNTNAME> |
Nouveau compte de stockage avec Azure Data Lake Storage Gen2 qui sera créé. |
<FILESYSTEMNAME> |
Nom du système de fichiers que ce cluster doit utiliser dans le compte de stockage. |
<CLUSTERNAME> |
Nom de votre cluster HDInsight |
<PASSWORD> |
Le mot de passe que vous avez choisi pour vous connecter au cluster à l’aide de SSH et du tableau de bord Ambari. |
L’extrait de code ci-dessous effectue les étapes initiales suivantes :
- Il établit la connexion à votre compte Azure.
- Définit l’abonnement actif dans lequel les opérations de création vont être effectuées.
- Il crée un groupe de ressources pour les nouvelles activités de déploiement.
- Il crée une identité managée attribuée par l’utilisateur.
- Il ajoute une extension à Azure CLI pour utiliser les fonctionnalités de Data Lake Storage Gen2.
- Il crée un compte de stockage avec Data Lake Storage Gen2 en utilisant l’indicateur
--hierarchical-namespace true
.
az login
az account set --subscription <SUBSCRIPTION_ID>
# Create resource group
az group create --name <RESOURCEGROUPNAME> --location eastus
# Create managed identity
az identity create -g <RESOURCEGROUPNAME> -n <MANAGEDIDENTITYNAME>
az extension add --name storage-preview
az storage account create --name <STORAGEACCOUNTNAME> \
--resource-group <RESOURCEGROUPNAME> \
--location eastus --sku Standard_LRS \
--kind StorageV2 --hierarchical-namespace true
Ensuite, connectez-vous au portail. Ajoutez la nouvelle identité managée affectée par l’utilisateur au rôle Propriétaire de données Blob du stockage sur le compte de stockage. Cette étape est décrite à l’étape 3 sous Utilisation du Portail Azure.
Important
Assurez-vous que votre compte de stockage dispose de l’identité affectée par l’utilisateur avec les autorisations de rôle Propriétaire de données Blob du stockage. Sinon, la création du cluster échouera.
az deployment group create --name HDInsightADLSGen2Deployment \
--resource-group <RESOURCEGROUPNAME> \
--template-file hdinsight-adls-gen2-template.json \
--parameters parameters.json
Nettoyer les ressources
Après avoir terminé ce tutoriel, vous souhaiterez peut-être supprimer le cluster. Avec HDInsight, vos données sont stockées dans le stockage Azure. Vous pouvez ainsi supprimer un cluster en toute sécurité s’il n’est pas en cours d’utilisation. Vous devez également payer pour un cluster HDInsight, même quand vous ne l’utilisez pas. Étant donné que les frais pour le cluster sont bien plus élevés que les frais de stockage, mieux vaut supprimer les clusters quand ils ne sont pas utilisés.
Entrez tout ou partie des commandes suivantes pour supprimer des ressources :
# Remove cluster
az hdinsight delete \
--name $clusterName \
--resource-group $resourceGroupName
# Remove storage container
az storage container delete \
--account-name $AZURE_STORAGE_ACCOUNT \
--name $AZURE_STORAGE_CONTAINER
# Remove storage account
az storage account delete \
--name $AZURE_STORAGE_ACCOUNT \
--resource-group $resourceGroupName
# Remove resource group
az group delete \
--name $resourceGroupName
Dépanner
Si vous rencontrez des problèmes lors de la création de clusters HDInsight, reportez-vous aux exigences de contrôle d’accès.
Étapes suivantes
Vous avez créé un cluster HDInsight. Apprenez maintenant à l’utiliser.
Clusters Apache Spark
- Personnaliser des clusters HDInsight Linux à l’aide d’actions de script
- Créer une application autonome avec Scala
- Exécuter des tâches à distance avec Apache Livy sur un cluster Apache Spark
- Apache Spark avec BI : effectuer une analyse interactive des données à l’aide de Spark sur HDInsight avec des outils décisionnels
- Apache Spark avec Machine Learning : utiliser Spark dans HDInsight pour prédire les résultats de l’inspection d’aliments