Créer des clusters HDInsight avec Azure Data Lake Storage Gen1 à l’aide du portail Azure

Découvrez comment utiliser le portail Azure pour créer un cluster HDInsight avec Azure Data Lake Storage Gen1 comme stockage par défaut ou stockage supplémentaire. Bien que le stockage supplémentaire soit facultatif pour les clusters HDInsight, il est recommandé de stocker vos données d’entreprise dans les comptes de stockage supplémentaires.

Conditions préalables requises

Avant de commencer, vérifiez que vous respectez les exigences suivantes :

  • Un abonnement Azure. Consultez Créez votre compte Azure gratuit.
  • Un compte Azure Data Lake Storage Gen1. Suivez les instructions indiquées dans Prise en main d’Azure Data Lake Storage Gen1 avec le portail Azure. Vous devez également créer un dossier racine sur le compte. Dans cet article, un dossier racine appelé /clusters est utilisé.
  • un principal de service Microsoft Entra. Ce guide pratique fournit des instructions sur la création d’un principal de service dans Microsoft Entra ID. Toutefois, pour créer un principal de service, vous devez être administrateur Microsoft Entra. Si vous êtes administrateur, vous pouvez ignorer ce prérequis et poursuivre.

Notes

Vous pouvez créer un principal de service uniquement si vous êtes administrateur Microsoft Entra. Votre administrateur Microsoft Entra doit créer un principal de service avant de pouvoir créer un cluster HDInsight avec Data Lake Storage Gen1. En outre, le principal de service doit être créé à l’aide d’un certificat, comme décrit dans Créer un principal du service avec un certificat.

Création d'un cluster HDInsight

Dans cette section, vous allez créer un cluster HDInsight avec Data Lake Storage Gen1 comme stockage par défaut ou stockage supplémentaire. Cet article se concentre uniquement sur la configuration de Data Lake Storage Gen1. Pour obtenir des informations générales sur la création de clusters et les procédures associées, consultez la page Création de clusters Hadoop dans HDInsight.

Créer un cluster avec Data Lake Storage Gen1 en tant que stockage par défaut

Pour créer un cluster HDInsight avec Data Lake Storage Gen1 comme compte de stockage par défaut :

  1. Connectez-vous au portail Azure.

  2. Suivez les indications présentées dans Créer des clusters pour obtenir des informations générales sur la création de clusters HDInsight.

  3. Sur le panneau Stockage, sous Type de stockage principal, sélectionnez Azure Data Lake Storage Gen1, puis entrez les informations suivantes :

    Paramètres du compte de stockage HDInsight

    • Sélectionner un compte Data Lake Storage : sélectionnez un compte Data Lake Storage Gen1 existant. Un compte Data Lake Storage Gen1 existant est requis. Consultez les Conditions préalables.
    • Chemin racine : entrez un chemin d’accès où les fichiers spécifiques d’un cluster doivent être stockés. Sur la capture d’écran, il s’agit de /clusters/myhdiadlcluster/ , qui doit comporter le dossier /clusters. Le portail crée alors un dossier myhdicluster. myhdicluster désigne le nom du cluster.
    • Accès à Data Lake Storage : configurez l’accès entre le compte Data Lake Storage Gen1 et le cluster HDInsight. Pour obtenir des instructions, consultez Configurer l’accès aux données Data Lake Storage Gen1.
    • Comptes de stockage supplémentaire : ajoutez des comptes de stockage Azure en tant que comptes de stockage supplémentaire pour le cluster. Pour ajouter d’autres comptes Data Lake Storage Gen1, attribuez des autorisations de cluster sur les données de plusieurs comptes Data Lake Storage Gen1 lors de la configuration d’un compte Data Lake Storage Gen1 comme type de stockage principal. Consultez Configurer l’accès aux données Data Lake Storage Gen1.
  4. Cliquez sur Sélectionner dans les panneaux Accès à Data Lake Store et poursuivez la création du cluster comme décrit dans Création de clusters Hadoop dans HDInsight.

Créer un cluster avec Data Lake Storage Gen1 en tant que stockage supplémentaire

Effectuez les étapes suivantes pour créer un cluster HDInsight avec un compte de stockage Blob Azure comme stockage par défaut, et un compte de stockage Data Lake Storage Gen1 comme stockage supplémentaire.

Pour créer un cluster HDInsight avec Data Lake Storage Gen1 comme compte de stockage supplémentaire :

  1. Connectez-vous au portail Azure.

  2. Suivez les indications présentées dans Créer des clusters pour obtenir des informations générales sur la création de clusters HDInsight.

  3. Sur le panneau Stockage, sous Type de stockage principal, sélectionnez Stockage Azure, puis entrez les informations suivantes :

    Paramètres du compte de stockage HDInsight - Stockage supplémentaire

    • Méthode de sélection - Pour spécifier un compte de stockage qui fait partie de votre abonnement Azure, sélectionnez Mes abonnements, puis le compte de stockage. Pour spécifier un compte de stockage qui est en dehors de votre abonnement Azure, sélectionnez Clé d’accès, puis fournissez les informations du compte de stockage externe.

    • Conteneur par défaut - Utilisez la valeur par défaut ou spécifiez votre propre nom.

    • Comptes de stockage supplémentaire - Ajoutez des comptes de stockage Azure en tant que stockage supplémentaire.

    • Accès à Data Lake Storage - Configurez l’accès entre le compte Data Lake Storage Gen1 et le cluster HDInsight. Pour obtenir des instructions, consultez Configurer l’accès aux données Data Lake Storage Gen1.

Configurer l’accès aux données Data Lake Storage Gen1

Dans cette section, vous allez configurer l’accès Data Lake Storage Gen1 à partir de clusters HDInsight à l’aide d’un principal de service Microsoft Entra.

Spécifier un principal du service

Dans le portail Azure, vous pouvez utiliser un principal du service existant ou en créer un.

Pout créer un principal de service dans le portail Azure :

  1. Consultez Créer un principal de service et des certificats à l’aide de Microsoft Entra ID.

Utiliser un principal du service existant dans le portail Azure :

  1. Le principal du service doit avoir des autorisations de propriétaire sur le compte de stockage. Consultez Configurer des autorisations pour que le principal du service soit propriétaire du compte de stockage.

  2. Sélectionnez Accès à Data Lake Store.

  3. Sur le panneau Accès à Data Lake Storage Gen1, sélectionnez Utiliser existant.

  4. Sélectionnez Principal du service, puis sélectionnez un principal du service.

  5. Chargez le certificat (fichier .pfx) associé au principal du service sélectionné, puis indiquez le mot de passe du certificat.

    Ajouter un principal du service à un cluster HDInsight

  6. Sélectionnez Accès pour configurer l’accès au dossier. Reportez-vous à Configurer les autorisations des fichiers.

Configurer des autorisations pour que le principal du service soit propriétaire du compte de stockage

  1. Dans le panneau Access Control (IAM) du compte de stockage, cliquez sur Ajouter une attribution de rôle.
  2. Dans le panneau ajouter une attribution de rôle, sélectionnez le rôle « propriétaire », puis sélectionnez le nom de principal du service et cliquez sur Enregistrer.

Configurer les autorisations des fichiers

La configuration diffère selon que le compte est utilisé en tant que compte de stockage par défaut ou compte de stockage supplémentaire :

  • Utilisation en tant que stockage par défaut

    • Autorisation au niveau racine du compte Data Lake Storage Gen1
    • Autorisation au niveau racine du stockage de cluster HDInsight. Exemple : dossier /clusters utilisé précédemment dans le didacticiel.
  • Utilisation en tant que stockage supplémentaire

    • Autorisation au niveau des dossiers pour lesquels vous avez besoin d’un accès aux fichiers.

Pour affecter des autorisations au niveau racine pour le compte de stockage Data Lake Storage Gen1 :

  1. Sur le panneau Accès à Data Lake Storage Gen1, sélectionnez Accès. Le panneau Sélectionner des autorisations de fichiers s’ouvre. Il liste tous les comptes de stockage de votre abonnement.

  2. Placez le pointeur de la souris (sans cliquer) sur le nom du compte avec Data Lake Storage Gen1 pour afficher la case à cocher, puis cochez cette case.

    Sélectionner les autorisations de fichier

    Par défaut, READ, WRITE ET EXECUTE sont tous sélectionnés.

  3. Cliquez sur Sélectionner en bas de la page.

  4. Sélectionnez Exécuter pour assigner des autorisations.

  5. Sélectionnez Terminé.

Pour assigner des autorisations au niveau racine du cluster HDInsight :

  1. Sur le panneau Accès à Data Lake Storage Gen1, sélectionnez Accès. Le panneau Sélectionner des autorisations de fichiers s’ouvre. Il liste tous les comptes de stockage avec Data Lake Storage Gen1 de votre abonnement.
  2. Dans le panneau Sélectionner des autorisations de fichiers, sélectionnez le nom du compte de stockage avec Data Lake Storage Gen1 pour afficher son contenu.
  3. Sélectionnez la racine de stockage du cluster HDInsight en cochant la case située à gauche du dossier. Comme indiqué sur la capture d’écran précédente, la racine de stockage du cluster est le dossier /clusters que vous avez spécifié lors de la sélection de Data Lake Storage Gen1 comme stockage par défaut.
  4. Définissez les autorisations sur le dossier. Par défaut, les autorisations en lecture, écriture et exécution sont toutes sélectionnées.
  5. Cliquez sur Sélectionner en bas de la page.
  6. Sélectionnez Exécuter.
  7. Sélectionnez Terminé.

Si vous utilisez Data Lake Storage Gen1 en tant que stockage supplémentaire, vous devez assigner des autorisations uniquement pour les dossiers auxquels vous souhaitez accéder à partir du cluster HDInsight. Par exemple, dans la capture d’écran ci-dessous, vous donnez uniquement accès au dossier mynewfolder dans un compte de stockage avec Data Lake Storage Gen1.

Affecter des autorisations de principal de service au cluster HDInsight

Vérifier la configuration du cluster

Une fois que l’installation du cluster est terminée, accédez au panneau du cluster pour vérifier vos résultats en effectuant l’une des opérations suivantes, ou les deux :

  • Pour vérifier que le stockage associé au cluster est le compte avec Data Lake Storage Gen1 que vous avez spécifié, sélectionnez Comptes de stockage dans le volet gauche.

    Vérifier le stockage associé

  • Pour vérifier que le principal du service est correctement associé au cluster HDInsight, sélectionnez Accès à Data Lake Storage Gen1 dans le volet gauche.

    Vérifier le principal de service

Exemples

Une fois que vous avez configuré le cluster avec Data Lake Storage Gen1 comme stockage, voici quelques exemples de l’utilisation du cluster HDInsight pour analyser les données stockées dans Data Lake Storage Gen1.

Exécuter une requête Hive sur des données stockées dans Data Lake Storage Gen1 (comme stockage principal)

Pour exécuter une requête Hive, utilisez l’interface des vues Hive du portail Ambari. Pour obtenir des instructions sur l'utilisation des vues Hive Ambari, consultez Utiliser la vue Hive avec Hadoop dans HDInsight.

Lorsque vous utilisez les données dans Data Lake Storage Gen1, vous devez apporter quelques modifications.

Si vous utilisez, par exemple, le cluster que vous avez créé avec Data Lake Storage Gen1 comme stockage principal, le chemin d’accès aux données est le suivant : adl://<nom_compte_data_lake_storage_gen1>/azuredatalakestore.net/path/to/file. La requête Hive permettant de créer une table à partir des exemples de données stockés dans Data Lake Storage Gen1 ressemble à l’instruction suivante :

CREATE EXTERNAL TABLE websitelog (str string) LOCATION 'adl://hdiadlsg1storage.azuredatalakestore.net/clusters/myhdiadlcluster/HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/'

Descriptions :

  • adl://hdiadlsg1storage.azuredatalakestore.net/ est la racine du compte Data Lake Storage Gen1.
  • /clusters/myhdiadlcluster est la racine des données du cluster que vous avez spécifiée lors de la création du cluster.
  • /HdiSamples/HdiSamples/WebsiteLogSampleData/SampleLog/ est l’emplacement de l’exemple de fichier que vous utilisez dans la requête.

Exécuter une requête Hive sur des données stockées dans Data Lake Storage Gen1 (comme stockage supplémentaire)

Si le cluster que vous avez créé utilise le Stockage Blob comme stockage par défaut, les exemples de données ne se trouvent pas dans le compte de stockage Data Lake Storage Gen1 qui est utilisé comme stockage supplémentaire. Dans ce cas, commencez par transférer les données du Stockage Blob vers le compte avec Data Lake Storage Gen1, puis exécutez les requêtes selon la procédure décrite ci-dessus.

Pour plus d’informations sur la copie de données à partir du Stockage Blob vers un compte de stockage avec Data Lake Storage Gen1, consultez les articles suivants :

Utiliser Data Lake Storage Gen1 avec un cluster Spark

Vous pouvez utiliser un cluster Spark pour exécuter des tâches Spark sur des données stockées dans Data Lake Storage Gen1. Pour plus d’informations, consultez Utiliser le cluster HDInsight Spark pour analyser les données dans Data Lake Storage Gen1.

Utiliser Data Lake Storage Gen1 dans une topologie Storm

Voir aussi