Connecter Excel à Apache Hadoop à l’aide de Power Query

Une fonctionnalité clé de la solution de données volumineuses (« big data ») de Microsoft est l’intégration d’outils décisionnels (BI) Microsoft à des clusters Apche Hadoop dans Azure HDInsight. Un exemple important de cette intégration est la possibilité de connecter Excel au compte Azure Storage contenant les données associées à votre cluster Hadoop en utilisant le complément Microsoft Power Query pour Excel. Cet article vous explique comment configurer et utiliser Power Query pour interroger des données associées à un cluster Hadoop géré avec HDInsight.

Prérequis

  • Un cluster Apache Hadoop sur HDInsight. Consultez Bien démarrer avec HDInsight sur Linux.
  • Une station de travail fonctionnant sous Windows 10, 7, Windows Server 2008 R2 ou une version ultérieure.
  • Microsoft 365 Apps for enterprise, Office 2016, Office Professionnel Plus 2013, l’édition autonome d’Excel 2013 ou Office Professionnel Plus 2010.

Installez Microsoft Power Query

Power Query permet d'importer des données produites ou générées par un travail Hadoop s'exécutant sur un cluster HDInsight.

Dans Excel 2016, Power Query a été intégré dans le ruban de données sous la section Obtenir et transformer. Pour les versions Excel plus anciennes, téléchargez Microsoft Power Query pour Excel depuis le Centre de téléchargement Microsoft et installez-le.

Importation de données HDInsight dans Excel

Le complément Power Query pour Excel facilite l’importation de données depuis votre cluster HDInsight dans Excel, où des outils décisionnels tels que PowerPivot et Power Map peuvent être utilisés pour inspecter, analyser et présenter les données.

  1. Lancez Excel.

  2. Créez un classeur vide.

  3. Effectuez les étapes suivantes, selon la version d’Excel :

    • Excel 2016

      • Sélectionnez >Données>Obtenir des données>À partir d’Azure>À partir d’Azure HDInsight (HDFS).

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Sélectionnez Power Query>À partir d’Azure>À partir de Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource.

        Remarque : Si vous ne voyez pas le menu Power Query, accédez à Fichier>Options>Compléments et sélectionnez Compléments COM dans la zone déroulante Gérer en bas de la page. Sélectionnez le bouton OK et vérifiez que la case correspondant au complément Power Query pour Excel a été cochée.

        Remarque : Power Query vous permet également d’importer des données à partir de HDFS en sélectionnant À partir d’autres sources.

  4. Dans la boîte de dialogue Azure HDInsight (HDFS) , dans la zone de texte Nom du compte ou URL, entrez le nom du compte de stockage d’objets BLOB Azure associé à votre cluster. Sélectionnez ensuite OK. Il peut s’agir du compte de stockage par défaut ou d’un compte de stockage lié. Le format est https://StorageAccountName.blob.core.windows.net/.

  5. Pour le champ Clé du compte, saisissez la clé du compte de stockage d’objets blob, puis sélectionnez Connecter. (Entrez les informations sur le compte uniquement la première fois que vous accédez à ce Store.)

  6. Dans le volet Navigateur situé à gauche de l’Éditeur de requête, double-cliquez sur le nom du conteneur de stockage d’objets Blob associé à votre cluster. Par défaut, le nom du conteneur est identique à celui du cluster.

  7. Localisez HiveSampleData.txt dans la colonne Nom (le chemin du dossier est ../hive/warehouse/hivesampletable/ ), puis sélectionnez Binaire à gauche de HiveSampleData.txt. HiveSampleData.txt est fourni avec tout le cluster. Si vous le souhaitez, vous pouvez utiliser votre propre fichier.

    HDI Excel power query import data.

  8. Le cas échéant, vous pouvez renommer le nom des colonnes. Quand vous êtes prêt, sélectionnez Fermer et charger. Les données ont été chargées dans votre classeur :

    HDI Excel power query imported table.

Étapes suivantes

Dans cet article, vous avez appris à utiliser Power Query pour extraire des données de HDInsight et les importer dans Excel. De la même façon, vous pouvez extraire des données de HDInsight et les importer dans Azure SQL Database. Il est également possible de charger des données dans HDInsight. Pour en savoir plus, consultez les articles suivants :