Conexión de Excel a Apache Hadoop con Power Query

Una de las características clave de la solución para Big Data de Microsoft es la integración de los componentes de Microsoft Business Intelligence (BI) con los clústeres de Apache Hadoop en Azure HDInsight. Un ejemplo importante es la capacidad de conectar Excel a la cuenta de Azure Storage que contiene los datos asociados a su clúster de Hadoop mediante el complemento de Microsoft Power Query para Excel. En este artículo se describen las pautas para configurar y usar Power Query para consultar los datos asociados con un clúster de Hadoop administrado con HDInsight.

Prerrequisitos

  • Un clúster de Apache Hadoop en HDInsight. Consulte Introducción a HDInsight en Linux.
  • Una estación de trabajo que ejecute Windows 10, 7, Windows Server 2008 R2 o un sistema operativo posterior.
  • Aplicaciones de Microsoft 365 para empresas, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone u Office 2010 Professional Plus.

Instalar Microsoft Power Query

Power Query puede importar datos ofrecidos o generados por un trabajo de Hadoop ejecutado en un clúster de HDInsight.

En Excel 2016, Power Query se ha integrado en la cinta de datos en la sección Obtener y transformar. Para versiones anteriores de Excel, descargue Microsoft Power Query para Excel desde el Centro de descarga de Microsoft e instálelo.

Importación de datos de HDInsight a Excel

El complemento de Power Query para Excel facilita la importación de datos desde el clúster de HDInsight hasta Excel, donde se pueden usar herramientas de BI como PowerPivot y Power Map para la inspección, el análisis y la presentación de los datos.

  1. Inicie Excel.

  2. Cree un libro vacío.

  3. Siga los pasos siguientes en función de la versión de Excel:

    • Excel 2016

      • Seleccione > >Datos>Obtener datos>Desde Azure>Desde Azure HDInsight (HDFS).

        HDI.PowerQuery.SelectHdiSource.2016

    • Excel 2013/2010

      • Seleccione Power Query>Desde Azure>Desde Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource

        Nota: Si no ve el menú Power Query, vaya a Archivo>Opciones>Complementos y seleccione Complementos COM en la lista desplegable Administrar situada en la parte inferior de la página. Elija el botón Go... y compruebe que la casilla del complemento de Power Query para Excel esté activada.

        Nota: Power Query también permite importar datos de HDFS mediante la opción Desde otros orígenes.

  4. En el cuadro de diálogo Azure HDInsight (HDFS) , en el cuadro de texto URL o nombre de cuenta, escriba el nombre de la cuenta de Azure Blob Storage asociada con el clúster. Después, seleccione Aceptar. Esta puede ser una cuenta de almacenamiento predeterminada o una cuenta de almacenamiento vinculada. El formato es https://StorageAccountName.blob.core.windows.net/.

  5. En Clave de cuenta, escriba la clave de la cuenta de Blob Storage y, a continuación, seleccione Conectar. (Solo tiene que escribir la información de la cuenta la primera vez que tenga acceso a este almacén).

  6. En el panel del navegador situado a la izquierda del Editor de consultas, haga doble clic en el nombre del contenedor de Blob Storage asociado al clúster. De forma predeterminada, el nombre del contenedor es el mismo que el del clúster.

  7. Localice el archivo HiveSampleData.txt en la columna Nombre (la ruta de acceso de la carpeta es ../hive/warehouse/hivesampletable/ ) y, a continuación, seleccione Binario a la izquierda de HiveSampleData.txt. HiveSampleData.txt incluye todo el clúster. Opcionalmente, puede utilizar su propio archivo.

    HDI Excel power query import data

  8. Si quiere, puede cambiar el nombre de las columnas. Cuando esté listo, elija Cerrar y cargar. Los datos se han cargado en el libro:

    HDI Excel power query imported table

Pasos siguientes

En este artículo, ha aprendido a usar Power Query para recuperar datos de HDInsight en Excel. Del mismo modo, puede recuperar datos de HDInsight en Azure SQL Database. También se pueden cargar los datos en HDInsight. Para más información, vea los siguientes artículos: