Připojení Excelu do Apache Hadoopu pomocí Power Query

Jednou z klíčových funkcí řešení Microsoftu pro velké objemy dat je integrace komponent Business Intelligence (BI) Microsoftu s clustery Apache Hadoop ve službě Azure HDInsight. Primárním příkladem je možnost připojit Excel k účtu Azure Storage, který obsahuje data přidružená k vašemu clusteru Hadoop pomocí doplňku Microsoft Power Query pro Excel. Tento článek vás provede nastavením a používáním Power Query k dotazování dat přidružených ke clusteru Hadoop spravovanému pomocí HDInsight.

Požadavky

  • Cluster Apache Hadoop ve službě HDInsight. Viz Začínáme se službou HDInsight v Linuxu.
  • Pracovní stanice se systémem Windows 10, 7, Windows Server 2008 R2 nebo novějším operačním systémem.
  • Aplikace Microsoft 365 pro velké organizace, Office 2016, Office 2013 Professional Plus, Excel 2013 Standalone nebo Office 2010 Professional Plus.

Instalace Microsoft Power Query

Power Query může importovat data, která byla výstupem nebo která byla generována úlohou Hadoop spuštěnou v clusteru HDInsight.

V Excelu 2016 je Power Query integrovaný do pásu karet Data v části Získat a transformovat. Ve starších verzích Excelu si stáhněte Microsoft Power Query pro Excel z webu Microsoft Download Center a nainstalujte ho.

Import dat HDInsight do Excelu

Doplněk Power Query pro Excel usnadňuje import dat z clusteru HDInsight do Excelu, kde je možné použít nástroje BI, jako je PowerPivot a Power Map, ke kontrole, analýze a prezentaci dat.

  1. Spusťte Excel.

  2. Vytvořte nový prázdný sešit.

  3. Na základě verze Excelu proveďte následující kroky:

    • Aplikace Excel 2016

      • Vyberte >Data>Načíst data>z Azure>ze služby Azure HDInsight (HDFS).</a0>

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • V Microsoft Azure HDInsight vyberte Power Query>z Azure.>

        HDI.PowerQuery.SelectHdiSource.

        Poznámka: Pokud nabídku Power Query nevidíte, přejděte na Doplňky možností>souborů>a v rozevíracím seznamu Spravovat v dolní části stránky vyberte Doplňky modelu COM. Vyberte tlačítko Přejít... a ověřte, že je zaškrtnuté políčko doplňku Power Query pro Excel.

        Poznámka: Power Query také umožňuje importovat data z HDFS výběrem z jiných zdrojů.

  4. V dialogovém okně Azure HDInsight (HDFS) zadejte do textového pole Název účtu nebo adresu URL název účtu služby Azure Blob Storage přidružený k vašemu clusteru. Pak vyberte OK. Tento účet může být výchozím účtem úložiště nebo propojeným účtem úložiště. Formát je https://StorageAccountName.blob.core.windows.net/.

  5. Jako klíč účtu zadejte klíč pro účet úložiště objektů blob a pak vyberte Připojení. (Při prvním přístupu k tomuto úložišti je nutné zadat informace o účtu.)

  6. V podokně Navigátor na levé straně Editor Power Query poklikejte na název kontejneru úložiště objektů blob přidružený k vašemu clusteru. Ve výchozím nastavení je název kontejneru stejný jako název clusteru.

  7. Ve sloupci Název vyhledejte HiveSampleData.txt (cesta ke složce je .. /hive/warehouse/hivesampletable/) a na levé straně HiveSampleData.txt vyberte Binární. HiveSampleData.txt se dodává se všemi clustery. Volitelně můžete použít vlastní soubor.

    HDI Excel power query import data.

  8. Pokud chcete, můžete názvy sloupců přejmenovat. Až budete připraveni, vyberte Zavřít a načíst. Data se načetla do sešitu:

    HDI Excel power query imported table.

Další kroky

V tomto článku jste zjistili, jak pomocí Power Query načíst data z HDInsight do Excelu. Podobně můžete načíst data ze služby HDInsight do služby Azure SQL Database. Je také možné nahrát data do HDInsightu. Další informace najdete v těchto článcích: