Ligação Excel a Apache Hadoop usando Power Query

Uma das principais características da solução de big data da Microsoft é a integração de componentes de inteligência empresarial (BI) da Microsoft com clusters Apache Hadoop no Azure HDInsight. Um exemplo primário é a capacidade de ligar Excel à conta Azure Armazenamento que contém os dados associados ao seu cluster Hadoop utilizando o Power Query da Microsoft para Excel add-in. Este artigo acompanha-o como configurar e usar Power Query para consultar dados associados a um cluster Hadoop gerido com HDInsight.

Pré-requisitos

  • Um aglomerado apache Hadoop em HDInsight. Veja Introdução com HDInsight no Linux.
  • Uma estação de trabalho que está a funcionar Windows 10, 7, Windows Server 2008 R2, ou um sistema operativo posterior.
  • Microsoft 365 aplicações para empresas, Office 2016, Office Professional Plus 2013, Excel 2013 Standalone, ou Office 2010 Professional Plus.

Instalar Power Query microsoft

Power Query podem importar dados que foram produzidos ou que foram gerados por um trabalho hadoop em execução num cluster HDInsight.

Em Excel 2016, Power Query foi integrado na fita de dados sob a secção Get & Transform. Para versões Excel mais antigas, baixe o Microsoft Power Query para Excel do Microsoft Download Center e instale-o.

Importar dados de HDInsight para Excel

O Power Query add-in para Excel facilita a importação de dados do seu cluster HDInsight para Excel, onde ferramentas de BI como PowerPivot e Power Map podem ser usadas para inspecionar, analisar e apresentar os dados.

  1. Lançamento Excel.

  2. Criar um novo livro em branco.

  3. Execute os seguintes passos com base na versão Excel:

    • Excel 2016

      • Selecione >dados>>DoAzure Azure>HDInsight (HDFS).

        HDI.PowerQuery.SelectHdiSource.2016

    • Excel 2013/2010

      • Selecione Power Query>From AzureFrom>Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource

        Nota: Se não vir o menu Power Query, vá a FileOptionsAdd-ins>> e selecione Add-ins COM a partir da caixa de gestão de down-down na parte inferior da página. Selecione o botão Go... e verifique se a caixa para o Power Query para Excel add-in foi verificada.

        Nota: Power Query também permite importar dados de HDFS selecionando De Outras Fontes.

  4. A partir do diálogo Azure HDInsight (HDFS), no nome da conta ou na caixa de texto URL, insira o nome da conta de armazenamento Azure Blob associada ao seu cluster. Em seguida, selecione OK. Esta conta pode ser a conta de armazenamento padrão ou uma conta de armazenamento ligada. O formato é https://StorageAccountName.blob.core.windows.net/.

  5. Para a Chave conta, introduza a chave para a conta de armazenamento Blob e, em seguida, selecione Ligação. (Só precisa de introduzir a informação da conta na primeira vez que aceda a esta loja.)

  6. No painel Do Navegador à esquerda do Editor do Power Query, clique duas vezes no nome do recipiente de armazenamento Blob associado ao seu cluster. Por predefinição, o nome do recipiente é o mesmo nome do nome do cluster.

  7. Localizar HiveSampleData.txt na coluna Nome (o caminho da pasta é .. /colmeia/armazém/hivesampletable/), e, em seguida, selecione Binário à esquerda de HiveSampleData.txt. HiveSampleData.txt vem com todo o aglomerado. Opcionalmente, pode usar o seu próprio ficheiro.

    HDI Excel power query import data

  8. Se quiser, pode mudar o nome dos nomes das colunas. Quando estiver pronto, selecione Close & Load. Os dados foram carregados no seu livro:

    HDI Excel power query imported table

Passos seguintes

Neste artigo, aprendeu a usar Power Query para recuperar dados do HDInsight para Excel. Da mesma forma, pode obter dados do HDInsight para Base de Dados SQL do Azure. Também é possível enviar dados para o HDInsight. Para saber mais, leia os artigos seguintes: