Conectar o Excel ao Apache Hadoop com o Power Query

Um dos principais recursos da solução de big data da Microsoft é a integração dos componentes de BI (business intelligence) da Microsoft com clusters Apache Hadoop no Azure HDInsight. Um dos principais exemplos é a capacidade de conectar o Excel com a conta de Armazenamento do Azure, que contém os dados associados ao seu cluster Hadoop usando o suplemento Microsoft Power Query para Excel. Este artigo explica como configurar e usar o Power Query para consultar dados associados a um cluster Hadoop gerenciado com o HDInsight.

Pré-requisitos

  • Um cluster do Apache Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.
  • Uma estação de trabalho que está executando Windows 10, 7, Windows Server 2008 R2 ou um sistema operacional posterior.
  • Microsoft 365 Apps para Grandes Empresas, Office 2016, Office 2013 Professional Plus, Excel 2013 autônomo ou Office 2010 Professional Plus.

Instalar o Microsoft Power Query

O Power Query pode importar dados que foram retornados ou que foram gerados por um trabalho Hadoop em execução em um cluster HDInsight.

No Excel 2016, o Power Query foi integrado na faixa de opções Dados na seção Obter e Transformar. Para versões mais antigas do Excel, baixe o Microsoft Power Query para Excel no Centro de Download da Microsoft e instale-o.

Importar dados do HDInsight para o Excel

O suplemento do Power Query para Excel facilita a importação de dados de seu cluster HDInsight para o Excel onde ferramentas de BI, como o PowerPivot e o Power Map, podem ser usadas para inspecionar, analisar e apresentar os dados.

  1. Inicie o Excel.

  2. Crie uma nova pasta de trabalho em branco.

  3. Execute as etapas a seguir com base na versão do Excel:

    • Excel 2016

      • Selecione >Dados>Obter Dados>Do Azure>Do Azure HDInsight (HDFS).

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Selecione Power Query>Do Azure>Do Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource.

        Observação: se você não vir o menu Power Query, vá para Arquivo>Opções>Suplementos e selecione Suplementos COM na caixa suspensa Gerenciar na parte inferior da página. Selecione o botão Ir... e verifique se a caixa do suplemento Power Query para Excel está marcada.

        Observação: o Power Query também permite que você importe dados do HDFS selecionando De Outras Fontes.

  4. Na caixa de diálogo Azure HDInsight (HDFS) , na caixa de texto Nome da conta ou URL, digite o nome da conta de armazenamento de Blob do Azure associada ao cluster. Depois, selecione OK. Essa conta pode ser a conta de armazenamento padrão ou uma conta de armazenamento vinculada. O formato é https://StorageAccountName.blob.core.windows.net/.

  5. Para Chave de Conta, insira a chave para a conta de armazenamento de Blob e clique em Conectar. (Você precisa inserir as informações da conta somente na primeira vez que acessar este repositório.)

  6. No painel Navegador à esquerda do Editor de Consultas, clique duas vezes no nome do contêiner de armazenamento de Blobs associado com o cluster. Por padrão, o nome do contêiner é igual ao nome do cluster.

  7. Localize HiveSampleData.txt na coluna Nome (o caminho da pasta é ../hive/warehouse/hivesampletable/ ) e selecione em Binário à esquerda de HiveSampleData.txt. HiveSampleData.txt acompanha todo o cluster. Se desejar, você pode usar seu próprio arquivo.

    HDI Excel power query import data.

  8. Se desejar, você pode renomear os nomes das colunas. Quando estiver pronto, selecione Fechar e Carregar. Os dados foram carregados em sua pasta de trabalho:

    HDI Excel power query imported table.

Próximas etapas

Neste artigo, você aprendeu como usar o Power Query para recuperar dados do HDInsight para o Excel. Da mesma forma, você pode recuperar dados do HDInsight no banco de dados SQL do Azure. Também é possível carregar dados para o HDInsight. Confira os seguintes artigos para saber mais: