Ligar o Excel ao Apache Hadoop utilizando o Power Query

Um recurso importante da solução de big data da Microsoft é a integração de componentes de business intelligence (BI) da Microsoft com clusters Apache Hadoop no Azure HDInsight. Um exemplo principal é a capacidade de conectar o Excel à conta de Armazenamento do Azure que contém os dados associados ao cluster Hadoop usando o suplemento Microsoft Power Query para Excel. Este artigo orienta você sobre como configurar e usar o Power Query para consultar dados associados a um cluster Hadoop gerenciado com o HDInsight.

Pré-requisitos

  • Um cluster Apache Hadoop no HDInsight. Consulte Introdução ao HDInsight no Linux.
  • Uma estação de trabalho que esteja executando o Windows 10, 7, Windows Server 2008 R2 ou um sistema operacional posterior.
  • Aplicações Microsoft 365 para empresas, Office 2016, Office 2013 Professional Plus, Excel 2013 Autónomo ou Office 2010 Professional Plus.

Instalar o Microsoft Power Query

O Power Query pode importar dados que foram produzidos ou que foram gerados por um trabalho Hadoop em execução em um cluster HDInsight.

No Excel 2016, o Power Query foi integrado no friso Dados na secção Obter & Transformar. Para versões mais antigas do Excel, transfira o Microsoft Power Query para Excel a partir do Centro de Transferências da Microsoft e instale-o.

Importar dados do HDInsight para o Excel

O suplemento Power Query para Excel facilita a importação de dados do cluster HDInsight para o Excel, onde ferramentas de BI como o PowerPivot e o Power Map podem ser utilizadas para inspecionar, analisar e apresentar os dados.

  1. Inicie o Excel.

  2. Crie uma nova pasta de trabalho em branco.

  3. Execute as seguintes etapas com base na versão do Excel:

    • Excel 2016

      • Selecione >Dados>Obter Dados>do Azure>do Azure HDInsight(HDFS).

        HDI.PowerQuery.SelectHdiSource.2016.

    • Excel 2013/2010

      • Selecione Power Query>a partir do Azure>a partir do Microsoft Azure HDInsight.

        HDI.PowerQuery.SelectHdiSource.

        Nota: Se não vir o menu Power Query, aceda a Suplementos de Opções>de Ficheiro>e selecione Suplementos COM na caixa pendente Gerir na parte inferior da página. Selecione o botão Ir... e verifique se a caixa do suplemento Power Query para Excel foi marcada.

        Nota: O Power Query também lhe permite importar dados do HDFS selecionando De Outras Fontes.

  4. Na caixa de diálogo Azure HDInsight(HDFS), na caixa de texto Nome da conta ou URL, insira o nome da conta de armazenamento de Blob do Azure associada ao cluster. Em seguida, selecione OK. Essa conta pode ser a conta de armazenamento padrão ou uma conta de armazenamento vinculada. O formato é https://StorageAccountName.blob.core.windows.net/.

  5. Em Chave de Conta, insira a chave para a conta de armazenamento de Blob e selecione Conectar. (Você precisa inserir as informações da conta somente na primeira vez que acessar esta loja.)

  6. No painel Navegador à esquerda do Editor de Consultas, clique duas vezes no nome do contêiner de armazenamento de Blob associado ao cluster. Por padrão, o nome do contêiner é o mesmo nome do cluster.

  7. Localize HiveSampleData.txt na coluna Nome (o caminho da pasta é .. /hive/warehouse/hivesampletable/) e, em seguida, selecione Binário à esquerda de HiveSampleData.txt. HiveSampleData.txt vem com todo o cluster. Opcionalmente, você pode usar seu próprio arquivo.

    HDI Excel power query import data.

  8. Se desejar, você pode renomear os nomes das colunas. Quando estiver pronto, selecione Fechar & Carregar. Os dados foram carregados na pasta de trabalho:

    HDI Excel power query imported table.

Próximos passos

Neste artigo, você aprendeu como usar o Power Query para recuperar dados do HDInsight para o Excel. Da mesma forma, você pode recuperar dados do HDInsight no Banco de Dados SQL do Azure. Também é possível carregar dados no HDInsight. Para saber mais, leia os artigos seguintes: