Tutorial: Analisar dados do Apache Spark usando o Power BI no HDInsight

Neste tutorial, você aprenderá a usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight.

Neste tutorial, irá aprender a:

  • Utilizar o Power BI para ver dados do Spark

Se não tiver uma subscrição do Azure, crie uma conta gratuita antes de começar.

Pré-requisitos

Verificar os dados

O Jupyter Notebook que você criou no tutorial anterior inclui código para criar uma hvac tabela. Esta tabela é baseada no arquivo CSV disponível em todos os clusters do HDInsight Spark em \HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv. Utilize o seguinte procedimento para verificar os dados.

  1. No Jupyter Notebook, cole o código a seguir e pressione SHIFT + ENTER. O código verifica a existência das tabelas.

    %%sql
    SHOW TABLES
    

    O resultado tem o seguinte aspeto:

    Show tables in Spark.

    Se tiver fechado o bloco de notas antes de iniciar este tutorial, hvactemptable é limpa, pelo que não é incluída na saída. Só as tabelas do Hive que estejam armazenadas na metastore (indicadas com False (Falso), na coluna isTemporary) podem ser acedidas a partir das ferramentas de BI. Neste tutorial, vai ligar à tabela hvac que criou.

  2. Cole o seguinte código numa célula vazia e prima SHIFT + ENTER. O código verifica os dados na tabela.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    O resultado tem o seguinte aspeto:

    Show rows from hvac table in Spark.

  3. No menu File (Ficheiro) do bloco de notas, selecione Close and Halt (Fechar e Parar). Encerre o bloco de notas para libertar os recursos.

Ver os dados

Nesta secção, vai utilizar o Power BI para criar visualizações, relatórios e dashboards a partir dos dados do cluster do Spark.

Criar um relatório no Power BI Desktop

Os primeiros passos para começar a trabalhar com o Spark são ligar ao cluster no Power BI Desktop, carregar dados a partir do cluster e criar uma visualização básica com base nesses dados.

  1. Abra Power BI Desktop. Feche a tela inicial de inicialização se ela abrir.

  2. Na guia Página Inicial, navegue até Obter dados>mais...

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. Introduza Spark na caixa de pesquisa, selecione Azure HDInsight Spark e, em seguida, selecione Ligar.

    Get data into Power BI from Apache Spark BI.

  4. Insira a URL do cluster (no formato mysparkcluster.azurehdinsight.net) na caixa de texto Servidor .

  5. Em Modo de conectividade de dados, selecione DirectQuery. Em seguida, selecione OK.

    Pode utilizar qualquer um dos modos de conectividade de dados com o Spark. Se utilizar o DirectQuery, as alterações são refletidas nos relatórios sem atualizar o conjunto de dados completo. Se importar os dados, tem de atualizar o conjunto de dados para ver as alterações. Para obter mais informações sobre como e quando utilizar o DirectQuery, veja Utilizar o DirectQuery no Power BI.

  6. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Ligar. O nome predefinido da conta é admin.

  7. Selecione a hvac tabela, aguarde para ver uma pré-visualização dos dados e, em seguida, selecione Carregar.

    Spark cluster user name and password.

    O Power BI Desktop tem as informações de que precisa para se ligar ao cluster do Spark e carregar dados da tabela hvac. A tabela e as colunas são apresentadas no painel Fields (Campos).

  8. Visualize a variância entre a temperatura de destino e a temperatura real de cada edifício:

    1. No painel VISUALIZATIONS (VISUALIZAÇÕES), selecione Area Chart (Gráfico de Área).

    2. Arraste o campo BuildingID para Axis (Eixo) e os campos ActualTemp e TargetTemp para Value (Valor).

      add value columns.

      O diagrama tem o seguinte aspeto:

      area graph sum.

      Por predefinição, a visualização mostra a soma de ActualTemp e TargetTemp. Selecione a seta para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, você pode ver Soma está selecionada.

    3. Selecione as setas para baixo ao lado de ActualTemp e TragetTemp no painel Visualizações, selecione Média para obter uma média das temperaturas reais e de destino para cada edifício.

      average of values.

      A visualização de dados deverá ser semelhante à da captura de ecrã. Mova o cursor sobre a visualização para obter sugestões de contexto com dados relevantes.

      area graph .png " alt-text="gráfico de área." border="true":::

  9. Navegue até Guardar Ficheiro>, introduza o nome BuildingTemperature do ficheiro e, em seguida, selecione Guardar.

Publicar o relatório no serviço Power BI (opcional)

O serviço Power BI permite-lhe partilhar relatórios e dashboards em toda a sua organização. Nesta secção, vai publicar primeiro o conjunto de dados e o relatório. Em seguida, vai afixar o relatório a um dashboard. Os painéis geralmente são usados para se concentrar em um subconjunto de dados em um relatório. Você tem apenas uma visualização em seu relatório, mas ainda é útil percorrer as etapas.

  1. Abra Power BI Desktop.

  2. No separador Base, selecione Publicar.

    Publish from Power BI Desktop. Área de trabalho" border="true":::

  3. Selecione um espaço de trabalho para publicar seu conjunto de dados e relatório e, em seguida, selecione Selecionar. Na imagem seguinte, está selecionada a área de trabalho My Workspace predefinida.

    Select workspace to publish dataset and report to.

  4. Depois que a publicação for bem-sucedida, selecione Abrir 'BuildingTemperature.pbix' no Power BI.

    Publish success, click to enter credentials.

  5. No serviço do Power BI, selecione Inserir credenciais.

    Enter credentials in Power BI service. " border="verdadeiro":::

  6. Selecione Editar credenciais.

    Edit credentials in Power BI service.

  7. Introduza as informações da conta de início de sessão do HDInsight e, em seguida, selecione Iniciar sessão. O nome predefinido da conta é admin.

    Sign in to Spark cluster. Cluster de faísca" border="true":::

  8. No painel esquerdo, vá para Workspaces>My Workspace>REPORTS e selecione BuildingTemperature.

    Report listed under reports in left pane.

    Também deverá ver BuildingTemperature em DATASETS (CONJUNTOS DE DADOS), no painel do lado esquerdo.

    O elemento visual que criou no Power BI Desktop está agora disponível no serviço Power BI.

  9. Passe o cursor sobre a visualização e selecione o ícone de pino no canto superior direito.

    Report in the Power BI service.

  10. Selecione "Novo painel", digite o nome Building temperaturee, em seguida, selecione Pin.

    Pin to new dashboard. para o novo painel" border="true":::

  11. No relatório, selecione Ir para o painel.

O elemento visual é afixado ao dashboard. Pode adicionar outros elementos visuais ao relatório e afixá-los ao mesmo dashboard. Para obter mais informações sobre relatórios e painéis, consulte Relatórios no Power BI e Painéis no Power BI.

Clean up resources (Limpar recursos)

Depois de concluir o tutorial, pode pretender eliminar o cluster. Com o HDInsight, seus dados são armazenados no Armazenamento do Azure, para que você possa excluir com segurança um cluster quando ele não estiver em uso. Você também é cobrado por um cluster HDInsight, mesmo quando ele não está em uso. Como as cobranças para o cluster são muitas vezes mais do que as taxas para armazenamento, faz sentido econômico excluir clusters quando eles não estão em uso.

Para excluir um cluster, consulte Excluir um cluster HDInsight usando seu navegador, PowerShell ou a CLI do Azure.

Próximos passos

Neste tutorial, você aprendeu como usar o Microsoft Power BI para visualizar dados em um cluster Apache Spark no Azure HDInsight. Avance para o próximo artigo para ver que você pode criar um aplicativo de aprendizado de máquina.