Tutorial: Capturar dados dos Hubs de Eventos no formato parquet e analisar com Azure Synapse Analytics

Esse tutorial mostra como usar o editor sem código do Stream Analytics para criar um trabalho que captura dados dos Hubs de Eventos para o Azure Data Lake Storage Gen2 no formato parquet.

Neste tutorial, você aprenderá como:

  • Implantar um gerador de eventos que envia dados de amostra para um hub de eventos
  • Criar um trabalho do Stream Analytics com o editor sem código
  • Examinar os dados de entrada e o esquema
  • Configurar o Azure Data Lake Storage Gen2 no qual os dados do hub de eventos serão capturados
  • Executar o trabalho do Stream Analytics
  • Usar o Azure Synapse Analytics para consultar os arquivos parquet

Pré-requisitos

Antes de começar, verifique se você concluiu as seguintes etapas:

Usar o editor sem código para criar um trabalho do Stream Analytics

  1. Localize o Grupo de Recursos no qual o gerador de eventos TollApp foi implantado.

  2. Selecione o namespace Hubs de Eventos do Azure.

  3. Na página Namespace de Hubs de Eventos, selecione Hubs de Eventos em Entidades no menu à esquerda.

  4. Selecione a instância entrystream.

    Captura de tela mostrando a seleção do hub de eventos.

  5. Na página Instância dos Hubs de Eventos, selecione Processar dados na seção Recursos do menu à esquerda.

  6. Selecione Iniciar no bloco Capturar dados no ADLS Gen2 no formato parquet.

    Captura de tela mostrando a seleção do bloco **Capturar dados no ADLS Gen2 no formato parquet**.

  7. Nomeie o trabalho parquetcapture e selecione Criar.

    Captura de tela da nova página de trabalho do Stream Analytics.

  8. Na página de configuração do hub de eventos, confirme as configurações a seguir e selecione Conexão.

    • Grupo de Consumidores: padrão

    • Tipo de serialização dos dados de entrada: JSON

    • Modo de autenticação que o trabalho usará para se conectar ao hub de eventos: cadeia de conexão.

      Captura de tela da página de configuração do hub de eventos.

  9. Em poucos segundos, você verá os dados de entrada de exemplo e o esquema. Você pode optar por descartar campos, renomear campos ou alterar o tipo de dados.

    Captura de tela mostrando os campos e a visualização dos dados.

  10. Selecione o bloco Azure Data Lake Storage Gen2 na tela e configure-o especificando:

    • Assinatura em que a conta do Azure Data Lake Gen2 está localizada.
    • Nome da conta de armazenamento, que deve ser a mesma conta do ADLS Gen2 usada com seu workspace do Azure Synapse Analytics feito na seção Pré-requisitos.
    • Contêiner no qual os arquivos parquet serão criados.
    • Padrão de caminho definido como {date}/{time}.
    • O padrão de data e hora como o aaaa-mm-dd e HH.
    • Selecione Conectar

    Captura de tela mostrando as definições de configuração do Data Lake Storage.

  11. Selecione Salvar na faixa de opções superior para salvar seu trabalho e selecione Iniciar para executá-lo. Depois que o trabalho for iniciado, selecione X no canto direito para fechar a página de trabalho do Stream Analytics.

    Captura de tela mostrando a página do trabalho Iniciar Stream Analytics.

  12. Em seguida, você verá uma lista de todos os trabalhos do Stream Analytics criados com o editor sem código. E em dois minutos, seu trabalho irá para um estado Em execução. Selecione o botão Atualizar na página para ver o status mudando de Criado –> Iniciando –> Em execução.

    Captura de tela mostrando a lista de trabalhos do Stream Analytics.

Exibir a saída na conta do Azure Data Lake Storage Gen 2

  1. Localize a conta do Azure Data Lake Storage Gen2 que você usou na etapa anterior.

  2. Selecione o contêiner que você usou na etapa anterior. Você verá arquivos parquet criados com base no padrão de caminho {date}/{time} usado na etapa anterior.

    Captura de tela mostrando os arquivos parquet capturados no Azure Data Lake Storage Gen 2.

Consultar dados capturados no formato parquet com o Azure Synapse Analytics

Consultar usando o Spark do Azure Synapse

  1. Localize seu workspace do Azure Synapse Analytics e abra o Synapse Studio.

  2. Crie um pool do Spark no Apache sem servidor no seu workspace, se ainda não existir.

  3. No Synapse Studio, acesse o hub Desenvolver e crie um Notebook.

  4. Crie uma célula de código e cole o código a seguir nela. Substitua container e adlsname pelo nome do contêiner e pela conta do ADLS Gen2 usada na etapa anterior.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Para Anexar a na barra de ferramentas, selecione o Pool do Spark na lista de seleção.

  6. Selecione Executar Tudo para ver os resultados.

    Captura de tela dos resultados da execução do Spark no Azure Synapse Analytics.

Consultar usando SQL sem servidor do Azure Synapse

  1. No hub Desenvolver, crie um Script SQL.

    Captura de tela mostrando a página Desenvolver com o novo menu de script SQL selecionado.

  2. Cole o script a seguir e Execute usando o ponto de extremidade de SQL sem servidor interno. Substitua container e adlsname pelo nome do contêiner e pela conta do ADLS Gen2 usada na etapa anterior.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Captura de tela dos resultados do Script SQL no Azure Synapse Analytics.

Limpar os recursos

  1. Localize sua instância dos Hubs de Eventos e veja a lista de trabalhos do Stream Analytics na seção Dados do Processo. Interrompa quaisquer trabalhos em execução.
  2. Vá para o grupo de recursos usado durante a implantação do gerador de eventos TollApp.
  3. Selecione Excluir grupo de recursos. Digite o nome do grupo de recursos para confirmar a exclusão.

Próximas etapas

Neste tutorial, você aprendeu a criar um trabalho do Stream Analytics usando o editor sem código para capturar fluxos de dados dos Hubs de Eventos no formato parquet. Em seguida, você usou o Azure Synapse Analytics para consultar os arquivos parquet usando o Spark do Synapse e o SQL do Synapse.