Tutorial: Capturar dados dos Hubs de Eventos no formato parquet e analisar com o Azure Synapse Analytics

Este tutorial mostra-lhe como utilizar o Editor de código do Stream Analytics para criar uma tarefa que captura dados dos Hubs de Eventos para Azure Data Lake Storage Gen2 no formato parquet.

Neste tutorial, ficará a saber como:

  • Implementar um gerador de eventos que envia eventos de exemplo para um hub de eventos
  • Criar uma tarefa do Stream Analytics com o editor sem código
  • Rever dados de entrada e esquema
  • Configurar Azure Data Lake Storage Gen2 para os quais os dados do hub de eventos serão capturados
  • Executar a tarefa do Stream Analytics
  • Utilizar o Azure Synapse Analytics para consultar os ficheiros parquet

Pré-requisitos

Antes de começar, certifique-se de que concluiu os seguintes passos:

Não utilizar nenhum editor de código para criar uma tarefa do Stream Analytics

  1. Localize o Grupo de Recursos no qual o gerador de eventos TollApp foi implementado.

  2. Selecione o espaço de nomes Hubs de Eventos do Azure.

  3. Na página Espaço de Nomes dos Hubs de Eventos , selecione Hubs de Eventos em Entidades no menu esquerdo.

  4. Selecione entrystream instância.

    Captura de ecrã a mostrar a seleção do hub de eventos.

  5. Na página instância dos Hubs de Eventos , selecione Processar dados na secção Funcionalidades no menu esquerdo.

  6. Selecione Iniciar no mosaico Capturar dados para o ADLS Gen2 no formato Parquet .

    Captura de ecrã a mostrar a seleção do mosaico **Capturar dados para o ADLS Gen2 no formato Parquet**.

  7. Dê um nome à sua tarefa parquetcapture e selecione Criar.

    Captura de ecrã a mostrar a página de tarefas do Novo Stream Analytics.

  8. Na página de configuração do hub de eventos , confirme as seguintes definições e, em seguida, selecione Ligar.

    • Grupo de Consumidores: Predefinição

    • Tipo de serialização dos dados de entrada: JSON

    • Modo de autenticação que a tarefa irá utilizar para ligar ao seu hub de eventos: Cadeia de ligação.

      Captura de ecrã da página de configuração do hub de eventos.

  9. Em poucos segundos, verá dados de entrada de exemplo e o esquema. Pode optar por remover campos, mudar o nome dos campos ou alterar o tipo de dados.

    Captura de ecrã a mostrar os campos e a pré-visualização dos dados.

  10. Selecione o mosaico Azure Data Lake Storage Gen2 na tela e configure-o ao especificar

    • Subscrição onde está localizada a sua conta do Azure Data Lake Gen2
    • Nome da conta de armazenamento, que deve ser a mesma conta do ADLS Gen2 utilizada com a área de trabalho do Azure Synapse Analytics efetuada na secção Pré-requisitos.
    • Contentor no qual serão criados os ficheiros Parquet.
    • Padrão de caminho definido como {date}/{time}
    • Padrão de data e hora como o yyyy-mm-dd predefinido e HH.
    • Selecione Ligar

    Captura de ecrã a mostrar as definições de configuração do Data Lake Storage.

  11. Selecione Guardar no friso superior para guardar a tarefa e, em seguida, selecione Iniciar para executar a tarefa. Assim que a tarefa for iniciada, selecione X no canto direito para fechar a página da tarefa do Stream Analytics .

    Captura de ecrã a mostrar a página Iniciar Tarefa do Stream Analytics.

  12. Em seguida, verá uma lista de todas as tarefas do Stream Analytics criadas com o editor sem código. E dentro de dois minutos, o seu trabalho irá para um estado em execução . Selecione o botão Atualizar na página para ver o estado a mudar de Criado –> A Iniciar -> Em Execução.

    Captura de ecrã a mostrar a lista de tarefas do Stream Analytics.

Ver o resultado na sua conta do Azure Data Lake Storage Gen 2

  1. Localize a conta Azure Data Lake Storage Gen2 que utilizou no passo anterior.

  2. Selecione o contentor que utilizou no passo anterior. Verá ficheiros parquet criados com base no padrão de caminho {date}/{time} utilizado no passo anterior.

    Captura de ecrã a mostrar os ficheiros parquet capturados no Azure Data Lake Storage Gen 2.

A consulta capturou dados no formato Parquet com o Azure Synapse Analytics

Consultar com Azure Synapse Spark

  1. Localize a área de trabalho do Azure Synapse Analytics e abra Synapse Studio.

  2. Crie um conjunto do Apache Spark sem servidor na sua área de trabalho se ainda não existir.

  3. No Synapse Studio, aceda ao Hub de Desenvolvimento e crie um novo Bloco de Notas.

  4. Crie uma nova célula de código e cole o seguinte código nessa célula. Substitua container and adlsname pelo nome do contentor e da conta do ADLS Gen2 utilizada no passo anterior.

    %%pyspark
    df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet')
    display(df.limit(10))
    df.count()
    df.printSchema()
    
  5. Para Anexar à barra de ferramentas, selecione o conjunto do Spark na lista pendente.

  6. Selecione Executar Tudo para ver os resultados

    Captura de ecrã a mostrar os resultados da execução do Spark no Azure Synapse Analytics.

Consulta com Azure Synapse SQL sem servidor

  1. No Hub de Desenvolvimento , crie um novo script SQL.

    Captura de ecrã a mostrar a página Desenvolver com o novo menu de script do SQL selecionado.

  2. Cole o seguinte script e Execute-o com o ponto final SQL sem servidor incorporado. Substitua container and adlsname pelo nome do contentor e da conta do ADLS Gen2 utilizada no passo anterior.

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    

    Captura de ecrã a mostrar os resultados do script SQL no Azure Synapse Analytics.

Limpar os recursos

  1. Localize a instância dos Hubs de Eventos e veja a lista de tarefas do Stream Analytics na secção Processar Dados . Pare todos os trabalhos que estejam em execução.
  2. Aceda ao grupo de recursos que utilizou durante a implementação do gerador de eventos TollApp.
  3. Selecione Eliminar grupo de recursos. Escreva o nome do grupo de recursos para confirmar a eliminação.

Passos seguintes

Neste tutorial, aprendeu a criar uma tarefa do Stream Analytics com o editor sem código para capturar fluxos de dados dos Hubs de Eventos no formato Parquet. Em seguida, utilizou o Azure Synapse Analytics para consultar os ficheiros parquet com o Synapse Spark e o Synapse SQL.