Tutorial: Capturar dados dos Hubs de Eventos no formato parquet e analisar com o Azure Synapse Analytics
Este tutorial mostra-lhe como utilizar o Editor de código do Stream Analytics para criar uma tarefa que captura dados dos Hubs de Eventos para Azure Data Lake Storage Gen2 no formato parquet.
Neste tutorial, ficará a saber como:
- Implementar um gerador de eventos que envia eventos de exemplo para um hub de eventos
- Criar uma tarefa do Stream Analytics com o editor sem código
- Rever dados de entrada e esquema
- Configurar Azure Data Lake Storage Gen2 para os quais os dados do hub de eventos serão capturados
- Executar a tarefa do Stream Analytics
- Utilizar o Azure Synapse Analytics para consultar os ficheiros parquet
Pré-requisitos
Antes de começar, certifique-se de que concluiu os seguintes passos:
- Se não tiver uma subscrição do Azure, crie uma conta gratuita.
- Implemente a aplicação geradora de eventos TollApp no Azure. Defina o parâmetro "intervalo" como 1 e utilize um novo grupo de recursos para este passo.
- Crie uma área de trabalho do Azure Synapse Analytics com uma conta Data Lake Storage Gen2.
Não utilizar nenhum editor de código para criar uma tarefa do Stream Analytics
Localize o Grupo de Recursos no qual o gerador de eventos TollApp foi implementado.
Selecione o espaço de nomes Hubs de Eventos do Azure.
Na página Espaço de Nomes dos Hubs de Eventos , selecione Hubs de Eventos em Entidades no menu esquerdo.
Selecione
entrystream
instância.Na página instância dos Hubs de Eventos , selecione Processar dados na secção Funcionalidades no menu esquerdo.
Selecione Iniciar no mosaico Capturar dados para o ADLS Gen2 no formato Parquet .
Dê um nome à sua tarefa
parquetcapture
e selecione Criar.Na página de configuração do hub de eventos , confirme as seguintes definições e, em seguida, selecione Ligar.
Em poucos segundos, verá dados de entrada de exemplo e o esquema. Pode optar por remover campos, mudar o nome dos campos ou alterar o tipo de dados.
Selecione o mosaico Azure Data Lake Storage Gen2 na tela e configure-o ao especificar
- Subscrição onde está localizada a sua conta do Azure Data Lake Gen2
- Nome da conta de armazenamento, que deve ser a mesma conta do ADLS Gen2 utilizada com a área de trabalho do Azure Synapse Analytics efetuada na secção Pré-requisitos.
- Contentor no qual serão criados os ficheiros Parquet.
- Padrão de caminho definido como {date}/{time}
- Padrão de data e hora como o yyyy-mm-dd predefinido e HH.
- Selecione Ligar
Selecione Guardar no friso superior para guardar a tarefa e, em seguida, selecione Iniciar para executar a tarefa. Assim que a tarefa for iniciada, selecione X no canto direito para fechar a página da tarefa do Stream Analytics .
Em seguida, verá uma lista de todas as tarefas do Stream Analytics criadas com o editor sem código. E dentro de dois minutos, o seu trabalho irá para um estado em execução . Selecione o botão Atualizar na página para ver o estado a mudar de Criado –> A Iniciar -> Em Execução.
Ver o resultado na sua conta do Azure Data Lake Storage Gen 2
Localize a conta Azure Data Lake Storage Gen2 que utilizou no passo anterior.
Selecione o contentor que utilizou no passo anterior. Verá ficheiros parquet criados com base no padrão de caminho {date}/{time} utilizado no passo anterior.
A consulta capturou dados no formato Parquet com o Azure Synapse Analytics
Consultar com Azure Synapse Spark
Localize a área de trabalho do Azure Synapse Analytics e abra Synapse Studio.
Crie um conjunto do Apache Spark sem servidor na sua área de trabalho se ainda não existir.
No Synapse Studio, aceda ao Hub de Desenvolvimento e crie um novo Bloco de Notas.
Crie uma nova célula de código e cole o seguinte código nessa célula. Substitua container and adlsname pelo nome do contentor e da conta do ADLS Gen2 utilizada no passo anterior.
%%pyspark df = spark.read.load('abfss://container@adlsname.dfs.core.windows.net/*/*/*.parquet', format='parquet') display(df.limit(10)) df.count() df.printSchema()
Para Anexar à barra de ferramentas, selecione o conjunto do Spark na lista pendente.
Selecione Executar Tudo para ver os resultados
Consulta com Azure Synapse SQL sem servidor
No Hub de Desenvolvimento , crie um novo script SQL.
Cole o seguinte script e Execute-o com o ponto final SQL sem servidor incorporado. Substitua container and adlsname pelo nome do contentor e da conta do ADLS Gen2 utilizada no passo anterior.
SELECT TOP 100 * FROM OPENROWSET( BULK 'https://adlsname.dfs.core.windows.net/container/*/*/*.parquet', FORMAT='PARQUET' ) AS [result]
Limpar os recursos
- Localize a instância dos Hubs de Eventos e veja a lista de tarefas do Stream Analytics na secção Processar Dados . Pare todos os trabalhos que estejam em execução.
- Aceda ao grupo de recursos que utilizou durante a implementação do gerador de eventos TollApp.
- Selecione Eliminar grupo de recursos. Escreva o nome do grupo de recursos para confirmar a eliminação.
Passos seguintes
Neste tutorial, aprendeu a criar uma tarefa do Stream Analytics com o editor sem código para capturar fluxos de dados dos Hubs de Eventos no formato Parquet. Em seguida, utilizou o Azure Synapse Analytics para consultar os ficheiros parquet com o Synapse Spark e o Synapse SQL.