Share via


Capturar dados dos Hubs de Eventos no formato Parquet

Este artigo explica como usar o editor sem código para capturar automaticamente dados de streaming nos Hubs de Eventos em uma conta de Azure Data Lake Storage Gen2 no formato Parquet.

Pré-requisitos

  • Um namespace Hubs de Eventos do Azure com um hub de eventos e uma conta Azure Data Lake Storage Gen2 com um contêiner para armazenar os dados capturados. Esses recursos devem ser acessíveis publicamente e não podem estar protegidos por um firewall ou em uma rede virtual do Azure.

    Se você não tiver um hub de eventos, crie um seguindo as instruções do Início Rápido: Criar um hub de eventos.

    Se você não tiver uma conta Data Lake Storage Gen2, crie uma seguindo as instruções de Criar uma conta de armazenamento

  • Os dados nos Hubs de Eventos precisam ser serializados no formato JSON, CSV ou Avro. Para fins de teste, selecione Gerar dados (versão prévia) no menu à esquerda, selecione Dados de ações para o conjunto de dados e, em seguida, selecione Enviar.

    Captura de tela mostrando a página Gerar dados para gerar dados de ações de amostra.

Configurar um trabalho para capturar dados

Use as etapas a seguir para configurar um trabalho do Stream Analytics para capturar dados no Azure Data Lake Storage Gen2.

  1. No portal do Azure, navegue até o seu hub de eventos.

  2. No menu à esquerda, selecione Processar Dados em Recursos. Em seguida, selecione Iniciar no cartão Capturar dados no ADLS Gen2 no formato parquet.

    Captura de tela mostrando os cartões de início de dados dos Hubs de Eventos do processo.

  3. Insira um nome para o trabalho do Stream Analytics e selecione Criar.

    Captura de tela mostrando a janela de trabalho Novo Stream Analytics na qual você insere o nome do trabalho.

  4. Especifique o tipo de Serialização dos dados em Hubs de Eventos e o Método de autenticação que o trabalho usa para se conectar aos Hubs de Eventos. Depois, selecione Conectar.

    Captura de tela mostrando a configuração da conexão dos Hubs de Eventos.

  5. Quando a conexão for estabelecida com êxito, você vê:

    • Os campos presentes nos dados de entrada. Você pode escolher Adicionar campo ou selecionar o símbolo de três pontos ao lado de um campo para, opcionalmente, remover, renomear ou alterar o nome dele.

    • Um exemplo dinâmico dos dados de entrada na tabela Visualização de dados na exibição de diagrama. Ele é atualizado periodicamente. Você pode selecionar Pausar visualização de streaming para ver uma exibição estática dos dados de entrada de exemplo.

      Captura de tela mostrando os dados de exemplo em Versão Prévia dos Dados.

  6. Selecione o bloco Azure Data Lake Storage Gen2 para editar a configuração.

  7. Na página de configuração do Azure Data Lake Storage Gen2, siga estas etapas:

    1. Selecione a assinatura, o nome da conta de armazenamento e o contêiner no menu suspenso.

    2. Depois que a assinatura for selecionada, o método de autenticação e a chave da conta de armazenamento deverão ser preenchidos automaticamente.

    3. Selecione Parquet para formato Serialização.

      Captura de tela mostrando a página de configuração do Data Lake Storage Gen2.

    4. Para blobs de streaming, espera-se que o padrão de caminho de diretório seja um valor dinâmico. É necessário que a data faça parte do caminho do arquivo para o blob – referenciado como {date}. Para saber mais sobre padrões de caminho personalizados, confira Particionamento de saída de blob personalizado do Azure Stream Analytics.

      Primeira captura de tela mostrando a janela Blob na qual é possível editar uma configuração de conexão de blob.

    5. Selecione Conectar

  8. Quando a conexão for estabelecida, você vê campos presentes nos dados de saída.

  9. Selecione Salvar (Save) na barra de comandos para salvar a configuração.

    Captura de tela mostrando o botão Salvar selecionado na barra de comandos.

  10. Selecione Iniciar na barra de comandos para iniciar o fluxo de streaming para capturar dados. Em seguida, na janela Iniciar trabalho do Stream Analytics:

    1. Escolha a hora de início da saída.

    2. Selecione o tipo de preço.

    3. Selecione o número de SUs (unidades de streaming) com as quais o trabalho é executado. As SUs representam recursos de computação alocados para executar um trabalho no Stream Analytics. Para obter mais informações, confira Unidades de streaming no Azure Stream Analytics.

      Captura de tela mostrando a janela de trabalho Iniciar Stream Analytics na qual é possível definir a hora de início de saída, as unidades de streaming e o tratamento de erro.

  11. Você deverá ver o trabalho do Stream Analytics na guia trabalho do Stream Analytics da página Processar dados do hub de eventos.

    Captura de tela mostrando o trabalho do Stream Analytics na página Processar dados.

Verificar a saída

  1. Na página de instância dos Hubs de Eventos do seu hub de eventos, selecione Gerar dados, selecione Dados de ações para o conjunto de dados e, em seguida, selecione Enviar para enviar alguns dados de amostra para o hub de eventos.

  2. Verifique se os arquivos Parquet são gerados no contêiner Azure Data Lake Storage.

    Captura de tela mostrando os arquivos Parquet gerados no contêiner do ADLS.

  3. Selecione Processar dados no menu à esquerda. Mude para a guia Trabalhos do Stream Analytics. Selecione Abrir métricas para monitorá-la.

    Captura de tela mostrando o link Abrir Métricas selecionado.

    Aqui está uma captura de tela de exemplo das métricas mostrando eventos de entrada e saída.

    Captura de tela mostrando as métricas do trabalho do Stream Analytics.

Próximas etapas

Agora você sabe como usar o editor de código do Stream Analytics sem código para criar um trabalho que captura dados dos Hubs de Eventos para o Azure Data Lake Storage Gen2 no formato Parquet. Em seguida, saiba mais sobre o Azure Stream Analytics e como monitorar o trabalho criado.