Partilhar via


Materializar dados no Azure Cosmos DB usando o Stream Analytics sem editor de código

Este artigo descreve como você pode usar o editor sem código para criar facilmente um trabalho do Stream Analytics. O trabalho lê continuamente seus Hubs de Eventos e executa agregações como contagem, soma e média. Você seleciona campos para agrupar ao longo de uma janela de tempo e, em seguida, o trabalho grava os resultados continuamente no Azure Cosmos DB.

Pré-requisitos

  • Seus Hubs de Eventos do Azure e recursos do Azure Cosmos DB devem estar acessíveis publicamente e não podem estar protegidos em um firewall ou protegidos em uma Rede Virtual do Azure.
  • Os dados em seus Hubs de Eventos devem ser serializados no formato JSON, CSV ou Avro.

Desenvolver um trabalho do Stream Analytics

Use as etapas a seguir para desenvolver um trabalho do Stream Analytics para materializar dados no Azure Cosmos DB.

  1. No portal do Azure, localize e selecione sua instância de Hubs de Eventos do Azure.
  2. Em Recursos, selecione Processar dados. Em seguida, selecione Iniciar no cartão intitulado Materialize Data in Azure Cosmos DB.
    Captura de tela mostrando o fluxo de dados Start Materialize.
  3. Introduza um nome para o seu trabalho e selecione Criar.
  4. Especifique o tipo de Serialização de seus dados no hub de eventos e o método de Autenticação que o trabalho usará para se conectar aos Hubs de Eventos. Em seguida, selecione Conectar.
  5. Se a conexão for bem-sucedida e você tiver fluxos de dados fluindo para sua instância de Hubs de Eventos, você verá imediatamente duas coisas:
    • Campos que estão presentes na sua carga útil de entrada. Selecione o símbolo de três pontos ao lado de um campo opcionalmente remova, renomeie ou altere o tipo de dados do campo.
      Captura de tela mostrando os campos de entrada do hub de eventos para você revisar.
    • Uma amostra dos dados de entrada no painel inferior em Visualização de dados que é atualizada periodicamente automaticamente. Você pode selecionar Pausar visualização de streaming se preferir ter uma visualização estática dos dados de entrada de exemplo.
      Captura de tela mostrando dados de entrada de exemplo.
  6. Na próxima etapa, especifique o campo e a agregação que deseja calcular, como Média e Contagem. Você também pode especificar o campo que deseja agrupar por junto com a janela de tempo. Em seguida, você pode validar os resultados da etapa na seção Visualização de dados.
    Captura de ecrã a mostrar a área Agrupar por.
  7. Escolha o banco de dados e o contêiner do Cosmos DB onde deseja que os resultados sejam escritos.
  8. Inicie o trabalho do Stream Analytics selecionando Iniciar.
    Captura de ecrã a mostrar a sua definição onde seleciona Iniciar.
    Para iniciar o trabalho, você deve especificar:
    • O número de unidades de streaming (SU) com as quais o trabalho é executado. SUs representam a quantidade de computação e memória alocada para o trabalho. Recomendamos que comece com três e ajuste conforme necessário.
    • O tratamento de erros de dados de saída permite especificar o comportamento desejado quando a saída de um trabalho para o seu destino falha devido a erros de dados. Por padrão, o trabalho tenta novamente até que a operação de gravação seja bem-sucedida. Você também pode optar por descartar eventos de saída.
  9. Depois de selecionar Iniciar, o trabalho começa a ser executado em dois minutos. Exiba o trabalho na seção Processar dados na guia Trabalhos do Stream Analytics. Você pode explorar as métricas do trabalho e interrompê-lo e reiniciá-lo conforme necessário.

Considerações ao usar o recurso de replicação geográfica de Hubs de Eventos

Os Hubs de Eventos do Azure lançaram recentemente o recurso de Replicação Geográfica na visualização pública. Esse recurso é diferente do recurso de Recuperação de Desastres Geográficos dos Hubs de Eventos do Azure.

Quando o tipo de failover é Forçado e a consistência da replicação é assíncrona, o trabalho do Stream Analytics não garante exatamente uma saída para uma saída dos Hubs de Eventos do Azure.

O Azure Stream Analytics, como produtor com um hub de eventos uma saída, pode observar atraso de marca d'água no trabalho durante a duração do failover e durante a limitação pelos Hubs de Eventos caso o atraso de replicação entre primário e secundário atinja o atraso máximo configurado.

O Azure Stream Analytics, como consumidor com Hubs de Eventos como Entrada, pode observar atraso de marca d'água no trabalho durante a duração do failover e pode ignorar dados ou localizar dados duplicados após a conclusão do failover.

Devido a essas ressalvas, recomendamos que você reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos está em visualização pública, não recomendamos o uso desse padrão para trabalhos do Stream Analytics de produção neste momento. O comportamento atual do Stream Analytics melhorará antes que o recurso de replicação geográfica dos Hubs de Eventos esteja disponível em geral e possa ser usado em trabalhos de produção do Stream Analytics.

Próximos passos

Agora você sabe como usar o editor sem código do Stream Analytics para desenvolver um trabalho que lê de Hubs de Eventos e calcula agregações, como contagens, médias e grava-o em seu recurso do Azure Cosmos DB.