Materializar dados no Azure Cosmos DB usando o Stream Analytics sem editor de código
Este artigo descreve como você pode usar o editor sem código para criar facilmente um trabalho do Stream Analytics. O trabalho lê continuamente seus Hubs de Eventos e executa agregações como contagem, soma e média. Você seleciona campos para agrupar ao longo de uma janela de tempo e, em seguida, o trabalho grava os resultados continuamente no Azure Cosmos DB.
Pré-requisitos
- Seus Hubs de Eventos do Azure e recursos do Azure Cosmos DB devem estar acessíveis publicamente e não podem estar protegidos em um firewall ou protegidos em uma Rede Virtual do Azure.
- Os dados em seus Hubs de Eventos devem ser serializados no formato JSON, CSV ou Avro.
Desenvolver um trabalho do Stream Analytics
Use as etapas a seguir para desenvolver um trabalho do Stream Analytics para materializar dados no Azure Cosmos DB.
- No portal do Azure, localize e selecione sua instância de Hubs de Eventos do Azure.
- Em Recursos, selecione Processar dados. Em seguida, selecione Iniciar no cartão intitulado Materialize Data in Azure Cosmos DB.
- Introduza um nome para o seu trabalho e selecione Criar.
- Especifique o tipo de Serialização de seus dados no hub de eventos e o método de Autenticação que o trabalho usará para se conectar aos Hubs de Eventos. Em seguida, selecione Conectar.
- Se a conexão for bem-sucedida e você tiver fluxos de dados fluindo para sua instância de Hubs de Eventos, você verá imediatamente duas coisas:
- Campos que estão presentes na sua carga útil de entrada. Selecione o símbolo de três pontos ao lado de um campo opcionalmente remova, renomeie ou altere o tipo de dados do campo.
- Uma amostra dos dados de entrada no painel inferior em Visualização de dados que é atualizada periodicamente automaticamente. Você pode selecionar Pausar visualização de streaming se preferir ter uma visualização estática dos dados de entrada de exemplo.
- Campos que estão presentes na sua carga útil de entrada. Selecione o símbolo de três pontos ao lado de um campo opcionalmente remova, renomeie ou altere o tipo de dados do campo.
- Na próxima etapa, especifique o campo e a agregação que deseja calcular, como Média e Contagem. Você também pode especificar o campo que deseja agrupar por junto com a janela de tempo. Em seguida, você pode validar os resultados da etapa na seção Visualização de dados.
- Escolha o banco de dados e o contêiner do Cosmos DB onde deseja que os resultados sejam escritos.
- Inicie o trabalho do Stream Analytics selecionando Iniciar.
Para iniciar o trabalho, você deve especificar:- O número de unidades de streaming (SU) com as quais o trabalho é executado. SUs representam a quantidade de computação e memória alocada para o trabalho. Recomendamos que comece com três e ajuste conforme necessário.
- O tratamento de erros de dados de saída permite especificar o comportamento desejado quando a saída de um trabalho para o seu destino falha devido a erros de dados. Por padrão, o trabalho tenta novamente até que a operação de gravação seja bem-sucedida. Você também pode optar por descartar eventos de saída.
- Depois de selecionar Iniciar, o trabalho começa a ser executado em dois minutos. Exiba o trabalho na seção Processar dados na guia Trabalhos do Stream Analytics. Você pode explorar as métricas do trabalho e interrompê-lo e reiniciá-lo conforme necessário.
Considerações ao usar o recurso de replicação geográfica de Hubs de Eventos
Os Hubs de Eventos do Azure lançaram recentemente o recurso de Replicação Geográfica na visualização pública. Esse recurso é diferente do recurso de Recuperação de Desastres Geográficos dos Hubs de Eventos do Azure.
Quando o tipo de failover é Forçado e a consistência da replicação é assíncrona, o trabalho do Stream Analytics não garante exatamente uma saída para uma saída dos Hubs de Eventos do Azure.
O Azure Stream Analytics, como produtor com um hub de eventos uma saída, pode observar atraso de marca d'água no trabalho durante a duração do failover e durante a limitação pelos Hubs de Eventos caso o atraso de replicação entre primário e secundário atinja o atraso máximo configurado.
O Azure Stream Analytics, como consumidor com Hubs de Eventos como Entrada, pode observar atraso de marca d'água no trabalho durante a duração do failover e pode ignorar dados ou localizar dados duplicados após a conclusão do failover.
Devido a essas ressalvas, recomendamos que você reinicie o trabalho do Stream Analytics com a hora de início apropriada logo após a conclusão do failover dos Hubs de Eventos. Além disso, como o recurso de replicação geográfica dos Hubs de Eventos está em visualização pública, não recomendamos o uso desse padrão para trabalhos do Stream Analytics de produção neste momento. O comportamento atual do Stream Analytics melhorará antes que o recurso de replicação geográfica dos Hubs de Eventos esteja disponível em geral e possa ser usado em trabalhos de produção do Stream Analytics.
Próximos passos
Agora você sabe como usar o editor sem código do Stream Analytics para desenvolver um trabalho que lê de Hubs de Eventos e calcula agregações, como contagens, médias e grava-o em seu recurso do Azure Cosmos DB.