Aumentar a capacidade de processamento para o Banco de Dados SQL do Azure a partir do Azure Stream Analytics

Este artigo discute dicas para melhorar o desempenho de gravação ao carregar dados no Banco de Dados SQL do Azure usando Azure Stream Analytics.

A saída de SQL no Azure Stream Analytics oferece suporte à gravação em paralelo como opção. Essa opção permite topologias de trabalho totalmente paralelas , em que várias partições de saída estão gravando na tabela de destino em paralelo. Habilitar essa opção no Azure Stream Analytics, no entanto, pode não ser suficiente para obter taxas de transferência mais altas, pois depende significativamente da configuração do banco de dados e do esquema de tabela. A escolha de índices, chave de agrupamento, fator de preenchimento de índice e compactação impacta o tempo de carregamento das tabelas. Para obter mais informações sobre como otimizar seu banco de dados para melhorar o desempenho de carga e consulta com base em parâmetros de comparação internos, consulte as diretrizes de desempenho do Banco de Dados SQL. A ordenação de gravações não é garantida ao gravar em paralelo ao Banco de Dados SQL.

Aqui estão algumas configurações em cada serviço que podem ajudar a melhorar a taxa de transferência geral da sua solução.

Azure Stream Analytics

Herdar Particionamento – essa opção de configuração de saída do SQL permite herdar o esquema de particionamento da sua etapa ou entrada de consulta anterior. Com esse recurso habilitado, gravando em uma tabela baseada em disco e tendo uma topologia totalmente paralela para seu trabalho, espere ver melhores taxas de transferência. Esse particionamento já ocorre automaticamente para muitas outras saídas. Bloqueio de tabela (TABLOCK) também será desabilitado para inserções em massa feitas com essa opção.

Observação

Quando há mais de 8 partições de entrada, herdar o esquema de particionamento de entrada pode não ser uma opção apropriada. Esse limite superior foi observado em uma tabela com uma única coluna de identidade e um índice clusterizado. Nesse caso, considere usar INTO 8 em sua consulta para especificar explicitamente o número de gravadores de saída. Com base no esquema e na escolha dos índices, as observações podem variar.
Tamanho do Lote – A configuração de saída do SQL permite que você especifique o tamanho máximo do lote em uma saída sql do Azure Stream Analytics com base na natureza da tabela/carga de trabalho de destino. O tamanho do lote é o número máximo de registros enviados com cada transação de inserção em massa. Em índices columnstore clusterizados, tamanhos de lote próximos de 100 mil permitem mais paralelização, mínimo registro em log e otimizações de bloqueio. Em tabelas baseadas em disco, 10 mil (padrão) ou inferior pode ser ideal para sua solução, uma vez que tamanhos de lote maiores podem disparar escalonamento de bloqueio durante inserções em massa.
Ajuste de Mensagem de Entrada – Se você tiver otimizado usando particionamento de herança e tamanho de lote, aumentar o número de eventos de entrada por mensagem por partição ajudará a incrementar ainda mais sua taxa de transferência de gravação. O ajuste de configuração de mensagens de entrada permite que os tamanhos de lote no Azure Stream Analytics sejam ajustados até o tamanho de lote especificado, melhorando assim o desempenho operacional. Isso pode ser feito usando compactação ou aumentando os tamanhos de mensagens de entrada no EventHub ou blob.

SQL Azure

Tabela particionada e índices – usar uma tabela SQL particionada e índices particionados na tabela com a mesma coluna que a chave de partição (por exemplo, PartitionId) pode reduzir significativamente as contenções entre partições durante as gravações. Para uma tabela particionada, você precisará criar uma função de partição e um esquema de partição no grupo de arquivos PRIMARY. Isso também aumentará a disponibilidade dos dados existentes enquanto novos dados estiverem sendo carregados. O limite de E/S de log pode ser atingido com base no número de partições, que pode ser aumentado atualizando a SKU.
Evite violações de chave exclusivas – se você receber várias mensagens de aviso de violação de chave no Log de Atividades do Azure Stream Analytics, verifique se seu trabalho não será afetado por violações de restrição exclusivas que provavelmente ocorrerão durante casos de recuperação. Isso pode ser evitado definindo a opção IGNORE_DUP_KEY em seus índices.

Azure Data Factory e tabelas na memória

Tabela In-Memory como tabela temporária – as tabelas In-Memory permitem cargas de dados de alta velocidade, mas os dados precisam se ajustar à memória. Os testes de desempenho mostram que o carregamento em massa de dados de uma tabela em memória para uma tabela baseada em disco é cerca de 10 vezes mais rápido do que a inserção em massa diretamente usando um único escritor para a tabela baseada em disco com uma coluna de identidade e um índice clusterizado. Para aproveitar esse desempenho de inserção em massa, configure um trabalho de cópia usando o Azure Data Factory que copia dados da tabela na memória para a tabela baseada em disco.

Evitando armadilhas de desempenho

A inserção em massa de dados é muito mais rápida do que carregar dados com inserções simples porque a sobrecarga repetida de transferir os dados, analisar a instrução de inserção, executar a instrução e emitir um registro de transação é evitada. Em vez disso, um caminho mais eficiente é usado no mecanismo de armazenamento para transmitir os dados. No entanto, o custo de instalação desse caminho é muito maior do que uma única instrução de inserção em uma tabela baseada em disco. O ponto de equilíbrio normalmente é de cerca de 100 linhas, além das quais o carregamento em massa é quase sempre mais eficiente.

Se a taxa de eventos de entrada for baixa, isso pode facilmente criar tamanhos de lote inferiores a 100 linhas, o que torna a inserção em massa ineficiente e usa muito espaço em disco. Para contornar essa limitação, você pode executar uma destas ações:

Crie um gatilho INSTEAD OF para usar um insert simples para cada linha.
Use uma tabela temporária In-Memory conforme descrito na seção anterior.

Outro cenário desse tipo ocorre ao gravar em um índice columnstore não clusterizado (NCCI), em que inserções em massa menores podem criar muitos segmentos, que podem falhar o índice. Nesse caso, a recomendação é usar um índice Columnstore clusterizado.

Resumo

Em resumo, com a funcionalidade de saída particionada para SQL no Azure Stream Analytics, a paralelização alinhada do seu trabalho com uma tabela particionada no SQL Azure deve proporcionar melhorias de desempenho significativas em termos de taxa de transferência. Aproveitar o Azure Data Factory para orquestrar a movimentação de dados de uma tabela em memória para tabelas baseadas em disco pode fornecer ganhos de taxa de transferência de ordem de magnitude. Se viável, melhorar a densidade de mensagens também pode ser um fator importante para melhorar a taxa de transferência geral.

Próximas Etapas

Entender as saídas do Azure Stream Analytics
Saída do Azure Stream Analytics para o Banco de Dados SQL do Azure
Use identidades gerenciadas para acessar o Banco de Dados SQL do Azure ou o Azure Synapse Analytics em um trabalho do Azure Stream Analytics
Usar dados de referência de um Banco de Dados SQL para um trabalho do Azure Stream Analytics
Atualizar ou mesclar registros no Banco de Dados SQL do Azure com o Azure Functions
Início Rápido: Criar um trabalho do Stream Analytics usando o portal do Azure

Comentários

Esta página foi útil?

Last updated on 2026-03-30