Definições de SQL Warehouse para cargas de trabalho de BI

As cargas de trabalho de business intelligence têm características distintas que requerem considerações específicas de configuração de SQL warehouse. Esta página fornece orientações sobre como analisar os requisitos da sua carga de trabalho de BI e configurar armazéns SQL para oferecer desempenho ótimo, eficiência de custos e fiabilidade.

Análise da carga de trabalho e requisitos de SLA

Cada carga de trabalho de BI é única e requer uma análise cuidadosa antes da configuração. Considere as seguintes questões ao avaliar as suas necessidades:

Migração ou nova implementação: Esta carga de trabalho está a ser migrada de outra plataforma ou é uma implementação nova? Cargas de trabalho migradas podem ter estabelecido SLAs e bases de desempenho.
Acordos de nível de serviço (SLA): Quais são os seus requisitos de latência, largura de banda e disponibilidade? Documente tanto os SLAs técnicos como os de negócio.
Padrões de acesso: Como é que os utilizadores interagem com os dados? Compreender os padrões típicos de consulta ajuda a dimensionar corretamente a configuração do seu armazém e a otimizar a camada de dados para a carga de trabalho específica.

Padrões típicos de acesso à BI

As cargas de trabalho de BI normalmente enquadram-se em duas categorias distintas de padrões de acesso, cada uma exigindo diferentes configurações de SQL warehouse.

Padrão DirectQuery / LiveQuery

Os padrões DirectQuery consultam dados em tempo real, exigindo respostas de baixa latência para análises interativas:

Caraterísticas:

Elevado número de consultas
As consultas normalmente retornam conjuntos de resultados pequenos (menos de 1.000 registos)
Normalmente realizado durante o horário comercial
Requisitos rigorosos de SLA com baixas expectativas de latência
Padrões de consulta imprevisíveis (painéis, relatórios)
Os dados acedidos por consulta são tipicamente inferiores a 5GB
Requer computação altamente escalável para acomodar padrões com picos

Expectativas de desempenho:

Tempo de resposta à consulta: segundos (normalmente menos de 5 segundos para painéis interativos)
Frescura dos dados: Atualizada, refletindo os dados mais recentes

Perfil de carga de trabalho:

Picos frequentes durante o horário de funcionamento
Variações imprevisíveis de carga (conduzidas pelo utilizador)
Pode estender-se até 24 horas por dia, 7 dias por semana, para organizações globais

Padrão de importação / extração

Os padrões de importação extraem dados para sistemas a jusante, priorizando o rendimento em detrimento da latência:

Caraterísticas:

Baixo número de consultas (atualizações agendadas)
Normalmente conjuntos de resultados grandes (mais de 1.000.000 de registos)
Normalmente agendado durante as horas de menor afluência
Padrões de consulta previsíveis (frequentemente orientados por aprofundamento)
Dados acedidos por consulta: até dezenas de GB

Expectativas de desempenho:

Tempo de resposta à consulta: minutos a horas (orientado por lotes)
Frescura dos dados: Instantâneo do dia ou do dia anterior

Perfil de carga de trabalho:

Janelas de execução agendadas e previsíveis
Características conhecidas da carga de trabalho e requisitos de recursos
Processamento orientado por lotes

Mistura de consultas em cargas de trabalho DirectQuery

Ao utilizar padrões DirectQuery com um modelo de dados de esquema estrela, espere a seguinte distribuição de consultas:

Consultas por dimensões: Muitas pequenas consultas analisam tabelas de dimensões (cliente, produto, tempo)
Perguntas de factos: Muitas consultas grandes analisam tabelas de factos com joins e agregações
Consultas de extração: Algumas consultas simples mas de longa duração para extratos de grandes volumes de dados

Esta mistura variada de consultas requer armazéns SQL que consigam lidar de forma eficiente tanto com pequenas consultas frequentes como grandes consultas analíticas simultaneamente.

Estratégia de multi-armazéns para isolamento de carga de trabalho

A Databricks recomenda provisionar múltiplos armazéns SQL para alcançar:

Dimensionamento correto e custos ótimos

Dimensione cada armazém de acordo com o seu padrão específico de carga de trabalho
Evite o excesso de provisionamento separando cargas de trabalho com diferentes requisitos de recursos
Use armazéns mais pequenos para desenvolvimento e testes, maiores para produção
Utilize a escalabilidade do armazém para encontrar o equilíbrio ideal entre desempenho e custo

Melhor desempenho geral

Evitar a contenção de recursos entre DirectQuery e os padrões de Importação/Extração
Isolar dashboards interativos das operações de atualização por lote
Permitir escalabilidade independente com base nas exigências de carga de trabalho

Cobrança cruzada e alocação de custos

Acompanhar a utilização e custos por unidade de negócio, projeto ou equipa
Permitir modelos de chargeback precisos
Melhorar a visibilidade dos custos e a responsabilização

Administração e gestão mais eficientes

Atribuir responsabilidades de propriedade e gestão por equipa ou projeto
Aplicar diferentes políticas de auto-stop com base nos padrões de uso
Configurar controlos de acesso e monitorização separados

Configurações recomendadas de armazém

Para cargas de trabalho do DirectQuery / LiveQuery

Use armazéns de dados SQL sem servidor para gestão automática de recursos
Configure um auto-stop agressivo (15-30 minutos) para otimização de custos
Defina o tamanho do cluster com base na complexidade da consulta e volume de dados (comece pelo Medium, aumente se necessário)
Defina o número mínimo e máximo de clusters com base na carga de trabalho antecipada
Monitorize a métrica Peak Queued Queries e ajuste os clusters máximos em conformidade

Para tarefas de Importação / Extração

Use armazéns SQL Pro ou Classic para trabalhos previsíveis e agendados
Configure tempos de paragem automática mais longos (1-2 horas) se vários trabalhos correrem em sequência
Empregue clusters de maior capacidade (Grande, Extra Grande) para agregações complexas.
Considere o agendamento fixo para alinhar com as janelas de lote
Monitorizar a duração da consulta e ajustar o tamanho com base nos requisitos de SLA

Para mais informações sobre o dimensionamento e o comportamento de escalonamento e fila do armazém de dados SQL, consulte dimensionamento, escalonamento e comportamento de fila do armazém de dados SQL.

Para uma referência rápida das melhores práticas de serviço de BI, consulte a folha de dica de serviço de BI.

Comentários

Esta página foi útil?

Last updated on 2026-02-21