Partilhar via


Definições de SQL Warehouse para cargas de trabalho de BI

As cargas de trabalho de business intelligence têm características distintas que requerem considerações específicas de configuração de SQL warehouse. Esta página fornece orientações sobre como analisar os requisitos da sua carga de trabalho de BI e configurar armazéns SQL para oferecer desempenho ótimo, eficiência de custos e fiabilidade.

Análise da carga de trabalho e requisitos de SLA

Cada carga de trabalho de BI é única e requer uma análise cuidadosa antes da configuração. Considere as seguintes questões ao avaliar as suas necessidades:

  • Migração ou nova implementação: Esta carga de trabalho está a ser migrada de outra plataforma ou é uma implementação nova? Cargas de trabalho migradas podem ter estabelecido SLAs e bases de desempenho.
  • Acordos de nível de serviço (SLA): Quais são os seus requisitos de latência, largura de banda e disponibilidade? Documente tanto os SLAs técnicos como os de negócio.
  • Padrões de acesso: Como é que os utilizadores interagem com os dados? Compreender os padrões típicos de consulta ajuda a dimensionar corretamente a configuração do seu armazém e a otimizar a camada de dados para a carga de trabalho específica.

Padrões típicos de acesso à BI

As cargas de trabalho de BI normalmente enquadram-se em duas categorias distintas de padrões de acesso, cada uma exigindo diferentes configurações de SQL warehouse.

Padrão DirectQuery / LiveQuery

Os padrões DirectQuery consultam dados em tempo real, exigindo respostas de baixa latência para análises interativas:

Caraterísticas:

  • Elevado número de consultas
  • As consultas normalmente retornam conjuntos de resultados pequenos (menos de 1.000 registos)
  • Normalmente realizado durante o horário comercial
  • Requisitos rigorosos de SLA com baixas expectativas de latência
  • Padrões de consulta imprevisíveis (painéis, relatórios)
  • Os dados acedidos por consulta são tipicamente inferiores a 5GB
  • Requer computação altamente escalável para acomodar padrões com picos

Expectativas de desempenho:

  • Tempo de resposta à consulta: segundos (normalmente menos de 5 segundos para painéis interativos)
  • Frescura dos dados: Atualizada, refletindo os dados mais recentes

Perfil de carga de trabalho:

  • Picos frequentes durante o horário de funcionamento
  • Variações imprevisíveis de carga (conduzidas pelo utilizador)
  • Pode estender-se até 24 horas por dia, 7 dias por semana, para organizações globais

Padrão de importação / extração

Os padrões de importação extraem dados para sistemas a jusante, priorizando o rendimento em detrimento da latência:

Caraterísticas:

  • Baixo número de consultas (atualizações agendadas)
  • Normalmente conjuntos de resultados grandes (mais de 1.000.000 de registos)
  • Normalmente agendado durante as horas de menor afluência
  • Padrões de consulta previsíveis (frequentemente orientados por aprofundamento)
  • Dados acedidos por consulta: até dezenas de GB

Expectativas de desempenho:

  • Tempo de resposta à consulta: minutos a horas (orientado por lotes)
  • Frescura dos dados: Instantâneo do dia ou do dia anterior

Perfil de carga de trabalho:

  • Janelas de execução agendadas e previsíveis
  • Características conhecidas da carga de trabalho e requisitos de recursos
  • Processamento orientado por lotes

Mistura de consultas em cargas de trabalho DirectQuery

Ao utilizar padrões DirectQuery com um modelo de dados de esquema estrela, espere a seguinte distribuição de consultas:

  • Consultas por dimensões: Muitas pequenas consultas analisam tabelas de dimensões (cliente, produto, tempo)
  • Perguntas de factos: Muitas consultas grandes analisam tabelas de factos com joins e agregações
  • Consultas de extração: Algumas consultas simples mas de longa duração para extratos de grandes volumes de dados

Esta mistura variada de consultas requer armazéns SQL que consigam lidar de forma eficiente tanto com pequenas consultas frequentes como grandes consultas analíticas simultaneamente.

Estratégia de multi-armazéns para isolamento de carga de trabalho

A Databricks recomenda provisionar múltiplos armazéns SQL para alcançar:

Dimensionamento correto e custos ótimos

  • Dimensione cada armazém de acordo com o seu padrão específico de carga de trabalho
  • Evite o excesso de provisionamento separando cargas de trabalho com diferentes requisitos de recursos
  • Use armazéns mais pequenos para desenvolvimento e testes, maiores para produção
  • Utilize a escalabilidade do armazém para encontrar o equilíbrio ideal entre desempenho e custo

Melhor desempenho geral

  • Evitar a contenção de recursos entre DirectQuery e os padrões de Importação/Extração
  • Isolar dashboards interativos das operações de atualização por lote
  • Permitir escalabilidade independente com base nas exigências de carga de trabalho

Cobrança cruzada e alocação de custos

  • Acompanhar a utilização e custos por unidade de negócio, projeto ou equipa
  • Permitir modelos de chargeback precisos
  • Melhorar a visibilidade dos custos e a responsabilização

Administração e gestão mais eficientes

  • Atribuir responsabilidades de propriedade e gestão por equipa ou projeto
  • Aplicar diferentes políticas de auto-stop com base nos padrões de uso
  • Configurar controlos de acesso e monitorização separados

Para cargas de trabalho do DirectQuery / LiveQuery

  • Use armazéns de dados SQL sem servidor para gestão automática de recursos
  • Configure um auto-stop agressivo (15-30 minutos) para otimização de custos
  • Defina o tamanho do cluster com base na complexidade da consulta e volume de dados (comece pelo Medium, aumente se necessário)
  • Defina o número mínimo e máximo de clusters com base na carga de trabalho antecipada
  • Monitorize a métrica Peak Queued Queries e ajuste os clusters máximos em conformidade

Para tarefas de Importação / Extração

  • Use armazéns SQL Pro ou Classic para trabalhos previsíveis e agendados
  • Configure tempos de paragem automática mais longos (1-2 horas) se vários trabalhos correrem em sequência
  • Empregue clusters de maior capacidade (Grande, Extra Grande) para agregações complexas.
  • Considere o agendamento fixo para alinhar com as janelas de lote
  • Monitorizar a duração da consulta e ajustar o tamanho com base nos requisitos de SLA

Para mais informações sobre o dimensionamento e o comportamento de escalonamento e fila do armazém de dados SQL, consulte dimensionamento, escalonamento e comportamento de fila do armazém de dados SQL.

Para uma referência rápida das melhores práticas de serviço de BI, consulte a folha de dica de serviço de BI.