Diretrizes de desempenho no Fabric Data Warehouse

Aplica-se a: ✅ Armazém em Microsoft Fabric

Este artigo contém práticas recomendadas para ingestão de dados, gestão de tabelas, preparação de dados, estatísticas e consultas em armazéns de dados e pontos de extremidade de análise SQL. O ajuste e a otimização de desempenho podem apresentar desafios únicos, mas também oferecem oportunidades valiosas para maximizar os recursos de suas soluções de dados.

Sugestão

Para orientações abrangentes sobre estratégias de otimização de tabelas Delta, incluindo recomendações para tabelas escritas pelo Spark ou mirroring que são consumidas pelo Fabric Data Warehouse, consulte Manutenção e otimização de tabelas entre cargas de trabalho.

Para monitorizar o desempenho do seu armazém, veja Monitor Fabric Data warehouse.

Desempenho de consulta

Estatísticas

As estatísticas são objetos persistentes que representam dados nas colunas das tabelas. O Otimizador de Consulta usa estatísticas para selecionar e estimar o custo de um plano de consulta. O Fabric Data Warehouse e o endpoint de análise SQL Lakehouse utilizam e mantêm automaticamente estatísticas de histogramas, estatísticas de comprimento médio de colunas e estatísticas de cardinalidade de tabelas. Para mais informações, consulte Statistics in Fabric Data Warehouse.

Os comandos CREATE STATISTICS e UPDATE STATISTICS T-SQL são suportados para estatísticas de histograma de coluna única. Você pode aproveitá-los se houver uma janela grande o suficiente entre as transformações da tabela e a carga de trabalho de consulta, como durante uma janela de manutenção ou outro tempo de inatividade. Isso reduz a probabilidade de suas SELECT consultas terem que atualizar estatísticas primeiro.
Tente definir um esquema de tabela que mantenha a paridade de tipo de dados em comparações de colunas comuns. Por exemplo, se você sabe que as colunas serão frequentemente comparadas entre si em uma WHERE cláusula ou usadas como predicado, verifique se os tipos de JOIN ... ON dados correspondem. Se não for possível usar exatamente os mesmos tipos de dados, use tipos de dados semelhantes compatíveis para conversão implícita. Evite conversões de dados explícitas. Para obter mais informações, consulte Conversão de tipo de dados.

Sugestão

Para usuários do Lakehouse, a estatística ACE-Cardinality pode usar informações dos arquivos de log Delta de suas tabelas para ser mais precisa. Verifique se as tabelas Delta geradas pelo Spark incluem contagens de linhas da tabela com: spark.conf.set("spark.databricks.delta.stats.collect", "true"). Para obter mais informações, consulte Configurar e gerenciar estatísticas de tabela automatizadas no Fabric Spark.

Ao filtrar tabelas lakehouse na coluna de carimbo de data/hora antes da versão de runtime do Apache Spark 3.5.0, as estatísticas a nível de grupo de linhas para colunas de carimbo de data/hora não são geradas. A falta de estatísticas dificulta para os sistemas, como o Fabric Warehouse, a aplicação da eliminação de grupos de linhas (também conhecida como bypass de dados ou pushdown de predicados), uma otimização de desempenho que ignora grupos de linhas irrelevantes durante a execução de consultas. Sem essas estatísticas, as consultas de filtragem que envolvem colunas de carimbo de data/hora podem precisar verificar mais dados, levando a uma degradação significativa do desempenho. Você pode atualizar o tempo de execução do Apache Spark no Fabric. O Apache Spark 3.5.0 e as versões subsequentes podem gerar estatísticas ao nível de grupos de linhas para colunas de carimbos de data/hora. Em seguida, precisas recriar a tabela e ingerir os dados para que sejam geradas estatísticas ao nível do grupo de linhas.

Desempenho de cache frio

A execução first de uma consulta no Fabric Data Warehouse pode ser inesperadamente mais lenta do que execuções subsequentes. Isso é conhecido como início a frio, causado pela inicialização do sistema ou atividades de dimensionamento que preparam o ambiente para processamento.

Os arranques a frio ocorrem normalmente quando:

Os dados são carregados do OneLake na memória porque estão sendo acessados pela primeira vez e ainda não estão armazenados em cache.
Se os dados forem acessados pela primeira vez, a execução da consulta será atrasada até que as estatísticas necessárias sejam geradas automaticamente.
O Fabric Data Warehouse pausa automaticamente os nós após algum período de inatividade para reduzir custos e adiciona nós como parte do autoescalonamento. Retomar ou criar nós normalmente leva menos de um segundo.

Essas operações podem aumentar a duração da consulta. Os arranques a frio podem ser parciais. Alguns nós de computação, dados ou estatísticas podem já estar disponíveis ou armazenados em cache na memória, enquanto a consulta aguarda que outros fiquem disponíveis.

A cache em memória e em disco no Fabric Data Warehouse é totalmente transparente e ativada automaticamente. A cache minimiza de forma inteligente a necessidade de leituras de storage remoto ao aproveitar caches locais. O Fabric Data Warehouse utiliza padrões de acesso refinados para melhorar as leituras de dados a partir do storage e aumentar a velocidade de execução das consultas. Para obter mais informações, consulte Caching no armazenamento de dados do Fabric.

Pode detetar efeitos de arranque a frio causados pela recolha de dados de armazenamento remoto para a memória ao consultar a visualização queryinsights.exec_requests_history. Confira a data_scanned_remote_storage_mb coluna:

O valor diferente de zero em data_scanned_remote_storage_mb indica um arranque a frio. Os dados foram obtidos do OneLake durante a execução da consulta. As visualizações subsequentes devem ser comprovadamente mais rápidas em queryinsights.exec_requests_history.
Um valor zero em data_scanned_remote_storage_mb é o estado perfeito onde todos os dados são armazenados em cache. Nenhuma alteração de nó ou dados do OneLake foram necessários para servir os resultados da consulta.

Importante

Não julgue o desempenho da consulta com base na primeira execução. Verifique sempre data_scanned_remote_storage_mb para determinar se a consulta foi afetada pelo arranque a frio. As execuções subsequentes são muitas vezes significativamente mais rápidas e representativas do desempenho real, o que reduzirá o tempo médio de execução.

Consultas em tabelas com colunas de cadeia de caracteres

Utilize o menor comprimento de coluna de string que pode acomodar valores. O Fabric Warehouse está constantemente a melhorar; no entanto, você pode enfrentar um desempenho abaixo do ideal se usar tipos de dados de cadeia de caracteres grandes, particularmente objetos grandes (LOBs). Por exemplo, para o tipo de dados de uma customer_name coluna, considere seus requisitos de negócios e dados esperados e use um comprimento n apropriado ao declarar varchar(n), como varchar(100), em vez de varchar(8000) ou varchar(max). As estatísticas e a estimativa de custos de consulta são mais precisas quando o comprimento do tipo de dados é mais preciso em relação aos dados reais.

No Fabric Data Warehouse T-SQL, consulte a orientação para escolher o comprimento adequado para tipos de dados de cadeia.
As colunas de cadeia de caracteres da tabela Lakehouse sem comprimento definido no Spark são reconhecidas pelo Fabric Warehouse como varchar(8000). Para um desempenho ideal, utilize a instrução CREATE TABLE no SparkSQL para definir a coluna de cadeia de caracteres como varchar(n), onde n é o comprimento máximo que a coluna pode acomodar valores.

Transações e simultaneidade

O Fabric Data Warehouse é construído sobre uma arquitetura moderna, nativa da cloud, que combina integridade transacional, isolamento de snapshots e computação distribuída para garantir elevada concorrência e consistência em grande escala. Para obter mais informações, consulte Transações em tabelas de depósito.

O Fabric Data Warehouse suporta transações compatíveis com ACID usando isolamento de snapshot. Isto significa:

As operações de leitura e gravação podem ser agrupadas em uma única transação usando T-SQL padrão (BEGIN TRANSACTION, COMMIT, ROLLBACK)
Semântica de tudo ou nada: se uma transação se estender por várias tabelas e uma operação falhar, toda a transação será revertida.
Consistência de leitura: SELECT as consultas dentro de uma transação veem uma imagem consistente dos dados, que não é afetada por escritas concorrentes.

Suporte a transações do Fabric Warehouse:

Data Definition Language (DDL) dentro de transações: Você pode incluir CREATE TABLE dentro de um bloco de transação.
Transações entre bancos de dados: Com suporte no mesmo espaço de trabalho, incluindo leituras de pontos de extremidade de análise SQL.
Retrocesso baseado em Parquet: Como o Fabric Data Warehouse armazena dados em ficheiros Parquet imutáveis, os retrocessos são rápidos. As reversões simplesmente restauram versões anteriores dos ficheiros.
Compactação automática de dados e checkpointing:Compactação de dados otimiza o desempenho de armazenamento e leitura ao fundir pequenos arquivos Parquet e remover linhas logicamente eliminadas.
Ponto de verificação automático: Cada operação de gravação (INSERT, UPDATE, DELETE) acrescenta um novo arquivo de log JSON ao log de transações do Delta Lake. Com o tempo, isso pode resultar em centenas ou milhares de arquivos de log, especialmente em cenários de streaming ou ingestão de alta frequência. O ponto de verificação automático melhora a eficiência de leitura de metadados resumindo os logs de transações em um único arquivo de ponto de verificação. Sem ponto de verificação, cada leitura deve verificar todo o histórico do log de transações. Com o checkpointing, os únicos logs lidos são o arquivo de ponto de verificação mais recente e os logs depois dele. Isso reduz drasticamente a análise de E/S e metadados, especialmente para tabelas grandes ou atualizadas com frequência.

Tanto a compactação quanto o ponto de verificação são críticos para a integridade da tabela, especialmente em ambientes de longa execução ou de alta simultaneidade.

Controle de simultaneidade e isolamento

O Fabric Data Warehouse utiliza exclusivamente isolamento de instantâneos. As tentativas de alterar o nível de isolamento via T-SQL são ignoradas.

Práticas recomendadas com transações

Use transações explícitas com sabedoria. Sempre COMMIT ou ROLLBACK. Não deixe transações abertas.
- Mantenha as transações de curta duração. Evite transações de longa duração que mantêm bloqueios desnecessariamente, especialmente para transações explícitas que contenham DDLs. Isso pode causar contenção com SELECT instruções em exibições de catálogo do sistema (como sys.tables) e pode causar problemas com o portal do Fabric que dependem das exibições de catálogo do sistema.
Adicione lógica de reintento com atraso em pipelines ou aplicações para lidar com conflitos temporários.
- Utilize o algoritmo de backoff exponencial para evitar surtos de tentativas de repetição que pioram as interrupções transitórias da rede.
- Para mais informações, consulte padrão de repetição.
Monitore bloqueios e conflitos no armazém.
- Use sys.dm_tran_locks para inspecionar os bloqueios atuais.

Reduzir os tamanhos dos conjuntos de dados retornados

Consultas com tamanho de dados grande na execução intermediária da consulta ou no resultado final da consulta podem enfrentar mais problemas de desempenho da consulta. Para reduzir o tamanho do conjunto de dados retornado, considere as seguintes estratégias:

Dividir ou agrupar (Agrupamento Líquido) grandes tabelas no Lakehouse.
Limite o número de colunas retornadas. SELECT * pode ser dispendioso.
Limite o número de linhas retornadas. Execute o máximo possível de filtragem de dados no armazém, não em aplicativos cliente.
- Tente filtrar antes de ingressar para reduzir o conjunto de dados no início da execução da consulta.
- Filtre nas colunas de baixa cardinalidade para reduzir conjuntos de dados grandes antes dos joins.
- Colunas com alta cardinalidade são ideais para filtragem e JOINs. Eles são frequentemente usados em WHERE cláusulas e se beneficiam da aplicação de predicados no estágio anterior da execução da consulta para filtrar dados.
No Fabric Data Warehouse, uma vez que as restrições de chave primária e de chave única não são aplicadas, colunas com estas restrições não são necessariamente boas candidatas para junções.

Planos de consulta e dicas de consulta

No Fabric Data Warehouse, o otimizador de consultas gera um plano de execução de consultas para determinar a forma mais eficiente de executar uma consulta SQL. Os usuários avançados podem considerar investigar problemas de desempenho de consulta com o plano de consulta ou adicionando dicas de consulta.

Os utilizadores podem usar SHOWPLAN_XML em SQL Server Management Studio para visualizar o plano sem executar a consulta.
Dicas de consulta opcionais podem ser adicionadas a uma instrução SQL para fornecer mais instruções ao otimizador de consulta antes da geração do plano. Adicionar dicas de consulta requer conhecimento avançado de cargas de trabalho de consulta, portanto, normalmente são usadas depois que outras práticas recomendadas foram implementadas, mas o problema persiste.

Operações não escaláveis

O Fabric Data Warehouse é construído sobre uma arquitetura de processamento massivamente paralelo (MPP), onde as consultas são executadas em múltiplos nós de computação. Em alguns cenários, a execução de um único nó é justificada:

Toda a execução do plano de consulta requer apenas um nó de computação.
Uma subárvore de plano pode ser alocada dentro de um nó de computação.
A consulta inteira ou parte da consulta deve ser executada num único nó para cumprir a semântica da consulta. Por exemplo, TOP operações, ordenamento global, consultas que exigem ordenamento dos resultados de execuções paralelas para produzir um único resultado, ou junção de resultados para a etapa final.

Nesses casos, os usuários podem receber uma mensagem de aviso "Uma ou mais operações não escaláveis são detetadas", e a consulta pode ser executada lentamente ou falhar após uma longa execução.

Considere reduzir o tamanho do conjunto de dados filtrados da consulta.
Se a semântica da consulta não exigir a execução de nó único, tente forçar um plano de consulta distribuído com FORCE DISTRIBUTED PLAN, por exemplo OPTION (FORCE DISTRIBUTED PLAN);.

Consultar o ponto de extremidade da análise SQL

Você pode usar o endpoint de análises SQL para consultar tabelas do Lakehouse que foram populadas com Spark SQL, sem copiar ou ingestir dados no Warehouse.

As práticas recomendadas a seguir aplicam-se à interrogação de dados de armazém no Lakehouse por meio do endpoint de análise SQL. Para obter mais informações sobre o desempenho do ponto de extremidade da análise SQL, consulte Considerações sobre o desempenho do ponto de extremidade da análise SQL.

Sugestão

As práticas recomendadas a seguir se aplicam ao uso do Spark para processar dados em um lakehouse que podem ser consultados pelo ponto de extremidade de análise SQL.

Realizar manutenção regular de tabelas Lakehouse

No Microsoft Fabric, o Warehouse otimiza automaticamente os layouts dos dados e realiza recolha de lixo e compactação. Para uma Lakehouse temos mais controle sobre a manutenção da tabela. A otimização da tabela e o vacuamento são necessários e podem reduzir significativamente o tempo de varredura necessário para grandes conjuntos de dados. A manutenção de tabelas no Lakehouse também se estende a atalhos e pode ajudá-lo a melhorar significativamente o desempenho aí.

Otimize tabelas ou atalhos de lakehouse com muitos ficheiros pequenos.

Ter muitos arquivos pequenos cria sobrecarga para ler metadados de arquivos. Use o comando OTIMIZE no portal do Fabric ou em um Notebook para combinar arquivos pequenos em arquivos maiores. Repita esse processo quando o número de arquivos mudar significativamente.

Para otimizar uma tabela no Fabric Lakehouse, abra o Lakehouse no portal do Fabric. No Explorer, clique com o botão direito do mouse na tabela, selecione Manutenção. Escolha opções na página Executar comandos de manutenção e, em seguida, selecione Executar agora.

Consultar tabelas ou atalhos de lakehouse localizados na mesma região

A malha usa computação onde a capacidade da malha está localizada. Consultar dados, como no seu próprio Azure Data Lake Storage ou no OneLake, noutra região, resulta em sobrecarga de desempenho devido à latência da rede. Verifique se os dados estão na mesma região. Dependendo dos seus requisitos de desempenho, considere manter apenas tabelas pequenas, como tabelas de dimensões, em uma região remota.

Filtrar tabelas e atalhos de lakehouse nas mesmas colunas

Se você costuma filtrar linhas da tabela em colunas específicas, considere particionar a tabela.

O particionamento funciona bem para colunas de baixa cardinalidade ou colunas com cardinalidade previsível, como anos ou datas. Para obter mais informações, consulte o Tutorial sobre Lakehouse - Preparar e transformar dados do lakehouse e Carregar dados no Lakehouse usando partição.

O agrupamento funciona bem para colunas de alta seletividade. Se tiver outras colunas que costuma usar para filtragem, para além das colunas de particionamento, considere agrupar a tabela usando a sintaxe SQL do Spark 'optimize'. Para obter mais informações, consulte Otimização da tabela Delta Lake.

Agrupamento de dados

Também pode realizar agrupamento de dados em colunas específicas nas instruções T-SQL de CREATE TABLE e CREATE TABLE AS SELECT (CTAS). O agrupamento de dados funciona armazenando linhas com valores semelhantes em locais adjacentes durante o armazenamento na ingestão.

O agrupamento de dados utiliza uma curva que preenche o espaço para organizar os dados de forma a preservar a localidade em múltiplas dimensões, o que significa que linhas com valores semelhantes nas colunas de agrupamento são armazenadas fisicamente próximas. Esta abordagem melhora drasticamente o desempenho das consultas ao permitir o salto de ficheiros e reduzir o número de ficheiros que são analisados.
Os metadados de agrupamento de dados são incorporados no manifesto durante a ingestão, permitindo ao motor do armazém tomar decisões inteligentes sobre que ficheiros acessar durante consultas dos utilizadores. Estes metadados, combinados com a forma como linhas com valores semelhantes são armazenadas juntas, garantem que consultas com predicados de filtro possam saltar ficheiros inteiros e grupos de linhas que estejam fora do âmbito dos predicados.

Por exemplo: se uma consulta direciona apenas 10% dos dados de uma tabela, o agrupamento garante que apenas os ficheiros que contêm os dados dentro do intervalo do filtro são varridos, reduzindo o consumo de I/O e computação. Tabelas maiores beneficiam mais do agrupamento de dados, pois os benefícios do salto de ficheiros aumentam com o volume de dados.

Para informações completas sobre o agrupamento de dados, consulte Agrupamento de dados no Fabric Data Warehouse.
Para um tutorial sobre agrupamento de dados e como medir o seu efeito positivo no desempenho, consulte Utilize o agrupamento de dados no Fabric Data Warehouse.

Otimização do tipo de dados

Escolher os tipos de dados certos é essencial para o desempenho e eficiência do storage no seu armazém. As seguintes diretrizes ajudam a garantir que o design do seu esquema suporta consultas rápidas, storage eficiente e manutenção.

Para mais informações sobre tipos de dados suportados pelo Fabric Data Warehouse, consulte Tipos de dados no Fabric Data Warehouse.

Sugestão

Se estiver a usar ferramentas externas para gerar tabelas ou consultas, como com uma metodologia code-first de implementação, reveja cuidadosamente os tipos de dados das colunas. Os comprimentos de tipos de dados de texto e as consultas devem aderir a estas práticas recomendadas.

Corresponder tipos de dados à semântica de dados

Para garantir tanto claridade como desempenho, é importante alinhar o tipo de dado de cada coluna com a natureza e comportamento reais dos dados que armazena.

Use date, time ou datetime2(n) para valores temporais em vez de armazená-los como cadeias de caracteres.
Use tipos inteiros para valores numéricos, a menos que a formatação (por exemplo, zeros à esquerda) seja necessária.
Usar tipos de caracteres (char, varchar) quando preservar a formatação é essencial (por exemplo, números que podem começar com zero, códigos de produto, números com traços).

Usar tipos inteiros para números inteiros

Ao armazenar valores como identificadores, contadores ou outros números inteiros, prefira tipos inteiros (smallint, int, bigint) em vez de decimal/numeric. Os tipos inteiros requerem menos storage do que os tipos de dados que permitem dígitos à direita da vírgula decimal. Como resultado, eles permitem operações aritméticas e de comparação mais rápidas e melhoram a indexação e o desempenho da consulta.

Esteja atento aos intervalos de valores para cada tipo de dado inteiro suportado pelo Fabric Data Warehouse. Para mais informações, int, bigint, smallint (Transact-SQL).

Considere o uso de precisão e escala decimais e numéricas

Se você precisar usarnúmeros/, ao criar a coluna, escolha a menor precisão e escala que possam acomodar seus dados. A precisão do excesso de provisionamento aumenta os requisitos de armazenamento e pode degradar o desempenho à medida que os dados aumentam.

Antecipe o crescimento esperado e as necessidades do seu armazém. Por exemplo, se planeia armazenar no máximo quatro dígitos à direita do ponto decimal, use decimal(9,4) ou decimal(19,4) para storage mais eficiente.
Sempre especifique precisão e escala ao criar uma colunanumérica/. Quando criada numa tabela definida como apenas decimal, sem especificar (p,s) a precisão e a escala, uma coluna decimal/numérica é criada como decimal(18,0). Um decimal com precisão de 18 consome 9 bytes de armazenamento por linha. Uma escala de 0 não armazena dados à direita da vírgula decimal. Para muitos números inteiros de negócios, smallint, int, bigint são muito mais eficientes do que decimal(18,0). Por exemplo, qualquer número inteiro de nove dígitos pode ser armazenado como um tipo de dados inteiro que ocupa 4 bytes de armazenamento por linha.

Para obter informações completas, consulte decimal e numérico (Transact-SQL).

Considere quando usar varchar em vez de char

Use varchar(n) em vez de char(n) para colunas de cadeia de caracteres, a menos que o preenchimento de comprimento fixo seja explicitamente necessário. Uma coluna varchar armazena apenas o comprimento real da cadeia de caracteres por linha, além de uma pequena sobrecarga e reduz o espaço desperdiçado, o que melhora a eficiência de E/S.

Use varchar(n) para valores como nomes, endereços e descrições, pois eles têm valores amplamente variáveis. As estatísticas e a estimativa de custos de consulta são mais precisas quando o comprimento do tipo de dados é mais preciso em relação aos dados reais.
Use char(n) quando souber que a string terá um comprimento fixo de cada vez. Por exemplo, armazenar a cadeia de caracteres 000000000 como um char(9) faz sentido se a cadeia de caracteres for sempre exatamente 9 caracteres numéricos que podem começar com um zero.
O comprimento n na declaração do tipo de dados da coluna está em bytes de armazenamento. Para conjuntos de caracteres de codificação multibyte como UTF-8, a codificação no Fabric Data Warehouse para caracteres latinos e números ocupa 1 byte de armazenamento. No entanto, há caracteres Unicode que exigem mais de 1 byte, como caracteres japoneses que exigem 3 bytes para armazenar, portanto, o número de caracteres Unicode realmente armazenados pode ser menor do que o comprimento ndo tipo de dados. Para obter mais informações, consulte Argumentos char e varchar.

Evite colunas anuláveis quando possível

Defina colunas como NOT NULL quando o modelo de dados permite. Por predefinição, uma coluna numa tabela permite NULL valores. As colunas anuláveis têm as seguintes características:

Adicionam sobrecarga de metadados.
Pode reduzir a eficácia de otimizações de consulta e estatísticas.
Pode afetar o desempenho em consultas analíticas de grande escala.

Ingestão e preparação de dados em um armazém

COPIAR PARA

O T-SQL COPY INTO comando é a forma recomendada de ingerir dados de Azure Data Lake Storage para o Fabric Data Warehouse. Para obter mais informações e exemplos, consulte Ingerir dados no seu armazém usando a instrução COPY.

Considere as seguintes recomendações para obter o melhor desempenho:

Tamanho do ficheiro: Certifique-se de que cada arquivo que você está ingerindo esteja idealmente entre 100 MB e 1 GB para uma taxa de transferência maximizada. Isso ajuda a otimizar o processo de ingestão e melhorar o desempenho.
Número de ficheiros: Para maximizar o paralelismo e o desempenho da consulta, procure gerar um grande número de arquivos. Priorize a criação do maior número possível de arquivos, mantendo um tamanho mínimo de arquivo de 100 MB.
Carregamento paralelo: Utilize várias COPY INTO instruções em execução em paralelo para carregar dados em tabelas diferentes. Esta abordagem pode reduzir significativamente a janela ETL/ELT devido ao paralelismo.
Tamanho da capacidade: para volumes de dados maiores, considere expandir para maior capacidade de malha para obter os recursos de computação adicionais necessários para acomodar um número adicional de processamento paralelo e volumes de dados maiores.

O Fabric Data Warehouse também suporta a instrução BULK INSERT, que é um sinónimo de COPY INTO. A mesma recomendação se aplica à BULK INSERT declaração.

CTAS ou INSERIR

Use CREATE TABLE COMO SELECT (CTAS) ou INSERT combinado com comandos de tabela/atalho SELECT FROM do Lakehouse. Estes métodos podem ser mais eficientes e eficientes do que o uso de pipelines, permitindo transferências de dados mais rápidas e fiáveis. Para obter mais informações e exemplos, consulte Ingerir dados no armazém de dados usando Transact-SQL.

O conceito de aumentar o número de paralelismos e escalar para uma maior capacidade de estrutura também se aplica às operações de CTAS/INSERT para aumentar a taxa de transferência.

Leia dados do Azure Data Lake Storage ou Blob Storage com OPENROWSET

A função OPENROWSET permite-lhe ler ficheiros CSV ou Parquet de Azure Data Lake ou Azure Blob storage, sem os ingerir no Warehouse. Para obter mais informações e exemplos, consulte Procurar conteúdo de arquivo usando a função OPENROWSET.

Para mais informações e exemplos sobre consulta a dados externos, consulte Consultar ficheiros de data lake externos usando Fabric Data Warehouse ou SQL analytics endpoint.

Ao ler dados usando a função OPENROWSET, considere as seguintes recomendações para obter o melhor desempenho:

Parquet: Tente usar o Parquet em vez do CSV ou converta CSV em Parquet, se estiver consultando os arquivos com frequência. Parquet é um formato colunar. Como os dados são compactados, seus tamanhos de arquivo são menores do que os arquivos CSV que contêm os mesmos dados. O Fabric Data Warehouse ignora as colunas e linhas que não são necessárias numa consulta se estiveres a ler ficheiros Parquet.
Tamanho do ficheiro: Certifique-se de que cada arquivo que você está ingerindo esteja idealmente entre 100 MB e 1 GB para uma taxa de transferência maximizada. Isso ajuda a otimizar o processo de ingestão e melhorar o desempenho. É melhor ter arquivos de tamanho igual.
Número de ficheiros: Para maximizar o paralelismo e o desempenho da consulta, procure gerar um grande número de arquivos. Priorize a criação do maior número possível de arquivos, mantendo um tamanho mínimo de arquivo de 100 MB.
Partição: Particione os seus dados armazenando as partições em diferentes pastas ou nomes de arquivos se as suas cargas de trabalho os filtrarem por colunas de partição.
Estimativa: Tente definir ROWS_PER_BATCH para corresponder ao número de linhas nos arquivos subjacentes se achar que não está obtendo o desempenho esperado.
Tamanho da capacidade: Para volumes de dados maiores, considere expandir para SKU maior para obter mais recursos de computação necessários para acomodar um número extra de processamento paralelo e volumes de dados maiores.

Evite inserções, atualizações e exclusões intermitentes

Para garantir um layout eficiente dos ficheiros e um desempenho ótimo de consultas no Fabric Data Warehouse, evite usar muitas pequenas transações INSERT, UPDATE e DELETE. Essas alterações no nível da linha geram um novo arquivo Parquet para cada operação, resultando em um grande número de arquivos pequenos e grupos de linhas fragmentados. Esta fragmentação conduz a:

Maior latência de consulta devido à análise ineficiente de arquivos.
Custos de storage e computação mais elevados.
Maior dependência nos processos de compactação em segundo plano.

Abordagens recomendadas:

Transações em lote que escrevem no Fabric Data Warehouse.
- Por exemplo, em vez de muitas pequenas instruções INSERT, pré-carregue os dados juntos e insira os dados em uma única instrução INSERT.
Use COPY INTO para inserções em massa e execute atualizações e exclusões em lotes sempre que possível.
Mantenha um tamanho mínimo de arquivo importado de 100 MB para garantir a formação eficiente do grupo de linhas.
Para obter mais orientações e práticas recomendadas sobre ingestão de dados, consulte Práticas recomendadas para ingerir dados em um depósito.

Compactação de dados

No Fabric Data Warehouse, a compactação de dados é um processo de otimização em segundo plano que funde ficheiros Parquet pequenos e ineficientes em menos ficheiros, mas maiores. Muitas vezes, esses arquivos são criados por operações frequentes de trickle INSERT, UPDATE, ou DELETE. A compactação de dados reduz a fragmentação de arquivos, melhora a eficiência do grupo de linhas e melhora o desempenho geral da consulta.

Embora o motor Fabric Data Warehouse resolva automaticamente a fragmentação ao longo do tempo através da compactação de dados, o desempenho pode degradar-se até que o processo seja concluído. A compactação de dados corre automaticamente, sem intervenção do utilizador, para o Fabric Data Warehouse.

A compactação de dados não se aplica ao Lakehouse. Para as tabelas Lakehouse acessadas através de endpoints de análise SQL, é importante seguir as melhores práticas Lakehouse e executar manualmente o comando OPTIMIZE após alterações significativas nos dados para manter o layout de armazenamento ótimo.

Preempção de compactação de dados

O Fabric Data Warehouse evita de forma inteligente e ativa conflitos de escrita-escrita entre tarefas de compactação em segundo plano e operações do utilizador. A partir de outubro de 2025, a preempção de compactação de dados será habilitada.

Verificações de compactação para bloqueios partilhados que são mantidos por consultas do utilizador. Se a compactação de dados detetar um bloqueio antes de começar, ele aguardará e tentará novamente mais tarde. Se a compactação de dados for iniciada e detetar um bloqueio antes de ser confirmada, a compactação será abortada para evitar um conflito de gravação com a consulta do usuário.

Conflitos de escrita-escrita com o serviço de compactação de dados em segundo plano do Fabric Data Warehouse ainda são possíveis. É possível criar um conflito de gravação-gravação com compactação de dados, por exemplo, se um aplicativo usar uma transação explícita e executar um trabalho não conflitante (como INSERT) antes de uma operação conflitante (UPDATE, DELETE, MERGE). A compactação de dados pode ser concluída com sucesso, causando a falha da transação explícita mais tarde devido a um conflito. Para mais informações sobre conflitos de escrita-escrita ou atualização, consulte Transactions in Warehouse tables in Microsoft Fabric.

V-Order no Armazém de Dados do Fabric

V-Order é uma otimização do tempo de escrita para o formato de ficheiro parquet que permite leituras rápidas em Microsoft Fabric. A V-Order no Fabric Data Warehouse melhora o desempenho das consultas ao aplicar ordenação e compressão aos ficheiros de tabelas.

Por padrão, o V-Order é ativado em todos os armazéns para garantir que as operações de leitura, especialmente as consultas analíticas, sejam tão rápidas e eficientes quanto possível.

No entanto, o V-Order introduz uma pequena sobrecarga de ingestão, perceptível em cargas de trabalho intensivas em gravação. Por esse motivo, a desativação do V-Order deve ser considerada apenas para armazéns que são estritamente intensivos em gravação e não são usados para consultas frequentes. É importante notar que, uma vez que o V-Order é desativado em um depósito, ele não pode ser reativado.

Antes de decidir desativar o V-Order, os usuários devem testar minuciosamente o desempenho de sua carga de trabalho para garantir que a troca seja justificada. Um padrão comum é usar um armazém provisório com V-Order desativado para ingestão de alta capacidade de processamento, transformação de dados e a ingestão dos dados subjacentes num Data Warehouse com V-Order ativado para melhor desempenho de leitura. Para mais informações, consulte Desativar a V-Order na Warehouse em Microsoft Fabric.

Clonar tabelas em vez de copiar tabelas

Os clones Table no Fabric Data Warehouse fornecem uma forma rápida e eficiente de criar tabelas sem copiar dados. Com uma abordagem de clonagem sem cópia, apenas os metadados da tabela são duplicados, enquanto os arquivos de dados subjacentes são referenciados diretamente do OneLake. Isso permite que os usuários criem cópias de tabela consistentes e confiáveis quase instantaneamente, sem a sobrecarga da duplicação total de dados.

Clones zero-copy são ideais para cenários como desenvolvimento, testes e backup, oferecendo uma solução de alto desempenho e eficiente em storage que ajuda a reduzir os custos de infraestrutura.

As tabelas clonadas também copiam todos os principais recursos de segurança da origem, incluindo Row-Level Security (RLS), Column-Level Security (CLS) e Dynamic Data Masking (DDM), sem a necessidade de reaplicar políticas após a clonagem.
Os clones podem ser criados dentro do período de retenção de dados a partir de um ponto específico no tempo, suportando funcionalidades de viagem no tempo.
As tabelas clonadas existem independentemente de sua origem, as alterações feitas na origem não afetam o clone e as alterações no clone não afetam a origem. A fonte ou o clone podem ser descartados independentemente.

Visões de metadados de consulta

Histórico de Execução de Consultas (30 dias)
- queryinsights.exec_requests_history
- queryinsights.exec_sessions_history
Informações agregadas
- queryinsights.long_running_queries
- queryinsights.frequently_run_queries

Para obter mais informações sobre os queryinsights modos de exibição, consulte insights de consulta no data warehousing do Fabric.

Consultar DMVs do ciclo de vida

Para obter mais informações sobre DMVs do ciclo de vida da consulta, consulte Monitorar conexões, sessões e solicitações usando DMVs.

Comentários

Esta página foi útil?

Last updated on 2026-03-11

Diretrizes de desempenho no Fabric Data Warehouse

Desempenho de consulta

Estatísticas

Desempenho de cache frio

Consultas em tabelas com colunas de cadeia de caracteres

Transações e simultaneidade

Controle de simultaneidade e isolamento

Práticas recomendadas com transações

Reduzir os tamanhos dos conjuntos de dados retornados

Planos de consulta e dicas de consulta

Operações não escaláveis

Consultar o ponto de extremidade da análise SQL

Realizar manutenção regular de tabelas Lakehouse

Otimize tabelas ou atalhos de lakehouse com muitos ficheiros pequenos.

Consultar tabelas ou atalhos de lakehouse localizados na mesma região

Filtrar tabelas e atalhos de lakehouse nas mesmas colunas

Agrupamento de dados

Otimização do tipo de dados

Corresponder tipos de dados à semântica de dados

Usar tipos inteiros para números inteiros

Considere o uso de precisão e escala decimais e numéricas

Considere quando usar varchar em vez de char

Evite colunas anuláveis quando possível

Ingestão e preparação de dados em um armazém

COPIAR PARA

CTAS ou INSERIR

Leia dados do Azure Data Lake Storage ou Blob Storage com OPENROWSET

Evite inserções, atualizações e exclusões intermitentes

Compactação de dados

Preempção de compactação de dados

V-Order no Armazém de Dados do Fabric

Clonar tabelas em vez de copiar tabelas

Visões de metadados de consulta

Conteúdos relacionados

Comentários

Recursos adicionais