Diretrizes de desempenho no Fabric Data Warehouse

Aplica-se a:✅ Warehouse no Microsoft Fabric

Este artigo contém as práticas recomendadas para ingestão de dados, gerenciamento de tabelas, preparação de dados, estatísticas e consulta em armazéns de dados e endpoints de análise SQL. O ajuste de desempenho e a otimização podem apresentar desafios exclusivos, mas também oferecem oportunidades valiosas para maximizar os recursos de suas soluções de dados.

Dica

Para obter orientações abrangentes para diferentes cargas de trabalho sobre estratégias de otimização de tabela Delta, incluindo recomendações para tabelas escritas pelo Spark ou através de espelhamento que são consumidas pelo Fabric Data Warehouse, consulte A manutenção e otimização de tabelas entre cargas de trabalho.

Para monitorar o desempenho em seu warehouse, consulte Monitor Fabric Data warehouse.

Desempenho de consulta

Estatísticas

Estatísticas são objetos persistentes que representam dados nas colunas de suas tabelas. O Otimizador de Consulta usa estatísticas para escolher e estimar o custo de um plano de consulta. O Fabric Data Warehouse e o ponto de extremidade de análise do Lakehouse SQL usam e mantêm automaticamente as estatísticas de histograma, as estatísticas médias de comprimento da coluna e as estatísticas de cardinalidade da tabela. Para obter mais informações, consulte Statistics in Fabric Data Warehouse.

Os comandos CREATE STATISTICS e UPDATE STATISTICS T-SQL têm suporte para estatísticas de histograma de coluna única. Você pode aproveitar isso se houver uma janela grande o suficiente entre as transformações de tabela e a carga de trabalho de consulta, como durante uma janela de manutenção ou outro tempo de inatividade. Isso reduz a probabilidade de suas SELECT consultas terem que primeiro atualizar estatísticas.
Tente definir o esquema de tabela que mantém a paridade do tipo de dados em comparações de coluna comuns. Por exemplo, se você souber que as colunas serão frequentemente comparadas entre si em uma WHERE cláusula ou usadas como predicado JOIN ... ON , verifique se os tipos de dados correspondem. Se não for possível usar exatamente os mesmos tipos de dados, use tipos de dados semelhantes compatíveis para conversão implícita. Evite conversões de dados explícitas. Para obter mais informações, consulte Conversão de tipo de dados.

Dica

Para usuários do Lakehouse, a estatística ACE-Cardinality pode usar informações dos arquivos de log Delta de suas tabelas para ser mais precisa. Verifique se as tabelas Delta geradas pelo Spark incluem contagens de linhas de tabela com: spark.conf.set("spark.databricks.delta.stats.collect", "true"). Para obter mais informações, consulte Configurar e gerenciar estatísticas de tabela automatizadas no Fabric Spark.

Ao filtrar tabelas de lakehouse por colunas de carimbo de data/hora antes do Apache Spark runtime 3.5.0, não são geradas estatísticas a nível de grupo de linhas para essas colunas. Essa falta de estatísticas dificulta que sistemas, como o Fabric Warehouse, apliquem a eliminação de rowgroup (também conhecida como ignorar dados ou pushdown de predicado), que é uma otimização de desempenho que ignora rowgroups irrelevantes durante a execução da consulta. Sem essas estatísticas, a filtragem de consultas que envolvem colunas de carimbo de data/hora pode precisar escanear mais dados, levando a uma degradação significativa do desempenho. Você pode atualizar o runtime do Apache Spark no Fabric. O Apache Spark 3.5.0 e versões superiores podem gerar estatísticas no nível do grupo de linhas para colunas de carimbo de data/hora. Em seguida, você precisa recriar a tabela e ingerir os dados para gerar estatísticas no nível do grupo de linhas.

Desempenho do cache frio

A execução first de uma consulta no Fabric Data Warehouse pode ser inesperadamente mais lenta do que as execuções subsequentes. Isso é conhecido como um início frio, causado pela inicialização do sistema ou atividades de dimensionamento que preparam o ambiente para processamento.

Normalmente, o frio é iniciado quando:

Os dados são carregados do OneLake na memória porque estão sendo acessados pela primeira vez e ainda não estão armazenados em cache.
Se os dados forem acessados pela primeira vez, a execução da consulta será atrasada até que as estatísticas necessárias sejam geradas automaticamente.
O Fabric Data Warehouse pausa automaticamente os nós após algum período de inatividade para reduzir o custo e adiciona nós como parte do dimensionamento automático. Retomar ou criar nós normalmente leva menos de um segundo.

Essas operações podem aumentar a duração da consulta. As partidas a frio podem ser parciais. Alguns nós de computação, dados ou estatísticas podem já estar disponíveis ou armazenados em cache na memória; enquanto a consulta aguarda que outros fiquem disponíveis.

O cache em memória e disco no Fabric Data Warehouse é totalmente transparente e habilitado automaticamente. O cache minimiza de forma inteligente a necessidade de leituras de storage remotas aproveitando os caches locais. O Fabric Data Warehouse emprega padrões de access refinados para aprimorar as leituras de dados de storage e elevar a velocidade de execução da consulta. Para obter mais informações, consulte Cache no armazenamento de dados do Fabric.

Você pode detectar efeitos de "cold start" causados pela busca de dados de armazenamento remoto na memória consultando a visualização queryinsights.exec_requests_history. Verifique a data_scanned_remote_storage_mb coluna:

O valor diferente de zero em data_scanned_remote_storage_mb indica um início a frio. Os dados foram obtidos do OneLake durante a execução da consulta. As exibições subsequentes devem ser comprovadamente mais rápidas em queryinsights.exec_requests_history.
Um valor zero em data_scanned_remote_storage_mb é o estado perfeito em que todos os dados são armazenados em cache. Não foram necessárias alterações em nós nem dados do OneLake para atender aos resultados da consulta.

Importante

Não julgue o desempenho da consulta com base na primeira execução. Sempre verifique data_scanned_remote_storage_mb para determinar se a consulta foi afetada por cold start. As execuções subsequentes geralmente são significativamente mais rápidas e representam o desempenho real, o que reduzirá o tempo médio de execução.

Consultas em tabelas com colunas de cadeia de caracteres

Utilize o menor comprimento de coluna de string que possa acomodar valores. O Fabric Warehouse está melhorando constantemente; no entanto, você poderá experimentar um desempenho abaixo do ideal se estiver usando tipos de dados de cadeia de caracteres grandes, especialmente LOBs (objetos grandes). Por exemplo, para o tipo de dados de uma customer_name coluna, considere seus requisitos de negócios e dados esperados e use um comprimento n apropriado ao declarar varchar(n), como varchar(100), em vez de varchar(8000) ou varchar(max). Estatísticas e estimativa de custo de consulta são mais precisas quando o comprimento do tipo de dado é mais preciso em relação aos dados reais.

No Fabric Data Warehouse T-SQL, consulte guidance para escolher o comprimento apropriado para tipos de dados de cadeia de caracteres.
Colunas de texto de tabelas lakehouse sem comprimento definido no Spark são reconhecidas pelo Fabric Warehouse como varchar(8000). Para obter um desempenho ideal, use a instrução CREATE TABLE no SparkSQL para definir a coluna de cadeia de caracteres como varchar(n), onde n é o comprimento máximo da coluna que pode acomodar os valores.

Transações e simultaneidade

O fabric Data Warehouse é baseado em uma arquitetura moderna e nativa de nuvem que combina integridade transacional, isolamento de instantâneo e computação distribuída para fornecer alta simultaneidade e consistência em escala. Para obter mais informações, consulte Transações em Tabelas do Armazém.

O sistema Fabric Data Warehouse dá suporte a transações em conformidade com ACID, usando isolamento por instantâneos. Isso significa:

As operações de leitura e gravação podem ser agrupadas em uma única transação usando t-SQL padrão (BEGIN TRANSACTION, , COMMIT) ROLLBACK
Semântica tudo ou nada: se uma transação abranger várias tabelas e uma operação falhar, toda a transação será revertida.
Consistência de leitura: SELECT as consultas em uma transação veem um instantâneo consistente dos dados, não afetado por gravações simultâneas.

Suporte a transações do Fabric Warehouse:

DDL (Linguagem de Definição de Dados) dentro de transações: Você pode incluir CREATE TABLE em um bloco de transação.
Transações entre bancos de dados: Suportadas dentro do mesmo workspace, incluindo leituras de pontos de extremidade de análise SQL.
A reversão baseada em Parquet: como o Fabric Data Warehouse armazena dados em arquivos Parquet imutáveis, as reversões são rápidas. As reversões simplesmente voltam para versões de arquivo anteriores.
Compactação automática de dados e ponto de verificação:A compactação de dados otimiza o desempenho de armazenamento e leitura mesclando pequenos arquivos Parquet e removendo linhas excluídas logicamente.
Ponto de verificação automático: Cada operação de gravação (INSERT, UPDATE, ) DELETEacrescenta um novo arquivo de log JSON ao log de transações do Delta Lake. Com o tempo, isso pode resultar em centenas ou milhares de arquivos de log, especialmente em cenários de streaming ou ingestão de alta frequência. O ponto de verificação automático melhora a eficiência de leitura de metadados, resumindo os registros de transações em um único arquivo de ponto de verificação. Sem o ponto de verificação, cada leitura deve examinar todo o histórico de logs de transações. Com o ponto de verificação, os únicos logs lidos são o arquivo de ponto de verificação mais recente e os logs após ele. Isso reduz drasticamente a análise de E/S e metadados, especialmente para tabelas grandes ou atualizadas com frequência.

Tanto a compactação quanto o ponto de verificação são essenciais para a integridade da tabela, especialmente em ambientes de longa execução ou de alta simultaneidade.

Controle de concorrência e isolamento

O Fabric Data Warehouse usa exclusivamente o isolamento de snapshot. As tentativas de alterar o nível de isolamento por meio do T-SQL são ignoradas.

Práticas recomendadas com transações

Use transações explícitas com sabedoria. Sempre COMMIT ou ROLLBACK... Não deixe as transações abertas.
- Mantenha as transações de curta duração. Evite transações de execução prolongada que contêm bloqueios desnecessariamente, especialmente para transações explícitas que contêm DDLs. Isso pode causar concorrência com instruções SELECT em exibições do catálogo do sistema (como sys.tables) e pode causar problemas com o portal do Fabric que dependem das exibições do catálogo do sistema.
Adicione lógica de repetição com atraso em pipelines ou aplicativos para lidar com conflitos transitórios.
- Use um recuo exponencial para evitar tempestades de tentativas que pioram interrupções transitórias de rede.
- Para obter mais informações, consulte Padrão de Repetição.
Monitore bloqueios e conflitos no armazém.
- Use sys.dm_tran_locks para inspecionar os bloqueios atuais.

Reduzir os tamanhos dos conjuntos de dados retornados

Consultas com tamanho de dados grande na execução de consulta intermediária ou no resultado final da consulta podem ter mais problemas de desempenho de consulta. Para reduzir o tamanho do conjunto de dados retornado, considere as seguintes estratégias:

Particione ou faça clustering em tabelas grandes (Liquid Clustering) no Lakehouse.
Limite o número de colunas retornadas. SELECT * pode ser caro.
Limite o número de linhas retornadas. Execute o máximo possível de filtragem de dados no warehouse, não em aplicativos cliente.
- Tente filtrar antes de ingressar para reduzir o conjunto de dados no início da execução da consulta.
- Filtre colunas de baixa cardinalidade para reduzir um conjunto de dados grande antes dos JOINs.
- Colunas com alta cardinalidade são ideais para filtragem e JOINs. Geralmente, elas são usadas em WHERE cláusulas e se beneficiam do predicado aplicado na fase inicial da execução da consulta para filtrar os dados.
No Fabric Data Warehouse, como as restrições de chave primária e chave única não são aplicadas, colunas com essas restrições não são necessariamente boas candidatas para operações JOIN (uniões).

Planos de consulta e dicas de consulta

No Fabric Data Warehouse, o otimizador de consulta gera um plano de execução de consulta para determinar a maneira mais eficiente de executar uma consulta SQL. Usuários avançados podem considerar investigar problemas de desempenho de consulta com o plano de consulta ou adicionando dicas de consulta.

Os usuários podem usar SHOWPLAN_XML em SQL Server Management Studio para exibir o plano sem executar a consulta.
Dicas de consulta opcionais podem ser adicionadas a uma instrução SQL para fornecer mais instruções ao otimizador de consulta antes da geração do plano. Adicionar dicas de consulta requer conhecimento avançado das cargas de trabalho de consulta, portanto, normalmente são usadas depois que outras práticas recomendadas foram implementadas, mas o problema persiste.

Operações não escalonáveis

O fabric Data Warehouse é baseado em uma arquitetura de MPP (processamento paralelo maciço), em que as consultas são executadas em vários nós de computação. Em alguns cenários, a execução única de nó é justificada.

A execução do plano de consulta inteiro requer apenas um nó de computação.
Uma subárvore de plano pode caber em um nó de computação.
Toda a consulta ou parte da consulta deve ser executada em um único nó a fim de atender à semântica da consulta. Por exemplo, TOP operações, classificação global, consultas que exigem a classificação de resultados de execuções paralelas para produzir um único resultado ou unir resultados para a etapa final.

Nesses casos, os usuários podem receber uma mensagem de aviso "Uma ou mais operações não escalonáveis são detectadas" e a consulta pode ser executada lentamente ou falhar após uma execução longa.

Considere reduzir o tamanho do conjunto de dados filtrado da consulta.
Se a semântica de consulta não exigir execução de nó único, tente forçar um plano de consulta distribuído com FORCE DISTRIBUTED PLAN, por exemplo OPTION (FORCE DISTRIBUTED PLAN);.

Consultar o endpoint de análises do SQL

Você pode usar o ponto de extremidade de análise do SQL para consultar tabelas do Lakehouse que foram preenchidas com o Spark SQL, sem copiar ou ingerir dados no Warehouse.

As práticas recomendadas a seguir se aplicam à consulta de dados no data warehouse do Lakehouse por meio do endpoint de SQL Analytics. Para obter mais informações sobre o desempenho do ponto de extremidade de análise de SQL, consulte as considerações sobre o desempenho do ponto de extremidade da análise de SQL.

Dica

As práticas recomendadas a seguir se aplicam ao uso do Spark para processar dados em um lakehouse que pode ser consultado pelo endpoint de análises SQL.

Executar manutenção regular em tabelas Lakehouse

Em Microsoft Fabric, o Warehouse otimiza automaticamente os layouts de dados e executa a coleta de lixo e a compactação. Para um ambiente Lakehouse, você tem mais controle sobre a manutenção da tabela. A otimização e a compactação de tabelas são necessárias e podem reduzir significativamente o tempo de leitura necessário para grandes conjuntos de dados. A manutenção de tabelas no Lakehouse também se estende a atalhos e pode ajudar significativamente a melhorar o desempenho.

Otimizar tabelas ou atalhos do lakehouse com muitos arquivos pequenos

Ter muitos arquivos pequenos cria sobrecarga para ler metadados de arquivo. Use o comando OPTIMIZE no portal do Fabric ou em um Notebook para combinar arquivos pequenos em arquivos maiores. Repita esse processo quando o número de arquivos for alterado significativamente.

Para otimizar uma tabela em um Fabric Lakehouse, abra o Lakehouse no portal do Fabric. No Explorer, clique com o botão direito do mouse na tabela, selecione Manutenção. Escolha opções na página Executar comandos de manutenção e selecione Executar agora.

Consultar tabelas ou atalhos do lakehouse localizados na mesma região

O Fabric utiliza o processamento onde está localizada a capacidade do Fabric. Consultar dados, como em seu próprio Azure Data Lake Storage ou no OneLake, em outra região resulta em sobrecarga de desempenho devido à latência de rede. Verifique se os dados estão na mesma região. Dependendo dos requisitos de desempenho, considere manter apenas tabelas pequenas, como tabelas de dimensão em uma região remota.

Filtrar tabelas e atalhos do lakehouse sobre as mesmas colunas

Se você geralmente filtrar linhas de tabela em colunas específicas, considere particionar a tabela.

O particionamento funciona bem para colunas de baixa cardinalidade ou com cardinalidade previsível, como anos ou datas. Para obter mais informações, consulte o tutorial do Lakehouse – Preparar e transformar dados do Lakehouse e carregar dados no Lakehouse usando partição.

O clustering funciona bem para colunas de alta seletividade. Se você tiver outras colunas que costuma usar para filtragem, além das colunas de particionamento, considere agrupar a tabela utilizando a otimização com a sintaxe do Spark SQL ZORDER BY. Para obter mais informações, consulte a otimização da tabela Delta Lake.

Agrupamento de dados

Você também pode realizar o agrupamento de dados em colunas específicas nas instruções T-SQL CREATE TABLE e CREATE TABLE AS SELECT (CTAS). O clustering de dados funciona armazenando linhas com valores semelhantes em locais próximos durante o processo de ingestão de dados.

O clustering de dados usa uma curva de preenchimento de espaço para organizar dados de uma maneira que preserva a localidade em várias dimensões, o que significa que linhas com valores semelhantes entre colunas de clustering são armazenadas fisicamente próximas. Essa abordagem melhora drasticamente o desempenho da consulta ao realizar a omissão de arquivos e reduzir o número de arquivos que são verificados.
Os metadados de clustering de dados são inseridos no manifesto durante a ingestão, permitindo que o mecanismo do warehouse tome decisões inteligentes sobre quais arquivos acessar durante consultas de usuários. Esses metadados, combinados com a forma como linhas com valores semelhantes são armazenadas juntas, garante que consultas com predicados de filtro possam ignorar arquivos inteiros e grupos de linhas que ficam fora do escopo do predicado.

Por exemplo: se uma consulta destina-se a apenas 10% de dados de uma tabela, o clustering garante que apenas os arquivos que contêm os dados dentro do intervalo do filtro sejam verificados, reduzindo o consumo de E/S e de computação. Tabelas maiores se beneficiam mais do clustering de dados, pois os benefícios de ignorar arquivos aumentam com o volume de dados.

Para obter informações completas sobre agrupamento de dados, consulte Agrupamento de dados no Fabric Data Warehouse.
Para obter um tutorial sobre clustering de dados e como medir seu efeito positivo sobre o desempenho, consulte Use o clustering de dados no Fabric Data Warehouse.

Otimização de tipo de dados

Escolher os tipos de dados corretos é essencial para o desempenho e a eficiência de armazenamento em seu armazém. As diretrizes a seguir ajudam a garantir que seu design de esquema dê suporte a consultas rápidas, storage eficientes e manutenção.

Para obter mais informações sobre os tipos de dados compatíveis com o Fabric Data Warehouse, consulte Data types in Fabric Data Warehouse.

Dica

Se você estiver usando ferramentas externas para gerar tabelas ou consultas, como com uma metodologia de implantação orientada a código, examine cuidadosamente os tipos de dados de coluna. Os tamanhos e consultas de tipo de dados de caracteres devem seguir estas práticas recomendadas.

Corresponder tipos de dados à semântica de dados

Para garantir clareza e desempenho, é importante alinhar o tipo de dados de cada coluna com a natureza real e o comportamento dos dados que ela armazena.

Use data, hora ou datetime2(n) para valores temporais em vez de armazená-los como cadeias de caracteres.
Use tipos de dados inteiros para valores numéricos, a menos que a formatação (por exemplo, zeros à esquerda) seja necessária.
Use tipos de caractere (char, varchar), quando preservar a formatação é essencial (por exemplo, números que podem começar com zero, códigos de produto, números com traços).

Usar tipos inteiros para números inteiros

Ao armazenar valores como identificadores, contadores ou outros números inteiros, prefira tipos inteiros (smallint, int, bigint) em vez denuméricos decimais/. Tipos inteiros exigem menos storage do que os tipos de dados que permitem dígitos à direita do ponto decimal. Como resultado, elas permitem operações aritméticas e de comparação mais rápidas e melhoram o desempenho de indexação e consulta.

Lembre-se dos intervalos de valores para cada tipo de dados inteiro suportados pelo Fabric Data Warehouse. Para obter mais informações, int, bigint, smallint (Transact-SQL).

Considere o uso de precisão e escala numéricas e decimais

Se você precisar usar decimal/numérico, ao criar a coluna, escolha a menor precisão e escala que possa acomodar seus dados. A precisão de provisionamento excessivo aumenta os requisitos de armazenamento e pode prejudicar o desempenho com o crescimento dos dados.

Antecipe o crescimento e as necessidades esperadas do seu armazém. Por exemplo, se você planeja armazenar no máximo quatro dígitos à direita do ponto decimal, use decimal(9,4) ou decimal(19,4) para armazenamento mais eficiente.
Sempre especifique a precisão e a escala ao criar uma colunanumérica/. Quando criada em uma tabela definida como apenas decimal, sem especificar (p,s)para precisão e escala, uma coluna decimal/numérica é criada como decimal(18,0). Um decimal com uma precisão de 18 consome 9 bytes de storage por linha. Uma escala de 0 não armazena dados à direita do ponto decimal. Para muitos números de negócios inteiros, smallint, int, bigint são muito mais eficientes do que decimal(18,0). Por exemplo, qualquer número inteiro de nove dígitos pode ser armazenado como um tipo de dados integer para 4 bytes de armazenamento por linha.

Para obter informações completas, consulte decimal e numérico (Transact-SQL).

Considere quando usar varchar em vez de char

Use varchar(n) em vez de char(n) para colunas de cadeia de caracteres, a menos que o preenchimento de comprimento fixo seja explicitamente necessário. Uma coluna varchar armazena apenas o comprimento real da cadeia de caracteres por linha, além de uma pequena sobrecarga e reduz o espaço desperdiçado, o que melhora a eficiência de E/S.

Use varchar(n) para valores como nomes, endereços e descrições, pois eles têm valores amplamente variáveis. Estatísticas e estimativa de custo de consulta são mais precisas quando o comprimento do tipo de dado é mais preciso em relação aos dados reais.
Use char(n) quando souber que a cadeia de caracteres será um comprimento fixo a cada vez. Por exemplo, armazenar a cadeia 000000000 de caracteres como um char(9) fará sentido se a cadeia de caracteres for sempre exatamente 9 caracteres numéricos que podem começar com zero.
O comprimento n na declaração do tipo de dados da coluna é medido em bytes de armazenamento. Para conjuntos de caracteres de codificação multibyte, como UTF-8, a codificação para Fabric Data Warehouse, caracteres latinos e números ocupam 1 byte de armazenamento. No entanto, há caracteres Unicode que exigem mais de 1 byte, como caracteres japoneses que exigem 3 bytes para armazenar, portanto, o número de caracteres Unicode realmente armazenados pode ser menor do que o comprimento ndo tipo de dados. Para obter mais informações, consulte argumentos char e varchar.

Evite colunas anuláveis quando possível

Defina colunas como NOT NULL quando o modelo de dados permite. Por padrão, uma coluna em uma tabela permite NULL valores. As colunas que podem ser nulas têm as seguintes características:

Eles adicionam sobrecarga de metadados.
Pode reduzir a eficácia das otimizações e estatísticas de consulta.
Pode afetar o desempenho em consultas analíticas em larga escala.

Ingestão e preparação de dados em um armazém de dados

COPIAR PARA

O comando T-SQL COPY INTO é a maneira recomendada para ingerir dados de Azure Data Lake Storage no Fabric Data Warehouse. Para obter mais informações e exemplos, consulte Carregar dados em seu armazém de dados usando a instrução COPY.

Considere as seguintes recomendações para obter o melhor desempenho:

Tamanho do arquivo: Verifique se cada arquivo que você está ingerindo está idealmente entre 100 MB e 1 GB para a taxa de transferência maximizada. Isso ajuda a otimizar o processo de ingestão e melhorar o desempenho.
Número de arquivos: Para maximizar o paralelismo e o desempenho da consulta, procure gerar um alto número de arquivos. Priorize a criação do maior número possível de arquivos, mantendo um tamanho mínimo de arquivo de 100 MB.
Carregamento paralelo: Utilize várias COPY INTO instruções em execução em paralelo para carregar dados em tabelas diferentes. Essa abordagem pode reduzir significativamente a janela ETL/ELT devido ao paralelismo.
Tamanho da capacidade: para volumes de dados maiores, considere dimensionar para maior Capacidade do Fabric para obter os recursos de computação adicionais necessários para acomodar um número adicional de processamento paralelo e volumes de dados maiores.

O fabric Data Warehouse também dá suporte à instrução BULK INSERT que é um sinônimo para COPY INTO. A mesma recomendação se aplica à BULK INSERT instrução.

CTAS ou INSERT

Use CREATE TABLE AS SELECT (CTAS) ou INSERT combinado com comandos de tabela/atalho SELECT FROM Lakehouse. Esses métodos podem ser mais eficazes e eficientes do que usar pipelines, permitindo transferências de dados mais rápidas e confiáveis. Para obter mais informações e exemplos, consulte Ingerir dados em seu Warehouse usando o Transact-SQL.

O conceito de aumentar o número de paralelismos e escalar para uma maior Capacidade de Fabric também se aplica às operações CTAS/INSERT para aumentar a taxa de transferência.

Ler dados de Azure Data Lake Storage ou Blob Storage com OPENROWSET

A função OPENROWSET permite ler arquivos CSV ou Parquet do Azure Data Lake ou do Azure Blob storage, sem carregá-los no Warehouse. Para obter mais informações e exemplos, consulte Procurar conteúdo do arquivo usando a função OPENROWSET.

Para obter mais informações e exemplos sobre como consultar dados externos, consulte Consultar arquivos de data lake externos com o Fabric Data Warehouse ou o ponto de extremidade de análise do SQL.

Ao ler dados usando a função OPENROWSET, considere as seguintes recomendações para obter o melhor desempenho:

Parquete: Tente usar Parquet em vez de CSV ou converta CSV em Parquet, se você estiver consultando frequentemente os arquivos. Parquet é um formato de coluna. Como os dados são compactados, seus tamanhos de arquivo são menores que os arquivos CSV que contêm os mesmos dados. O Fabric Data Warehouse ignora as colunas e linhas que não são necessárias em uma consulta se você estiver lendo arquivos Parquet.
Tamanho do arquivo: Verifique se cada arquivo que você está ingerindo está idealmente entre 100 MB e 1 GB para a taxa de transferência maximizada. Isso ajuda a otimizar o processo de ingestão e melhorar o desempenho. É melhor ter arquivos de tamanho igual.
Número de arquivos: Para maximizar o paralelismo e o desempenho da consulta, procure gerar um alto número de arquivos. Priorize a criação do maior número possível de arquivos, mantendo um tamanho mínimo de arquivo de 100 MB.
Partição: Particione seus dados armazenando partições em pastas ou nomes de arquivo diferentes se sua carga de trabalho os filtrar por colunas de partição.
Avaliação: Tente definir para corresponder ROWS_PER_BATCH ao número de linhas nos arquivos subjacentes se você sentir que não está recebendo o desempenho esperado.
Tamanho da capacidade: Para volumes de dados maiores, considere dimensionar para um SKU maior para obter mais recursos de computação necessários para acomodar um número extra de processamento paralelo e volumes de dados maiores.

Evitar inserções, atualizações e exclusões graduais

Para garantir a eficiência do layout de arquivos e o desempenho ideal de consultas no Fabric Data Warehouse, evite usar muitas transações de INSERT, UPDATE e DELETE. Essas alterações no nível de linha geram um novo arquivo Parquet para cada operação, resultando em um grande número de arquivos pequenos e grupos de linhas fragmentados. Essa fragmentação leva a:

Aumento da latência de consulta devido à varredura de arquivos ineficiente.
Custos mais altos de storage e computação.
Maior dependência em processos de compactação em segundo plano.

Abordagens recomendadas:

Transações em lote que são gravadas no Armazém de Dados Fabric.
- Por exemplo, em vez de muitas instruções pequenas INSERT, reúna os dados antes e insira-os em uma única instrução INSERT.
Use COPY INTO para inserções em massa e execute atualizações e exclusões em lotes sempre que possível.
Mantenha um tamanho mínimo de arquivo importado de 100 MB para garantir a formação eficiente do grupo de linhas.
Para obter mais diretrizes e práticas recomendadas sobre ingestão de dados, consulte As práticas recomendadas para ingerir dados em um warehouse.

Compactação de dados

No Fabric Data Warehouse, a compactação de dados é um processo de otimização em segundo plano que mescla arquivos Parquet pequenos e ineficientes em um número menor de arquivos maiores. Geralmente, esses arquivos são criados por operações frequentes de gotejamento INSERT, UPDATE ou DELETE. A compactação de dados reduz a fragmentação de arquivos, melhora a eficiência do grupo de linhas e melhora o desempenho geral da consulta.

Embora o mecanismo de Data Warehouse Fabric resolva automaticamente a fragmentação ao longo do tempo por meio da compactação de dados, o desempenho pode diminuir até que o processo seja concluído. A compactação de dados é executada automaticamente sem intervenção do usuário para o Fabric Data Warehouse.

A compactação de dados não se aplica ao Lakehouse. Para tabelas do Lakehouse acessadas por endpoints de análise do SQL, é importante seguir as práticas recomendadas do Lakehouse e executar manualmente o comando OPTIMIZE após alterações significativas de dados para manter o layout de armazenamento ideal.

Preempção de compactação de dados

O Fabric Data Warehouse evita de forma inteligente e ativa conflitos de gravação entre tarefas de compactação de segundo plano e operações de usuários. A partir de outubro de 2025, a preempção de compactação de dados está habilitada.

A compactação verifica se há bloqueios compartilhados mantidos por consultas de usuário. Se a compactação de dados detectar um bloqueio antes de começar, ela aguardará e tentará novamente mais tarde. Se a compactação de dados for iniciada e detectar um bloqueio antes de ser confirmada, a compactação será anulada para evitar um conflito de gravação com a consulta do usuário.

Conflitos de gravação/gravação com o serviço de compactação de dados em segundo plano do Fabric Data Warehouse ainda são possíveis. É possível criar um conflito de escrita-escrita com a compactação de dados, por exemplo, se um aplicativo usar uma transação explícita e executar um processo não conflitante (como INSERT) antes de uma operação conflitante (UPDATE, DELETE, MERGE). A compactação de dados pode ser concluída com sucesso, fazendo com que a transação explícita falhe posteriormente por um conflito. Para obter mais informações sobre conflitos de gravação-escrita (write-write) ou atualização, consulte Transações em tabelas do Warehouse no Microsoft Fabric.

V-Order no Armazém de Dados do Fabric

V-Order é uma otimização de tempo de gravação para o formato de arquivo parquet que permite leituras rápidas em Microsoft Fabric. O V-Order no Fabric Data Warehouse melhora o desempenho da consulta aplicando classificação e compactação a arquivos de tabela.

Por padrão, o V-Order está habilitado em todos os armazéns para garantir que as operações de leitura, especialmente as consultas analíticas, sejam o mais rápidas e eficientes possível.

No entanto, o V-Order introduz uma pequena sobrecarga de ingestão, perceptível em cargas de trabalho intensivas de gravação. Por esse motivo, a desabilitação do V-Order deve ser considerada apenas para armazéns estritamente com uso intensivo de gravação e não usados para consultas frequentes. É importante observar que, depois que o V-Order estiver desabilitado em um armazém, ele não poderá ser habilitado novamente.

Antes de decidir desabilitar o V-Order, os usuários devem testar completamente o desempenho da carga de trabalho para garantir que a compensação seja justificada. Um padrão comum é usar um armazém de preparo com V-Order desabilitado para ingestão de alta taxa de transferência, transformação de dados e ingestão dos dados subjacentes em um Data Warehouse habilitado para V-Order para melhor desempenho de leitura. Para obter mais informações, consulte Disable V-Order on Warehouse no Microsoft Fabric.

Clonar tabelas em vez de copiar tabelas

Clones de tabela no Fabric Data Warehouse fornecem uma maneira rápida e eficiente de criar tabelas sem copiar dados. Com uma abordagem de clonagem de cópia zero, apenas os metadados da tabela são duplicados, enquanto os arquivos de dados subjacentes são referenciados diretamente do OneLake. Isso permite que os usuários criem cópias de tabela consistentes e confiáveis quase instantaneamente, sem a sobrecarga da duplicação completa de dados.

Clones de cópia zero são ideais para cenários como desenvolvimento, teste e backup, oferecendo uma solução de alto desempenho, armazenamento eficiente que ajuda a reduzir os custos de infraestrutura.

As tabelas clonadas também copiam todos os principais recursos de segurança da origem, incluindo Row-Level Security (RLS), Column-Level Security (CLS) e DDM (Máscara dinâmica de dados), sem a necessidade de reaplicar políticas após a clonagem.
Os clones podem ser criados em um ponto específico no tempo dentro do período de retenção de dados, dando suporte a funcionalidades de viagem no tempo.
As tabelas clonadas existem independentemente de sua origem, as alterações feitas na origem não afetam o clone e as alterações no clone não afetam a origem. A origem ou o clone podem ser descartados independentemente.

Exibições de metadados de consulta

Histórico de execução de consulta (30 dias)
- queryinsights.exec_requests_history
- queryinsights.exec_sessions_history
Insights agregados
- queryinsights.long_running_queries
- queryinsights.frequently_run_queries

Para obter mais informações sobre as queryinsights exibições, consulte Insights de consulta no armazenamento de dados do Fabric.

DMVs do ciclo de vida da consulta

Para obter mais informações sobre DMVs do ciclo de vida de consulta, consulte Monitorar conexões, sessões e solicitações usando DMVs.

Comentários

Esta página foi útil?

Last updated on 2026-01-14

Diretrizes de desempenho no Fabric Data Warehouse

Desempenho de consulta

Estatísticas

Desempenho do cache frio

Consultas em tabelas com colunas de cadeia de caracteres

Transações e simultaneidade

Controle de concorrência e isolamento

Práticas recomendadas com transações

Reduzir os tamanhos dos conjuntos de dados retornados

Planos de consulta e dicas de consulta

Operações não escalonáveis

Consultar o endpoint de análises do SQL

Executar manutenção regular em tabelas Lakehouse

Otimizar tabelas ou atalhos do lakehouse com muitos arquivos pequenos

Consultar tabelas ou atalhos do lakehouse localizados na mesma região

Filtrar tabelas e atalhos do lakehouse sobre as mesmas colunas

Agrupamento de dados

Otimização de tipo de dados

Corresponder tipos de dados à semântica de dados

Usar tipos inteiros para números inteiros

Considere o uso de precisão e escala numéricas e decimais

Considere quando usar varchar em vez de char

Evite colunas anuláveis quando possível

Ingestão e preparação de dados em um armazém de dados

COPIAR PARA

CTAS ou INSERT

Ler dados de Azure Data Lake Storage ou Blob Storage com OPENROWSET

Evitar inserções, atualizações e exclusões graduais

Compactação de dados

Preempção de compactação de dados

V-Order no Armazém de Dados do Fabric

Clonar tabelas em vez de copiar tabelas

Exibições de metadados de consulta

Conteúdo relacionado

Comentários

Recursos adicionais