Limitações do pipeline

A seguir estão as limitações dos Lakeflow Spark Declarative Pipelines que é importante saber ao desenvolver seus pipelines:

Um espaço de trabalho do Azure Databricks é limitado a 200 atualizações de pipeline simultâneas. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração do pipeline e pela complexidade da carga de trabalho.
A configuração de um pipeline inclui referências a ficheiros fonte e pastas.
- Se a configuração referenciar apenas cadernos ou ficheiros individuais, o limite por pipeline é de 100 ficheiros fonte.
- Se a configuração incluir pastas, pode incluir até 50 entradas de origem compostas por ficheiros ou pastas.
  
  Referenciar uma pasta refere indiretamente os ficheiros dentro dessa pasta. Neste caso, o limite para o número de ficheiros referenciados (direta ou indiretamente) é 1000.
Se precisares de mais de 100 ficheiros fonte, organiza-os em pastas. Para aprender a usar pastas para conter ficheiros fonte, consulte o Navegador de Ativos do Pipeline no editor de pipeline Lakeflow.
Os conjuntos de dados de pipeline podem ser definidos apenas uma vez. Por isso, eles podem ser alvo de apenas uma única operação em todos os gasodutos. A exceção são as tabelas de streaming com processamento de fluxo de acréscimo, que permite gravar na tabela de streaming a partir de várias fontes de streaming. Consulte Usando vários fluxos para gravar em um único destino.
As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Usar colunas de identidade no Delta Lake.
- As colunas de identidade não são suportadas com tabelas que são o alvo do processamento AUTO CDC.
- As colunas de identidade podem ser recalculadas durante as atualizações de uma vista materializada. Por este motivo, o Databricks recomenda utilizar colunas de identidade em pipelines exclusivamente com tabelas de streaming.
Exibições materializadas e tabelas de streaming publicadas a partir de pipelines, incluindo aquelas criadas pelo Databricks SQL, podem ser acessadas somente por clientes e aplicativos do Azure Databricks. No entanto, para tornar suas exibições materializadas e tabelas de streaming acessíveis externamente, você pode usar a sink API para gravar em tabelas em uma instância Delta externa. Ver Sumidouros em Lakeflow Faísca Oleodutos Declarativos.
Há limitações para os recursos de computação do Databricks necessários para executar e consultar pipelines do Unity Catalog. Consulte os Requisitos para pipelines que publicam no Unity Catalog.
As consultas de viagem no tempo do Delta Lake são suportadas apenas com tabelas de streaming e não são suportadas com visualizações materializadas. Ver Trabalho com histórico de tabelas.
Não é possível ativar leituras do Iceberg em visualizações materializadas e tabelas de streaming.
A pivot() função não é suportada. A operação pivot no Spark requer o carregamento ansioso de dados de entrada para calcular o esquema de saída. Essa funcionalidade não é suportada em pipelines.

Para quotas de recursos dos Lakeflow Spark Declarative Pipelines, consulte Limites de recursos.

Comentários

Esta página foi útil?

Last updated on 2026-02-14

Partilhar via

Limitações do pipeline

Comentários

Recursos adicionais