Partilhar via


Limitações do pipeline

A seguir estão as limitações dos Lakeflow Spark Declarative Pipelines que é importante saber ao desenvolver seus pipelines:

  • Um espaço de trabalho do Azure Databricks é limitado a 200 atualizações de pipeline simultâneas. O número de conjuntos de dados que um único pipeline pode conter é determinado pela configuração do pipeline e pela complexidade da carga de trabalho.
  • Os conjuntos de dados de pipeline podem ser definidos apenas uma vez. Por isso, eles podem ser alvo de apenas uma única operação em todos os gasodutos. A exceção são as tabelas de streaming com processamento de fluxo de acréscimo, que permite gravar na tabela de streaming a partir de várias fontes de streaming. Consulte Usando vários fluxos para gravar em um único destino.
  • As colunas de identidade têm as seguintes limitações. Para saber mais sobre colunas de identidade em tabelas Delta, consulte Usar colunas de identidade no Delta Lake.
    • As colunas de identidade não são suportadas com tabelas que são o alvo do processamento AUTO CDC.
    • As colunas de identidade podem ser recalculadas durante as atualizações de uma vista materializada. Por este motivo, o Databricks recomenda utilizar colunas de identidade em pipelines exclusivamente com tabelas de streaming.
  • Exibições materializadas e tabelas de streaming publicadas a partir de pipelines, incluindo aquelas criadas pelo Databricks SQL, podem ser acessadas somente por clientes e aplicativos do Azure Databricks. No entanto, para tornar suas exibições materializadas e tabelas de streaming acessíveis externamente, você pode usar a sink API para gravar em tabelas em uma instância Delta externa. Ver Sumidouros em Lakeflow Faísca Oleodutos Declarativos.
  • Há limitações para os recursos de computação do Databricks necessários para executar e consultar pipelines do Unity Catalog. Consulte os Requisitos para pipelines que publicam no Unity Catalog.
  • As consultas de viagem no tempo do Delta Lake são suportadas apenas com tabelas de streaming e não são suportadas com visualizações materializadas. Ver Trabalho com histórico de tabelas.
  • Não é possível ativar leituras do Iceberg em visualizações materializadas e tabelas de streaming.
  • A pivot() função não é suportada. A operação pivot no Spark requer o carregamento ansioso de dados de entrada para calcular o esquema de saída. Essa funcionalidade não é suportada em pipelines.