Partilhar via


Notas de lançamento dos Lakeflow Spark Declarative Pipelines 2026

As seguintes funcionalidades, melhorias e correções de bugs do Lakeflow Spark Declarative Pipelines foram lançadas em 2026.

Observação

Como as liberações do canal Lakeflow Spark Declarative Pipelines seguem um processo de atualização contínua, as atualizações de canal são implantadas em diferentes regiões em momentos diferentes. Sua versão, incluindo as versões do Databricks Runtime, pode não ser atualizada até uma semana ou mais após a data de lançamento inicial. Para encontrar a versão atual do Databricks Runtime para um pipeline, veja Runtime information.

Março de 2026

Estas funcionalidades e melhorias nos Lakeflow Spark Declarative Pipelines foram lançadas entre 26 de fevereiro de 2026 e 31 de março de 2026.

Versões do Databricks Runtime usadas por esta versão

As versões seguintes estavam atualizadas até 31 de março de 2026.

Canal:

  • CURRENT (predefinido): Databricks Runtime 17.3.8
  • PRÉ-VISUALIZAÇÃO: Databricks Runtime 18.1.0

Novos recursos e melhorias

  • Os pipelines serverless agora suportam o escalonamento automático vertical baseado em CPU. A funcionalidade ajusta dinamicamente os recursos do cluster com base na utilização real da CPU para melhorar a estabilidade da carga de trabalho.
  • Agora pode manter as tabelas do Catálogo Unity ao eliminar um pipeline, preservando os seus ativos de dados mesmo após a remoção do pipeline. Isto dá-lhe maior flexibilidade na gestão dos ciclos de vida dos pipelines sem risco de perda de dados.
  • Agora pode criar tabelas de streaming usando a nova sintaxe de fluxo, que fornece uma forma mais direta e declarativa de definir pipelines de dados em fluxo. Isto simplifica a criação de pipelines e está alinhado com os padrões atuais de engenharia de dados.
  • Os ganchos de pipeline estão agora disponíveis para pipelines ativados por jobs. Use-os para executar lógica personalizada antes e depois das atualizações do pipeline dentro dos Lakeflow Jobs. Os hooks de 'pipeline' estendem as capacidades de automação para o processamento de dados orquestrados.
  • Os pipelines agora preservam as configurações de filtro de linhas e máscaras de coluna durante as atualizações das tabelas, garantindo assim que as políticas de segurança do Unity Catalog permanecem intactas durante as atualizações dos pipelines. Isto evita a remoção acidental de políticas de segurança durante a evolução do esquema.
  • As alterações aplicadas pelo CDC agora suportam o modo de rebase em data-hora. A funcionalidade gere corretamente as conversões de carimbo temporal entre sistemas de calendário antigos e modernos. Isto evita inconsistências de dados ao processar dados de data e hora históricos através de fluxos de captação de dados de alteração.
  • Agora pode usar instruções SQL nas operações foreachBatch em pipelines de streaming, permitindo uma lógica de processamento micro-batch mais flexível. Isto remove limitações anteriores que exigiam Python ou Scala para o tratamento personalizado de lotes.
  • Os pipelines agora suportam referências antecipadas no registo de destinos. Pode definir fluxos de dados que referenciam tabelas subsequentes antes destas serem declaradas. Isto simplifica definições complexas de fluxos de trabalho e remove restrições de ordenação.
  • Os fluxos append-once são agora validados durante os ensaios a seca, detetando erros de configuração antes do início da execução do pipeline. Isto melhora a experiência de desenvolvimento ao identificar problemas mais cedo no fluxo de trabalho de criação do pipeline.

Correções de erros

Não foram incluídas correções de bugs significativas neste período de lançamento. Todas as alterações foram novas funcionalidades e melhorias.

Fevereiro de 2026

Estas funcionalidades e melhorias aos Lakeflow Spark Declarative Pipelines foram lançadas entre 14 de janeiro de 2026 e 25 de fevereiro de 2026.

Versões do Databricks Runtime usadas por esta versão

As versões seguintes estavam atualizadas até 25 de fevereiro de 2026.

Canal:

  • CURRENT (predefinido): Databricks Runtime 17.3
  • PRÉ-VISUALIZAÇÃO: Databricks Runtime 17.3

Novos recursos e melhorias

  • Os pipelines suportam agora o alargamento de tipos para tabelas Delta, permitindo que os tipos de dados das colunas sejam alargados de forma segura (por exemplo, INT para LONG, FLOAT para DOUBLE) sem necessidade de um reset total do pipeline. Isto permite fluxos de trabalho de evolução de esquemas que anteriormente exigiam intervenção manual.
  • Agora pode usar a materialização SCD Tipo 1 com AUTO CDC, fornecendo um padrão CDC mais simples que eleva o valor mais recente sem manter o histórico completo de alterações. Isto reduz a sobrecarga de armazenamento para casos de uso que não exigem histórico completo.
  • Os pipelines agora reutilizam clusters existentes ao tentar atualizações com falhas, reduzindo a latência de novas tentativas e diminuindo os custos de computação ao eliminar o tempo redundante de inicialização de clusters.
  • A ativação da otimização preditiva é agora exibida corretamente em visualizações materializadas e tabelas de streaming, caso tenham sido atualizadas no último mês.
  • Os pipelines agora validam múltiplos fluxos em simultâneo, detetando conflitos de configuração e problemas de dependência entre fluxos durante a fase de teste antes do início da execução.
  • Metadados alteráveis são agora preservados ao longo das atualizações do pipeline de ingestão, permitindo suporte completo aos comandos 'ALTER' nas tabelas de streaming.
  • Os erros em Python em pipelines agora incluem códigos de estado SQL, melhorando o diagnóstico de erros e permitindo um melhor tratamento programático de erros em ferramentas subsequentes.
  • Os pipelines suportam agora instâncias ARM para computação clássica.

Correções de erros

  • Os valores das colunas de identidade nas tabelas de fluxo apenas adicionáveis são agora gerados corretamente na primeira atualização.

Janeiro de 2026

Estas funcionalidades e melhorias aos Lakeflow Spark Declarative Pipelines foram lançadas entre 14 de novembro de 2025 e 13 de janeiro de 2026.

Versões do Databricks Runtime usadas por esta versão

As versões seguintes estavam atualizadas a 13 de janeiro de 2026.

Canal:

  • CURRENT (predefinido): Databricks Runtime 17.3
  • PRÉ-VISUALIZAÇÃO: Databricks Runtime 17.3

Novos recursos e melhorias

  • Agora pode armazenar e gerir as expectativas de qualidade dos dados diretamente nas tabelas do Unity Catalog, centralizando as regras de qualidade dos dados com o seu framework de governação de dados. Isto permite regras de qualidade passíveis de auditoria e com controlo de versões que podem ser partilhadas por várias pipelines.

  • Pipelines contínuos com mais de 7 dias agora reiniciam de forma gradual, com tempo de inatividade mínimo e uma causa explícita de atualização (INFRASTRUCTURE_MAINTENANCE), em vez de reiniciarem abruptamente quando o cálculo subjacente precisa de ser atualizado.

  • Os pipelines suportam agora o modo de execução em fila, onde múltiplos pedidos de atualização são automaticamente enfileirados e executados sequencialmente em vez de falharem devido a conflitos. Isto simplifica as operações para pipelines com gatilhos frequentes de atualização e elimina a necessidade de coordenação manual de novas tentativas.

  • Agora pode materializar múltiplas vistas SCD Tipo 2 a partir de uma única fonte de dados de alteração, melhorando a eficiência ao criar múltiplas vistas históricas dos mesmos dados. Isto elimina a necessidade de reprocessar os dados fonte para cada saída SCD Tipo 2.

  • Os agendamentos e configurações do pipeline podem agora ser armazenados e lidos a partir das propriedades das tabelas do Unity Catalog, permitindo a gestão centralizada de definições através da governação de dados. Isto permite-lhe gerir o comportamento do pipeline juntamente com as definições dos seus dados.

  • MANAGE as permissões são agora automaticamente propagadas para vistas materializadas e tabelas de streaming no Unity Catalog, simplificando a gestão de permissões para saídas de pipeline. Isto garante um controlo de acesso consistente sem autorizações manuais.

  • As operações SCD Tipo 2 agora coalescem automaticamente registos duplicados com a mesma chave natural, garantindo consistência dos dados e prevenindo registos históricos duplicados nas suas tabelas de dimensões que mudam lentamente.

  • Os pipelines têm agora uma opção para eliminar automaticamente tabelas inativas que já não fazem parte da definição do pipeline. Isto ajuda a manter armazéns de dados limpos e reduz os custos de armazenamento provenientes de tabelas obsoletas. Consulte Utilizar o catálogo Unity com pipelines.

  • A definição do pipeline, as operações de correção e as alterações de identidade de execução estão agora incluídas no registo de auditoria, proporcionando um acompanhamento abrangente das alterações de configuração para monitorização de conformidade e segurança. Consulte Log de eventos do pipeline.

Correções de erros

Não foram incluídas correções de bugs significativas neste período de lançamento. Todas as alterações foram novas funcionalidades e melhorias.