Gerenciar a configuração de pipelines do Delta Live Tables

Artigo
06/17/2024

Como o Delta Live Tables automatiza complexidades operacionais como gerenciamento de infraestrutura, orquestração de tarefas, recuperação de erros e otimização de desempenho, muitos de seus pipelines podem ser executados com configuração manual mínima. No entanto, o Delta Live Tables também permite que você gerencie a configuração de pipelines que exigem configurações não padrão ou otimize o desempenho e o uso de recursos. Esses artigos fornecem detalhes sobre gerenciar a configuração dos pipelines do Delta Live Tables, incluindo configurações que determinam como os pipelines são executados, opções para a computação que executa um pipeline e gerenciamento de dependências externas, como bibliotecas Python.

Usar a computação sem servidor para executar pipelines totalmente gerenciados

Use pipelines de DLT sem servidor para executar pipelines com recursos de computação confiáveis e totalmente gerenciados. Com a computação sem servidor, a computação que executa o pipeline é automaticamente otimizada e ampliada ou reduzida com base nos recursos necessários para executar o pipeline. Os pipelines de DLT sem servidor dão suporte a recursos adicionais para melhorar o desempenho, como atualização incremental para exibições materializadas, tempo de inicialização mais rápido para recursos de computação e processamento aprimorado de cargas de trabalho de streaming. Confira Criar pipelines totalmente gerenciados usando Delta Live Tables com a computação sem servidor.

Gerenciar configurações de pipeline

A configuração de um pipeline do Delta Live Tables inclui configurações que definem o código-fonte que implementa o pipeline. Isso também inclui configurações que controlam a infraestrutura do pipeline, gerenciamento de dependência, como as atualizações são processadas e como as tabelas são salvas no workspace. A maioria das configurações é opcional, mas algumas exigem mais atenção.

Para saber mais sobre as opções de configuração para pipelines e como usá-los, consulte Definir configurações de pipeline para Delta Live Tables.

Para obter especificações detalhadas das configurações do Delta Live Tables, propriedades que controlam como as tabelas são gerenciadas e opções de computação não configuráveis, consulte Referência de propriedades do Delta Live Tables.

Gerenciar dependências externas para pipelines que usam Python

O Delta Live Tables dá suporte ao uso de dependências externas em seus pipelines, como pacotes e bibliotecas Python. Para saber mais sobre opções e recomendações para usar dependências, consulte Gerenciar dependências do Python para pipelines do Delta Live Tables.

Usar módulos Python armazenados em seu workspace do Azure Databricks

Além de implementar seu código Python em notebooks do Databricks, você pode usar pastas Git do Databricks ou arquivos de workspace para armazenar seu código como módulos Python. Armazenar o código como módulos Python é especialmente útil quando você tem funcionalidades comuns que deseja usar em diversos pipelines ou em notebooks no mesmo pipeline. Para saber como usar módulos Python com seus pipelines, consulte Importar módulos Python de pastas Git ou arquivos de workspace.

Otimizar a utilização da computação de pipeline

Use o Dimensionamento Automático Aprimorado para otimizar a utilização dos pipelines pelo cluster. O escalonamento automático aprimorado adicionará recursos somente se o sistema determinar que esses recursos aumentarão a velocidade de processamento do pipeline. Os recursos são liberados quando não são mais necessários e os clusters são desligados assim que todas as atualizações de pipeline são concluídas.

Para saber mais sobre o Dimensionamento Automático Aprimorado, incluindo detalhes de configuração, consulte Otimizar a utilização de cluster de pipelines do Delta Live Tables com Dimensionamento Automático Aprimorado.

Compartilhar via