Criar pipelines totalmente gerenciados usando Tabelas Dinâmicas Delta com computação sem servidor

Artigo
08/29/2024

Observação

Para obter informações sobre qualificação e habilitação para pipelines DLT sem servidor, consulte Habilitar computação sem servidor.
Se você precisar usar uma conexão de Link Privado do Azure com seus pipelines DLT sem servidor, entre em contato com seu representante do Databricks.

Este artigo explica como usar o Delta Live Tables com computação sem servidor para executar as atualizações de pipeline com computação totalmente gerenciada e detalha os recursos de computação sem servidor que melhoram o desempenho dos pipelines.

Use pipelines DLT sem servidor para executar pipelines do Delta Live Tables sem configurar e implantar infraestrutura. Com pipelines DLT sem servidor, você se concentra na implementação da transformação e ingestão de dados e o Azure Databricks gerencia com eficiência os recursos de computação, incluindo a otimização e escala de computação para as cargas de trabalho. Os pipelines DLT sem servidor incluem os seguintes recursos:

Computação otimizada automaticamente que executará somente quando necessário.
Recursos de computação confiáveis e totalmente gerenciados.
Atualizações de conjuntos de dados mais eficientes com atualização incremental para exibições materializadas.
Inicialização mais rápida para os recursos de computação que executam uma atualização de pipeline.

Os pipelines DLT sem servidor também possuem os seguintes recursos para otimizar o desempenho de processamento de pipelines, dar suporte ao uso mais eficiente de recursos de computação e ajudar a reduzir o custo de execução do pipeline:

Pipelining de fluxo: para melhorar a utilização, a taxa de transferência e a latência para o fluxo de cargas de trabalho de dados, como ingestão de dados, os microlotes executam em pipelines. Em outras palavras, em vez de executar microlotes sequencialmente como o Spark Structured Streaming padrão, os pipelines DLT sem servidor executam microlotes simultaneamente, levando a uma melhor utilização dos recursos de computação. O pipelining de fluxo é habilitado por padrão em pipelines DLT sem servidor.
Dimensionamento automático vertical: os pipelines DLT sem servidor são adicionados ao dimensionamento automático horizontal fornecido pelo Dimensionamento Automático Avançado do Databricks alocando automaticamente os tipos de instância mais econômicos que podem executar o pipeline do Delta Live Tables sem falhar devido a erros de memória insuficiente. Consulte O que é dimensionamento automático vertical?

Como a permissão de criação de cluster não é necessária, todos os usuários do workspace podem usar pipelines DLT sem servidor para executar os fluxos de trabalho.

Requisitos

Para usar pipelines DLT sem servidor, o workspace deverá ter o Unity Catalog habilitado.
O workspace deve estar em uma região habilitada para uso sem servidor.

Executar uma atualização de pipeline com pipelines DLT sem servidor

Importante

Como os recursos de computação são totalmente gerenciados para pipelines DLT sem servidor, as configurações de computação não estão disponíveis na interface do usuário do Delta Live Tables para um pipeline sem servidor. Quando você habilitar sem servidor, todas as configurações de computação configuradas para um pipeline serão removidas. Se você alternar um pipeline de volta para atualizações sem servidor, essas configurações de computação deverão ser adicionadas novamente à configuração do pipeline. Além disso, não será possível adicionar manualmente as configurações de computação em um objeto clusters na configuração JSON do pipeline.

Para executar uma atualização de pipeline que usa pipelines DLT sem servidor, marque a caixa de seleção Sem servidor quando você criar ou editar um pipeline.

Como as exibições materializadas são atualizadas em pipelines DLT sem servidor?

Para exibições materializadas em um pipeline sem servidor os resultados da consulta serão atualizados de forma incremental, quando possível. Quando uma atualização incremental executar, os resultados serão equivalentes a uma recomputação completa. Se a exibição materializada não puder ser atualizada incrementalmente, o processo de atualização usará uma atualização completa. Confira Operações de atualização para exibições materializadas.

O que é dimensionamento automático vertical?

O dimensionamento automático vertical de pipelines DLT sem servidor aloca automaticamente os tipos de instância disponíveis mais econômicos para executar atualizações de pipeline do Delta Live Tables sem falhar devido a erros de memória insuficiente. O dimensionamento automático vertical escala verticalmente quando tipos de instância maiores são necessários para executar uma atualização de pipeline e também reduz verticalmente quando determina que a atualização pode executar com tipos de instância menores. O dimensionamento automático vertical determina se os nós de driver, os nós de trabalho ou ambos os nós de driver e de trabalho devem escalar verticalmente ou reduzir verticalmente.

O dimensionamento automático vertical é utilizado por todos os pipelines DLT sem servidor, incluindo os pipelines usados pelas exibições materializadas do SQL do Databricks e tabelas de fluxo.

O dimensionamento automático vertical funciona detectando as atualizações de pipeline que falharam devido a erros de memória insuficiente. Quando essas falhas são detectadas, o dimensionamento automático vertical aloca os tipos de instância maiores com base nos dados de memória insuficiente coletados na atualização com falha. No modo de produção, uma nova atualização que utiliza os novos recursos de computação iniciará automaticamente. No modo de desenvolvimento, os novos recursos de computação serão utilizados quando você iniciar uma nova atualização manualmente.

Se o dimensionamento automático vertical detectar que a memória das instâncias alocadas está consistentemente subutilizada, ele reduzirá os tipos de instância que serão utilizadas na próxima atualização do pipeline.

Como posso encontrar o uso de DBU de um pipeline sem servidor?

Você pode encontrar o uso de DBU de pipelines DLT sem servidor consultando a tabela de uso faturável, parte das tabelas do sistema do Azure Databricks. Confira Qual é o consumo de DBU de um pipeline DLT sem servidor?.

Compartilhar via