Ler em inglês

Compartilhar via


Referência de propriedades do Delta Live Tables

Esse artigo fornece uma referência para a especificação de configuração JSON das Tabelas Dinâmicas Delta e as propriedades da tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline das Tabelas Dinâmicas Delta.

Campos
id

Digite: string

Um identificador globalmente exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
name

Digite: string

Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário.
storage

Digite: string

Um local no DBFS ou no armazenamento em nuvem em que os dados de saída e os metadados necessários para a execução do pipeline são armazenados. As tabelas e os metadados são armazenados em subdiretórios desse local.

Quando a configuração storage não for especificada, o sistema usará como padrão local em dbfs:/pipelines/.

A configuração storage não pode ser alterada depois que um pipeline é criado.
configuration

Digite: object

Uma lista opcional de configurações a serem adicionadas à configuração do Spark no cluster que executará o pipeline. Essas configurações são lidas pelo runtime das Tabelas Dinâmicas Delta e estão disponíveis para consultas de pipeline por meio da configuração do Spark.

Os elementos precisam ser formatados como pares key:value.
libraries

Digite: array of objects

Uma matriz de notebooks que contém o código do pipeline e os artefatos necessários.
clusters

Digite: array of objects

Uma matriz de especificações para os clusters executarem o pipeline.

Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
development

Digite: boolean

Um sinalizador que indica onde o pipeline deve ser executado
Modo development ou production.

O valor padrão é true
notifications

Digite: array of objects

Uma matriz opcional de especificações para notificações por email quando uma atualização de pipeline é concluída, falha com um erro repetível, falha com um erro não repetível ou um fluxo falha.
continuous

Digite: boolean

Um sinalizador que indica se o pipeline deve ser executado continuamente.

O valor padrão é false.
target

Digite: string

O nome de um banco de dados para manter os dados de saída do pipeline. Se você definir a configuração target, poderá ver e consultar os dados de saída do pipeline na interface do usuário do Azure Databricks.
channel

Digite: string

A versão do runtime do Delta Live Tables a ser usada. Os valores com suporte são:

- preview para testar seu pipeline com as próximas alterações na versão do runtime.
- current para usar a versão de runtime atual.

O campo channel é opcional. O valor padrão é
current. O Databricks recomenda usar a versão atual do runtime para cargas de trabalho de produção.
edition

Tipo string

A edição do produto Delta Live Tables para executar o pipeline. A configuração permite escolher a melhor edição do produto com base nos requisitos do pipeline:

- CORE para executar cargas de trabalho de ingestão de fluxo.
- PRO para executar cargas de trabalho de CDC (captura de dados de alterações) e de ingestão de fluxo.
- ADVANCED para executar cargas de trabalho de ingestão de fluxo, cargas de trabalho de CDC e cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de dados.

O campo edition é opcional. O valor padrão é
ADVANCED.
photon

Digite: boolean

Um sinalizador que indica se O que é o Photon? deve ser usado para executar o pipeline. O Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para ele são cobrados a uma taxa diferente dos pipelines que não se destinam ao Photon.

O campo photon é opcional. O valor padrão é false.
pipelines.maxFlowRetryAttempts

Digite: int

O número máximo de tentativas para repetir um fluxo antes de falhar em uma atualização de pipeline quando ocorrer uma falha repetível.

O valor padrão é duas. Por padrão, quando ocorre uma falha repetível, o runtime do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original.
pipelines.numUpdateRetryAttempts

Digite: int

O número máximo de tentativas para repetir uma atualização antes de falhar em uma atualização quando ocorrer uma falha repetível. A repetição é executada como uma atualização completa.

O padrão é cinco. Esse parâmetro se aplicam somente a atualizações disparadas no modo de produção. Não há repetição quando o pipeline é executado no modo de desenvolvimento.

Propriedades da tabela das Tabelas Dinâmicas Delta

Além das propriedades da tabela com suporte do Delta Lake, você pode definir as propriedades da tabela a seguir.

Propriedades da tabela
pipelines.autoOptimize.managed

Padrão: true

Habilita ou desabilita a otimização agendada automática desta tabela.
pipelines.autoOptimize.zOrderCols

Padrão: nenhum

Uma cadeia de caracteres opcional que contém uma lista separada por vírgula de nomes de colunas para ordenar essa tabela pela ordem z. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Padrão: true

Controla se uma atualização completa é permitida nessa tabela.

Intervalo de gatilho de pipelines

Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline das Tabelas Dinâmicas Delta ou como parte de uma declaração de conjunto de dados. Consulte Definir intervalo de gatilho para pipelines contínuos.

pipelines.trigger.interval
O padrão é baseado no tipo de fluxo:

- Cinco segundos para consultas de streaming.
- Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
- Dez minutos para consultas completas quando algumas fontes de dados podem não ser Delta.

O valor é um número mais a unidade de tempo. Estas são as unidades de tempo válidas:

- second, seconds
- minute, minutes
- hour, hours
- day, days

Você pode usar a unidade no singular ou no plural ao definir o valor, por exemplo:

- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas por Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
cluster_name

As Tabelas Dinâmicas Delta definem os nomes dos clusters usados para executar atualizações de pipeline. Esses nomes não podem ser substituídos.
data_security_mode
access_mode

Esses valores são definidos automaticamente pelo sistema.
spark_version

Os clusters das Tabelas Dinâmicas Delta são executados em uma versão personalizada do Databricks Runtime que é atualizada continuamente para incluir os recursos mais recentes. A versão do Spark é agrupada com a versão do Databricks Runtime e não pode ser substituída.
autotermination_minutes

Como as Tabelas Dinâmicas Delta gerenciam o encerramento automático do cluster e a lógica de reutilização, o tempo de encerramento automático do cluster não pode ser substituído.
runtime_engine

Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
effective_spark_version

Esse valor é definido automaticamente pelo sistema.
cluster_source

Esse campo é definido pelo sistema e é somente leitura.
docker_image

Como as Tabelas Dinâmicas Delta gerenciam o ciclo de vida do cluster, você não pode usar um contêiner personalizado com clusters de pipeline.
workload_type

Esse valor é definido pelo sistema e não pode ser substituído.