Referência de propriedades do Delta Live Tables

Artigo
03/18/2024

Este artigo fornece uma referência para a especificação de configuração JSON Delta Live Tables e propriedades de tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:

Configurações de pipeline do Delta Live Tables

Campos
`id` Tipo: `string` Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado.
`name` Tipo: `string` Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário.
`storage` Tipo: `string` Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local. Quando a `storage` configuração não for especificada, o sistema assumirá como padrão um local em `dbfs:/pipelines/`. A `storage` configuração não pode ser alterada depois que um pipeline é criado.
`configuration` Tipo: `object` Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo tempo de execução do Delta Live Tables e estão disponíveis para consultas de pipeline por meio da configuração do Spark. Os elementos devem ser formatados como `key:value` pares.
`libraries` Tipo: `array of objects` Uma matriz de blocos de anotações contendo o código do pipeline e os artefatos necessários.
`clusters` Tipo: `array of objects` Uma matriz de especificações para os clusters executarem o pipeline. Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline.
`development` Tipo: `boolean` Um sinalizador que indica se o pipeline deve ser executado em `development` ou `production` modo. O valor predefinido é `true`
`notifications` Tipo: `array of objects` Uma matriz opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro não reprovável ou um fluxo falha.
`continuous` Tipo: `boolean` Um sinalizador que indica se o pipeline deve ser executado continuamente. O valor predefinido é `false`.
`target` Tipo: `string` O nome de um banco de dados para dados de saída de pipeline persistentes. A definição `target` permite que você exiba e consulte os dados de saída do pipeline da interface do usuário do Azure Databricks.
`channel` Tipo: `string` A versão do tempo de execução do Delta Live Tables a ser usada. Os valores suportados são: * `preview` para testar seu pipeline com alterações futuras na versão de tempo de execução. * `current` para usar a versão de tempo de execução atual. O campo `channel` é opcional. O valor padrão é `current`. O Databricks recomenda o uso da versão atual do tempo de execução para cargas de trabalho de produção.
`edition` Escreva `string` A edição do produto Delta Live Tables para executar o pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline: * `CORE` para executar cargas de trabalho de ingestão de streaming. * `PRO` para executar cargas de trabalho CDC (streaming ingest and change data capture). * `ADVANCED` para executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de dados. O campo `edition` é opcional. O valor padrão é `ADVANCED`.
`photon` Tipo: `boolean` Um sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não Photon. O campo `photon` é opcional. O valor predefinido é `false`.
`pipelines.maxFlowRetryAttempts` Tipo: `int` O número máximo de tentativas de repetir um fluxo antes de falhar uma atualização de pipeline quando ocorre uma falha que pode ser repetida. O valor padrão é dois. Por padrão, quando ocorre uma falha que pode ser repetida, o tempo de execução do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original.
`pipelines.numUpdateRetryAttempts` Tipo: `int` O número máximo de tentativas de repetir uma atualização antes de falhar a atualização quando ocorre uma falha que pode ser repetida. A nova tentativa é executada como uma atualização completa. O padrão é cinco. Este parâmetro aplica-se apenas a atualizações acionadas executadas no modo de produção. Não há nova tentativa quando o pipeline é executado no modo de desenvolvimento.

Propriedades da tabela Delta Live Tables

Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.

Propriedades da tabela
`pipelines.autoOptimize.managed` Predefinição: `true` Habilita ou desabilita a otimização agendada automaticamente desta tabela.
`pipelines.autoOptimize.zOrderCols` Padrão: Nenhum Uma cadeia de caracteres opcional que contém uma lista separada por vírgulas de nomes de colunas para ordenar z esta tabela por. Por exemplo, `pipelines.autoOptimize.zOrderCols = "year,month"`
`pipelines.reset.allowed` Predefinição: `true` Controla se uma atualização completa é permitida para esta tabela.

Propriedades da tabela CDC

nota:: Essas propriedades para controlar o comportamento de gerenciamento de marca de exclusão foram preteridas e substituídas por configurações de pipeline. Quaisquer pipelines novos ou existentes devem usar as novas configurações de pipeline. Consulte Controlar o gerenciamento de lápides para consultas SCD tipo 1.

As propriedades da tabela a seguir são adicionadas para controlar o comportamento do gerenciamento de lápides para DELETE eventos ao usar o CDC:

Propriedades da tabela
`pipelines.cdc.tombstoneGCThresholdInSeconds` Predefinição: 5 minutos Defina esse valor para corresponder ao maior intervalo esperado entre dados fora de ordem.
`pipelines.cdc.tombstoneGCFrequencyInSeconds` Padrão: 60 segundos Controla a frequência com que as lápides são verificadas para limpeza.

Consulte APPLY CHANGES API: Simplifique a captura de dados de alteração no Delta Live Tables.

Intervalo de gatilho de pipelines

Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline Delta Live Tables ou como parte de uma declaração de conjunto de dados. Consulte Intervalo de gatilho de pipelines.

`pipelines.trigger.interval`
O padrão é baseado no tipo de fluxo: * Cinco segundos para consultas de streaming. * Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. * dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta. O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes: * `second`, `seconds` * `minute`, `minutes` * `hour`, `hours` * `day`, `days` Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: * `{"pipelines.trigger.interval" : "1 hour"}` * `{"pipelines.trigger.interval" : "10 seconds"}` * `{"pipelines.trigger.interval" : "30 second"}` * `{"pipelines.trigger.interval" : "1 minute"}` * `{"pipelines.trigger.interval" : "10 minutes"}` * `{"pipelines.trigger.interval" : "10 minute"}`

pipelines.trigger.interval

O padrão é baseado no tipo de fluxo:

* Cinco segundos para consultas de streaming.
* Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta.
* dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta.

O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Você pode usar a unidade singular ou plural ao definir o valor, por exemplo:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atributos de cluster que não são configuráveis pelo usuário

Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas pelo Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.

Campos
`cluster_name` Delta Live Tables define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos.
`data_security_mode` `access_mode` Estes valores são definidos automaticamente pelo sistema.
`spark_version` Os clusters das Tabelas Dinâmicas Delta são executados numa versão personalizada do Databricks Runtime que é continuamente atualizada para incluir as funcionalidades mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída.
`autotermination_minutes` Como o Delta Live Tables gerencia a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser substituído.
`runtime_engine` Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente.
`effective_spark_version` Este valor é definido automaticamente pelo sistema.
`cluster_source` Este campo é definido pelo sistema e é somente leitura.
`docker_image` Como o Delta Live Tables gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline.
`workload_type` Esse valor é definido pelo sistema e não pode ser substituído.

Partilhar via