Referência de propriedades do Delta Live Tables
Este artigo fornece uma referência para a especificação de configuração JSON Delta Live Tables e propriedades de tabela no Azure Databricks. Para obter mais detalhes sobre como usar essas várias propriedades e configurações, consulte os seguintes artigos:
Configurações de pipeline do Delta Live Tables
Campos |
---|
id Tipo: string Um identificador global exclusivo para esse pipeline. O identificador é atribuído pelo sistema e não pode ser alterado. |
name Tipo: string Um nome amigável para esse pipeline. O nome pode ser usado para identificar trabalhos de pipeline na interface do usuário. |
storage Tipo: string Um local no DBFS ou armazenamento em nuvem onde os dados de saída e metadados necessários para a execução do pipeline são armazenados. Tabelas e metadados são armazenados em subdiretórios deste local. Quando a storage configuração não for especificada, o sistema assumirá como padrão um local em dbfs:/pipelines/ .A storage configuração não pode ser alterada depois que um pipeline é criado. |
configuration Tipo: object Uma lista opcional de configurações a serem adicionadas à configuração do Spark do cluster que executará o pipeline. Essas configurações são lidas pelo tempo de execução do Delta Live Tables e estão disponíveis para consultas de pipeline por meio da configuração do Spark. Os elementos devem ser formatados como key:value pares. |
libraries Tipo: array of objects Uma matriz de blocos de anotações contendo o código do pipeline e os artefatos necessários. |
clusters Tipo: array of objects Uma matriz de especificações para os clusters executarem o pipeline. Se isso não for especificado, os pipelines selecionarão automaticamente uma configuração de cluster padrão para o pipeline. |
development Tipo: boolean Um sinalizador que indica se o pipeline deve ser executado em development ou production modo.O valor predefinido é true |
notifications Tipo: array of objects Uma matriz opcional de especificações para notificações por e-mail quando uma atualização de pipeline é concluída, falha com um erro que pode ser repetido, falha com um erro não reprovável ou um fluxo falha. |
continuous Tipo: boolean Um sinalizador que indica se o pipeline deve ser executado continuamente. O valor predefinido é false . |
target Tipo: string O nome de um banco de dados para dados de saída de pipeline persistentes. A definição target permite que você exiba e consulte os dados de saída do pipeline da interface do usuário do Azure Databricks. |
channel Tipo: string A versão do tempo de execução do Delta Live Tables a ser usada. Os valores suportados são: * preview para testar seu pipeline com alterações futuras na versão de tempo de execução.* current para usar a versão de tempo de execução atual.O campo channel é opcional. O valor padrão écurrent . O Databricks recomenda o uso da versão atual do tempo de execução para cargas de trabalho de produção. |
edition Escreva string A edição do produto Delta Live Tables para executar o pipeline. Essa configuração permite que você escolha a melhor edição do produto com base nos requisitos do seu pipeline: * CORE para executar cargas de trabalho de ingestão de streaming.* PRO para executar cargas de trabalho CDC (streaming ingest and change data capture).* ADVANCED para executar cargas de trabalho de ingestão de streaming, cargas de trabalho CDC e cargas de trabalho que exigem expectativas do Delta Live Tables para impor restrições de qualidade de dados.O campo edition é opcional. O valor padrão éADVANCED . |
photon Tipo: boolean Um sinalizador que indica se deve ser usado O que é Photon? para executar o pipeline. Photon é o mecanismo Spark de alto desempenho do Azure Databricks. Os pipelines habilitados para Photon são cobrados a uma taxa diferente dos pipelines não Photon. O campo photon é opcional. O valor predefinido é false . |
pipelines.maxFlowRetryAttempts Tipo: int O número máximo de tentativas de repetir um fluxo antes de falhar uma atualização de pipeline quando ocorre uma falha que pode ser repetida. O valor padrão é dois. Por padrão, quando ocorre uma falha que pode ser repetida, o tempo de execução do Delta Live Tables tenta executar o fluxo três vezes, incluindo a tentativa original. |
pipelines.numUpdateRetryAttempts Tipo: int O número máximo de tentativas de repetir uma atualização antes de falhar a atualização quando ocorre uma falha que pode ser repetida. A nova tentativa é executada como uma atualização completa. O padrão é cinco. Este parâmetro aplica-se apenas a atualizações acionadas executadas no modo de produção. Não há nova tentativa quando o pipeline é executado no modo de desenvolvimento. |
Propriedades da tabela Delta Live Tables
Além das propriedades de tabela suportadas pelo Delta Lake, você pode definir as seguintes propriedades de tabela.
Propriedades da tabela |
---|
pipelines.autoOptimize.managed Predefinição: true Habilita ou desabilita a otimização agendada automaticamente desta tabela. |
pipelines.autoOptimize.zOrderCols Padrão: Nenhum Uma cadeia de caracteres opcional que contém uma lista separada por vírgulas de nomes de colunas para ordenar z esta tabela por. Por exemplo, pipelines.autoOptimize.zOrderCols = "year,month" |
pipelines.reset.allowed Predefinição: true Controla se uma atualização completa é permitida para esta tabela. |
Propriedades da tabela CDC
nota:: Essas propriedades para controlar o comportamento de gerenciamento de marca de exclusão foram preteridas e substituídas por configurações de pipeline. Quaisquer pipelines novos ou existentes devem usar as novas configurações de pipeline. Consulte Controlar o gerenciamento de lápides para consultas SCD tipo 1.
As propriedades da tabela a seguir são adicionadas para controlar o comportamento do gerenciamento de lápides para DELETE
eventos ao usar o CDC:
Propriedades da tabela |
---|
pipelines.cdc.tombstoneGCThresholdInSeconds Predefinição: 5 minutos Defina esse valor para corresponder ao maior intervalo esperado entre dados fora de ordem. |
pipelines.cdc.tombstoneGCFrequencyInSeconds Padrão: 60 segundos Controla a frequência com que as lápides são verificadas para limpeza. |
Consulte APPLY CHANGES API: Simplifique a captura de dados de alteração no Delta Live Tables.
Intervalo de gatilho de pipelines
Você pode especificar um intervalo de gatilho de pipeline para todo o pipeline Delta Live Tables ou como parte de uma declaração de conjunto de dados. Consulte Intervalo de gatilho de pipelines.
pipelines.trigger.interval |
---|
O padrão é baseado no tipo de fluxo: * Cinco segundos para consultas de streaming. * Um minuto para consultas completas quando todos os dados de entrada são de fontes Delta. * dez minutos para consultas completas quando algumas fontes de dados podem ser não-Delta. O valor é um número mais a unidade de tempo. As unidades de tempo válidas são as seguintes: * second , seconds * minute , minutes * hour , hours * day , days Você pode usar a unidade singular ou plural ao definir o valor, por exemplo: * {"pipelines.trigger.interval" : "1 hour"} * {"pipelines.trigger.interval" : "10 seconds"} * {"pipelines.trigger.interval" : "30 second"} * {"pipelines.trigger.interval" : "1 minute"} * {"pipelines.trigger.interval" : "10 minutes"} * {"pipelines.trigger.interval" : "10 minute"} |
Atributos de cluster que não são configuráveis pelo usuário
Como o Delta Live Tables gerencia ciclos de vida de cluster, muitas configurações de cluster são definidas pelo Delta Live Tables e não podem ser configuradas manualmente pelos usuários, seja em uma configuração de pipeline ou em uma política de cluster usada por um pipeline. A tabela a seguir lista essas configurações e por que elas não podem ser definidas manualmente.
Campos |
---|
cluster_name Delta Live Tables define os nomes dos clusters usados para executar atualizações de pipeline. Estes nomes não podem ser substituídos. |
data_security_mode access_mode Estes valores são definidos automaticamente pelo sistema. |
spark_version Os clusters das Tabelas Dinâmicas Delta são executados numa versão personalizada do Databricks Runtime que é continuamente atualizada para incluir as funcionalidades mais recentes. A versão do Spark é fornecida com a versão do Databricks Runtime e não pode ser substituída. |
autotermination_minutes Como o Delta Live Tables gerencia a lógica de reutilização e terminação automática do cluster, o tempo de terminação automática do cluster não pode ser substituído. |
runtime_engine Embora você possa controlar esse campo habilitando o Photon para seu pipeline, não é possível definir esse valor diretamente. |
effective_spark_version Este valor é definido automaticamente pelo sistema. |
cluster_source Este campo é definido pelo sistema e é somente leitura. |
docker_image Como o Delta Live Tables gerencia o ciclo de vida do cluster, não é possível usar um contêiner personalizado com clusters de pipeline. |
workload_type Esse valor é definido pelo sistema e não pode ser substituído. |