Compartir a través de


Referencia de propiedades de Delta Live Tables

En este artículo se proporciona una referencia para la especificación de configuración JSON de Delta Live Tables y las propiedades de tabla en Azure Databricks. Para obtener más información sobre el uso de estas diversas propiedades y configuraciones, consulte los siguientes artículos:

Configuraciones de canalización de Delta Live Tables

Fields
id

Escriba: string

Identificador único global de esta canalización. El sistema asigna el identificador y no se puede cambiar.
name

Tipo: string

Un nombre descriptivo para esta canalización. El nombre se puede usar para identificar los trabajos de canalización en la interfaz de usuario.
storage

Tipo: string

Ubicación en DBFS o almacenamiento en la nube donde se almacenan los datos de salida y los metadatos necesarios para la ejecución de la canalización. Las tablas y los metadatos se almacenan en subdirectorios de esta ubicación.

Cuando no se especifica el valor storage, el sistema lo establecerá de forma predeterminada en una ubicación en dbfs:/pipelines/.

El valor storage no se puede cambiar después de crear una canalización.
configuration

Tipo: object

Una lista opcional de opciones para agregar a la configuración de Spark del clúster que ejecutará la canalización. Estos valores se leen en el entorno de ejecución de Delta Live Tables y están disponible para las consultas de canalización mediante la configuración de Spark.

Los elementos deben tener el formato de pares de key:value.
libraries

Tipo: array of objects

Matriz de cuadernos que contiene el código de canalización y los artefactos necesarios.
clusters

Tipo: array of objects

Matriz de especificaciones para que los clústeres ejecuten la canalización.

Si no se especifica, las canalizaciones seleccionarán automáticamente una configuración de clúster predeterminada para la canalización.
development

Tipo: boolean

Marca que indica si se debe ejecutar la canalización en
modo development o production.

El valor predeterminado es true
notifications

Tipo: array of objects

Una matriz opcional de especificaciones para las notificaciones por correo electrónico cuando se completa una actualización de canalización, produce un error que se puede reintentar, se produce un error que no se puede reintentar o se produce un error en un flujo.
continuous

Tipo: boolean

Marca que indica si se debe ejecutar la canalización continuamente.

El valor predeterminado es false.
target

Tipo: string

Nombre de una base de datos para conservar los datos de salida de la canalización. La configuración de target permite ver y consultar los datos de salida de la canalización desde la interfaz de usuario de Azure Databricks.
channel

Tipo: string

Versión del entorno de ejecución de Delta Live Tables que se va a usar. Los valores admitidos son:

* preview para probar la canalización con los próximos cambios en la versión del entorno de ejecución.
* current para usar la versión actual del entorno de ejecución.

El campo channel es opcional. El valor predeterminado es
current. Databricks recomienda usar la versión actual del entorno de ejecución para cargas de trabajo de producción.
edition

Escriba string

La edición del producto Delta Live Tables para ejecutar la canalización. Esta configuración le permite elegir la mejor edición del producto en función de los requisitos de la canalización:

* CORE para ejecutar cargas de trabajo de ingesta de streaming.
* PRO para ejecutar cargas de trabajo de ingesta de streaming y captura de datos modificados (CDC).
* ADVANCED para ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo CDC y cargas de trabajo que requieren expectativas de Delta Live Tables para aplicar restricciones de calidad de datos.

El campo edition es opcional. El valor predeterminado es
ADVANCED.
photon

Tipo: boolean

Una marca que indica si se debe usar Photon para ejecutar la canalización. Photon es el motor spark de alto rendimiento de Azure Databricks. Las canalizaciones habilitadas con Photon se facturan con una tarifa diferente a la de las canalizaciones sin Photon.

El campo photon es opcional. El valor predeterminado es false.
pipelines.maxFlowRetryAttempts

Tipo: int

El número máximo de intentos para volver a intentar un flujo antes de que se genere un error en la actualización de una canalización cuando ocurre un error que se puede volver a intentar.

El valor predeterminado es dos. De manera predeterminada, cuando se produce un error que se puede volver a intentar, el tiempo de ejecución de Delta Live Tables intenta ejecutar el flujo tres veces, incluido el intento original.
pipelines.numUpdateRetryAttempts

Tipo: int

El número máximo de intentos para volver a intentar una actualización antes de considerarla como un error cuando se produce un error que se puede volver a intentar. El reintento se ejecuta como una actualización completa.

El valor predeterminado es cinco. Este parámetro solo se aplica a las actualizaciones desencadenadas que se ejecutan en modo de producción. No hay ningún reintento cuando la canalización se ejecuta en modo de desarrollo.

Propiedades de la tabla Delta Live Tables

Además de las propiedades de tabla que admite Delta Lake, puede establecer las siguientes propiedades de tabla.

Propiedades de tabla
pipelines.autoOptimize.managed

Valor predeterminado: true

Habilita o deshabilita la optimización programada automáticamente de esta tabla.
pipelines.autoOptimize.zOrderCols

Valor predeterminado: ninguno

Una cadena opcional que contiene una lista de nombres de columna separados por comas para ordenar esta tabla siguiendo el orden Z. Por ejemplo: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Valor predeterminado: true

Controla si se permite una actualización completa para esta tabla.

Propiedades de la tabla CDC

nota: Estas propiedades para controlar el comportamiento de administración de marcadores de exclusión están en desuso y se reemplazan por la configuración de canalización. Las canalizaciones existentes o nuevas deben usar la nueva configuración de canalización. Consulte Administración de marcadores de exclusión para consultas de SCD tipo 1.

Se agregan las siguientes propiedades de tabla para controlar el comportamiento de la administración de marcadores de exclusión para los eventos DELETE cuando se usa CDC:

Propiedades de tabla
pipelines.cdc.tombstoneGCThresholdInSeconds

Valor predeterminado: 5 minutos

Establezca este valor para que coincida con el intervalo mayor esperado entre los datos desordenados.
pipelines.cdc.tombstoneGCFrequencyInSeconds

Valor predeterminado: 60 segundos.

Controla la frecuencia con la que se comprueba la limpieza de los marcadores de exclusión.

Consulte API PARA APLICAR CAMBIOS: simplificación de la captura de datos modificados con Delta Live Tables.

Intervalo del desencadenador de canalizaciones

Puede especificar un intervalo de desencadenador de canalización para toda la canalización de Delta Live Tables o como parte de una declaración de conjunto de datos. Consulte Intervalo del desencadenador de canalizaciones.

pipelines.trigger.interval
El valor predeterminado se basa en el tipo de flujo:

* Cinco segundos para las consultas de streaming.
* Un minuto para las consultas completas cuando todos los datos de entrada son de orígenes de Delta.
* Diez minutos para las consultas completas cuando algunos orígenes de datos pueden no ser de Delta.

El valor es un número más la unidad de tiempo. Las unidades de tiempo válidas son:

* second, seconds
* minute, minutes
* hour, hours
* day, days

Puede usar la unidad en singular o plural cuando define el valor, por ejemplo:

* {"pipelines.trigger.interval" : "1 hour"}
* {"pipelines.trigger.interval" : "10 seconds"}
* {"pipelines.trigger.interval" : "30 second"}
* {"pipelines.trigger.interval" : "1 minute"}
* {"pipelines.trigger.interval" : "10 minutes"}
* {"pipelines.trigger.interval" : "10 minute"}

Atributos de clúster que no son configurables por el usuario

Dado que Delta Live Tables administra los ciclos de vida del clúster, los usuarios no pueden configurar manualmente muchas opciones de configuración del clúster, ya sea en una configuración de canalización o en una directiva de clúster usada por una canalización. En la tabla siguiente se enumeran estas opciones de configuración y por qué no se pueden establecer manualmente.

Campos
cluster_name

Delta Live Tables establece los nombres de los clústeres usados para ejecutar actualizaciones de canalización. Estos nombres no se pueden invalidar.
data_security_mode
access_mode

El sistema establece automáticamente estos valores.
spark_version

Los clústeres de Delta Live Tables se ejecutan en una versión personalizada de Databricks Runtime que se actualiza continuamente para incluir las características más recientes. La versión de Spark se incluye con la versión de Databricks Runtime y no se puede invalidar.
autotermination_minutes

Dado que Delta Live Tables administra la lógica de terminación automática y reutilización del clúster, no se puede invalidar el tiempo de finalización automática del clúster.
runtime_engine

Aunque puede controlar este campo habilitando Photon para la canalización, no puede establecer este valor directamente.
effective_spark_version

El sistema establece automáticamente este valor.
cluster_source

El sistema establece este campo y es de solo lectura.
docker_image

Dado que Delta Live Tables administra el ciclo de vida del clúster, no puede usar un contenedor personalizado con clústeres de canalización.
workload_type

El sistema establece este valor y no se puede invalidar.