Referencia de propiedades de tubería

En este artículo se proporciona una referencia para la especificación de configuración JSON de canalización y propiedades de tabla en las canalizaciones declarativas de Lakeflow Spark. Para obtener más información sobre el uso de estas diversas propiedades y configuraciones, consulte los siguientes artículos:

Configuraciones de canalización

id

Tipo: string

Identificador único global de esta canalización. El sistema asigna el identificador y no se puede cambiar.
name

Tipo: string

Un nombre descriptivo para esta canalización. El nombre se puede usar para identificar los trabajos de canalización en la interfaz de usuario.
configuration

Tipo: object

Una lista opcional de opciones para agregar a la configuración de Spark del clúster que ejecutará la canalización. El entorno de ejecución de las canalizaciones declarativas de Lakeflow Spark lee estas opciones y están disponibles para las consultas de canalización a través de la configuración de Spark.

Los elementos deben tener el formato de pares de key:value.
libraries

Tipo: array of objects

Matriz de archivos de código que contiene el código de canalización y los artefactos necesarios.
clusters

Tipo: array of objects

Matriz de especificaciones para que los clústeres ejecuten la canalización.

Si no se especifica, las canalizaciones seleccionarán automáticamente una configuración de clúster predeterminada para la canalización.
development

Tipo: boolean

Marca que indica si se va a ejecutar la canalización en modo development o production.

El valor predeterminado es true
notifications

Tipo: array of objects

Una matriz opcional de especificaciones para las notificaciones por correo electrónico cuando se completa una actualización de canalización, produce un error que se puede reintentar, se produce un error que no se puede reintentar o se produce un error en un flujo.
continuous

Tipo: boolean

Marca que indica si se debe ejecutar la canalización continuamente.

El valor predeterminado es false.
catalog

Tipo: string

Nombre del catálogo predeterminado de la canalización, donde se publican todos los conjuntos de datos y metadatos de la canalización. Configurar este valor habilita Unity Catalog para la canalización.

Si se deja sin establecer, la canalización se publica en el metastore de Hive heredado mediante la ubicación especificada en storage.

En el modo de publicación heredado, especifica el catálogo que contiene el esquema de destino donde se publican todos los conjuntos de datos de la canalización actual. Consulte el esquema LIVE (heredado).
schema

Tipo: string

Nombre del esquema predeterminado para la canalización, donde todos los conjuntos de datos y metadatos de la canalización se publican de forma predeterminada. Consulte Definir el catálogo y el esquema de destino.
target (heredado)

Tipo: string

Nombre del esquema de destino donde se publican todos los conjuntos de datos definidos en la canalización actual.

Establecer target en lugar de schema configura la canalización para usar el modo de publicación heredado. Consulte el esquema LIVE (heredado).
storage (heredado)

Tipo: string

Ubicación en DBFS o almacenamiento en la nube donde se almacenan los datos de salida y los metadatos necesarios para la ejecución de la canalización. Las tablas y los metadatos se almacenan en subdirectorios de esta ubicación.

Cuando no se especifica el valor storage, el sistema lo establecerá de forma predeterminada en una ubicación en dbfs:/pipelines/.

El valor storage no se puede cambiar después de crear una canalización.
channel

Tipo: string

Versión del entorno de ejecución de Lakeflow Spark Declarative Pipelines que se utilizará. Los valores admitidos son:
- preview para probar la canalización con los próximos cambios en la versión del entorno de ejecución.
- current para usar la versión actual del entorno de ejecución.
El campo channel es opcional. El valor predeterminado es current. Databricks recomienda usar la versión actual del entorno de ejecución para cargas de trabajo de producción.
edition

Escriba string

La edición del producto de Lakeflow Spark Declarative Pipelines para ejecutar la canalización. Esta configuración le permite elegir la mejor edición del producto en función de los requisitos de la canalización:
- CORE para ejecutar cargas de trabajo de ingesta de streaming.
- PRO para ejecutar cargas de trabajo de ingesta en streaming y de captura de datos modificados (CDC).
- ADVANCED para ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo CDC y cargas de trabajo que requieren cumplir con expectativas para aplicar restricciones de calidad de datos.
El campo edition es opcional. El valor predeterminado es ADVANCED.
photon

Tipo: boolean

Una marca que indica si se debe usar Photon para ejecutar la canalización. Photon es el motor spark de alto rendimiento de Azure Databricks. Las canalizaciones habilitadas con Photon se facturan con una tarifa diferente a la de las canalizaciones sin Photon.

El campo photon es opcional. El valor predeterminado es false.
pipelines.maxFlowRetryAttempts

Tipo: int

Si se produce un error reintetable durante una actualización de canalización, este es el número máximo de veces que se reintentará un flujo antes de que falle la actualización de la canalización.

Valor predeterminado: dos reintentos. Cuando se produce un error que permite reintentos, el entorno de ejecución de Lakeflow para canalizaciones declarativas de Spark intenta ejecutar el proceso tres veces, incluyendo el intento original.
pipelines.numUpdateRetryAttempts

Tipo: int

Si se produce un error que permite reintentos durante una actualización, esta es la cantidad máxima de intentos de reintentar la actualización antes de que se produzca un fracaso permanente. El reintento se ejecuta como una actualización completa.

Este parámetro solo se aplica a las canalizaciones que se ejecutan en modo de producción. Los reintentos no se intentan si la canalización se ejecuta en modo de desarrollo o al ejecutar una actualización de Validate.

Predeterminado:
- Cinco para las canalizaciones desencadenadas.
- Ilimitado para canalizaciones continuas.

Propiedades de la tabla de canalización

Además de las propiedades de tabla que admite Delta Lake, puede establecer las siguientes propiedades de tabla.

pipelines.autoOptimize.zOrderCols

Valor predeterminado: ninguno

Una cadena opcional que contiene una lista de nombres de columna separados por comas para ordenar esta tabla siguiendo el orden Z. Por ejemplo: pipelines.autoOptimize.zOrderCols = "year,month"
pipelines.reset.allowed

Opción predeterminada: true

Controla si se permite una actualización completa para esta tabla.
pipelines.autoOptimize.managed

Opción predeterminada: true

Habilita o deshabilita la optimización programada automáticamente de esta tabla.

En el caso de las canalizaciones administradas por optimización predictiva, esta propiedad no se usa.

Intervalo del desencadenador de canalizaciones

Puede especificar un intervalo de activador para toda la canalización o dentro de la declaración de un conjunto de datos. Consulte Establecimiento del intervalo de desencadenador para canalizaciones continuas.

pipelines.trigger.interval

El valor predeterminado se basa en el tipo de flujo:
- Cinco segundos para las consultas de streaming.
- Un minuto para las consultas completas cuando todos los datos de entrada proceden de orígenes delta.
- Diez minutos para las consultas completas cuando algunos orígenes de datos pueden ser distintos de Delta.
El valor es un número más la unidad de tiempo. Las unidades de tiempo válidas son:
- second, seconds
- minute, minutes
- hour, hours
- day, days
Puede usar la unidad en singular o plural cuando define el valor, por ejemplo:
- {"pipelines.trigger.interval" : "1 hour"}
- {"pipelines.trigger.interval" : "10 seconds"}
- {"pipelines.trigger.interval" : "30 second"}
- {"pipelines.trigger.interval" : "1 minute"}
- {"pipelines.trigger.interval" : "10 minutes"}
- {"pipelines.trigger.interval" : "10 minute"}

Atributos de clúster que no son configurables por el usuario

Dado que Lakeflow Spark Declarative Pipelines (SDP) administra los ciclos de vida del clúster, el sistema establece muchas opciones de clúster y los usuarios no pueden configurar manualmente, ya sea en una configuración de canalización o en una directiva de clúster que usa una canalización. En la tabla siguiente se enumeran estas opciones de configuración y por qué no se pueden establecer manualmente.

cluster_name

SDP establece los nombres de los clústeres usados para ejecutar actualizaciones de canalización. Estos nombres no se pueden invalidar.
data_security_mode

access_mode

El sistema establece automáticamente estos valores.
spark_version

Los clústeres de SDP se ejecutan en una versión personalizada de Databricks Runtime que se actualiza continuamente para incluir las características más recientes. La versión de Spark se incluye con la versión de Databricks Runtime y no se puede invalidar.
autotermination_minutes

Dado que SDP administra la lógica de terminación automática y reutilización del clúster, no se puede invalidar el tiempo de terminación automática del clúster.
runtime_engine

Aunque puede controlar este campo habilitando Photon para la canalización, no puede establecer este valor directamente.
effective_spark_version

El sistema establece automáticamente este valor.
cluster_source

El sistema establece este campo y es de solo lectura.
docker_image

Dado que SDP administra el ciclo de vida del clúster, no puede usar un contenedor personalizado con clústeres de canalización.
workload_type

El sistema establece este valor y no se puede invalidar.

Comentarios

¿Le resultó útil esta página?

Last updated on 2026-01-21