Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
En este artículo se proporciona una referencia para la especificación de configuración JSON de canalización y propiedades de tabla en las canalizaciones declarativas de Lakeflow Spark. Para obtener más información sobre el uso de estas diversas propiedades y configuraciones, consulte los siguientes artículos:
Configuraciones de canalización
idTipo:
stringIdentificador único global de esta canalización. El sistema asigna el identificador y no se puede cambiar.
nameTipo:
stringUn nombre descriptivo para esta canalización. El nombre se puede usar para identificar los trabajos de canalización en la interfaz de usuario.
configurationTipo:
objectUna lista opcional de opciones para agregar a la configuración de Spark del clúster que ejecutará la canalización. El entorno de ejecución de las canalizaciones declarativas de Lakeflow Spark lee estas opciones y están disponibles para las consultas de canalización a través de la configuración de Spark.
Los elementos deben tener el formato de pares de
key:value.librariesTipo:
array of objectsMatriz de archivos de código que contiene el código de canalización y los artefactos necesarios.
clustersTipo:
array of objectsMatriz de especificaciones para que los clústeres ejecuten la canalización.
Si no se especifica, las canalizaciones seleccionarán automáticamente una configuración de clúster predeterminada para la canalización.
developmentTipo:
booleanMarca que indica si se va a ejecutar la canalización en modo
developmentoproduction.El valor predeterminado es
truenotificationsTipo:
array of objectsUna matriz opcional de especificaciones para las notificaciones por correo electrónico cuando se completa una actualización de canalización, produce un error que se puede reintentar, se produce un error que no se puede reintentar o se produce un error en un flujo.
continuousTipo:
booleanMarca que indica si se debe ejecutar la canalización continuamente.
El valor predeterminado es
false.catalogTipo:
stringNombre del catálogo predeterminado de la canalización, donde se publican todos los conjuntos de datos y metadatos de la canalización. Configurar este valor habilita Unity Catalog para la canalización.
Si se deja sin establecer, la canalización se publica en el metastore de Hive heredado mediante la ubicación especificada en
storage.En el modo de publicación heredado, especifica el catálogo que contiene el esquema de destino donde se publican todos los conjuntos de datos de la canalización actual. Consulte el esquema LIVE (heredado).
schemaTipo:
stringNombre del esquema predeterminado para la canalización, donde todos los conjuntos de datos y metadatos de la canalización se publican de forma predeterminada. Consulte Definir el catálogo y el esquema de destino.
target(heredado)Tipo:
stringNombre del esquema de destino donde se publican todos los conjuntos de datos definidos en la canalización actual.
Establecer
targeten lugar deschemaconfigura la canalización para usar el modo de publicación heredado. Consulte el esquema LIVE (heredado).storage(heredado)Tipo:
stringUbicación en DBFS o almacenamiento en la nube donde se almacenan los datos de salida y los metadatos necesarios para la ejecución de la canalización. Las tablas y los metadatos se almacenan en subdirectorios de esta ubicación.
Cuando no se especifica el valor
storage, el sistema lo establecerá de forma predeterminada en una ubicación endbfs:/pipelines/.El valor
storageno se puede cambiar después de crear una canalización.channelTipo:
stringVersión del entorno de ejecución de Lakeflow Spark Declarative Pipelines que se utilizará. Los valores admitidos son:
-
previewpara probar la canalización con los próximos cambios en la versión del entorno de ejecución. -
currentpara usar la versión actual del entorno de ejecución.
El campo
channeles opcional. El valor predeterminado escurrent. Databricks recomienda usar la versión actual del entorno de ejecución para cargas de trabajo de producción.-
editionEscriba
stringLa edición del producto de Lakeflow Spark Declarative Pipelines para ejecutar la canalización. Esta configuración le permite elegir la mejor edición del producto en función de los requisitos de la canalización:
-
COREpara ejecutar cargas de trabajo de ingesta de streaming. -
PROpara ejecutar cargas de trabajo de ingesta en streaming y de captura de datos modificados (CDC). -
ADVANCEDpara ejecutar cargas de trabajo de ingesta de streaming, cargas de trabajo CDC y cargas de trabajo que requieren cumplir con expectativas para aplicar restricciones de calidad de datos.
El campo
editiones opcional. El valor predeterminado esADVANCED.-
photonTipo:
booleanUna marca que indica si se debe usar Photon para ejecutar la canalización. Photon es el motor spark de alto rendimiento de Azure Databricks. Las canalizaciones habilitadas con Photon se facturan con una tarifa diferente a la de las canalizaciones sin Photon.
El campo
photones opcional. El valor predeterminado esfalse.pipelines.maxFlowRetryAttemptsTipo:
intSi se produce un error reintetable durante una actualización de canalización, este es el número máximo de veces que se reintentará un flujo antes de que falle la actualización de la canalización.
Valor predeterminado: dos reintentos. Cuando se produce un error que permite reintentos, el entorno de ejecución de Lakeflow para canalizaciones declarativas de Spark intenta ejecutar el proceso tres veces, incluyendo el intento original.
pipelines.numUpdateRetryAttemptsTipo:
intSi se produce un error que permite reintentos durante una actualización, esta es la cantidad máxima de intentos de reintentar la actualización antes de que se produzca un fracaso permanente. El reintento se ejecuta como una actualización completa.
Este parámetro solo se aplica a las canalizaciones que se ejecutan en modo de producción. Los reintentos no se intentan si la canalización se ejecuta en modo de desarrollo o al ejecutar una actualización de
Validate.Predeterminado:
- Cinco para las canalizaciones desencadenadas.
- Ilimitado para canalizaciones continuas.
Propiedades de la tabla de canalización
Además de las propiedades de tabla que admite Delta Lake, puede establecer las siguientes propiedades de tabla.
pipelines.autoOptimize.zOrderColsValor predeterminado: ninguno
Una cadena opcional que contiene una lista de nombres de columna separados por comas para ordenar esta tabla siguiendo el orden Z. Por ejemplo:
pipelines.autoOptimize.zOrderCols = "year,month"pipelines.reset.allowedOpción predeterminada:
trueControla si se permite una actualización completa para esta tabla.
pipelines.autoOptimize.managedOpción predeterminada:
trueHabilita o deshabilita la optimización programada automáticamente de esta tabla.
En el caso de las canalizaciones administradas por optimización predictiva, esta propiedad no se usa.
Intervalo del desencadenador de canalizaciones
Puede especificar un intervalo de activador para toda la canalización o dentro de la declaración de un conjunto de datos. Consulte Establecimiento del intervalo de desencadenador para canalizaciones continuas.
pipelines.trigger.intervalEl valor predeterminado se basa en el tipo de flujo:
- Cinco segundos para las consultas de streaming.
- Un minuto para las consultas completas cuando todos los datos de entrada proceden de orígenes delta.
- Diez minutos para las consultas completas cuando algunos orígenes de datos pueden ser distintos de Delta.
El valor es un número más la unidad de tiempo. Las unidades de tiempo válidas son:
-
second,seconds -
minute,minutes -
hour,hours -
day,days
Puede usar la unidad en singular o plural cuando define el valor, por ejemplo:
{"pipelines.trigger.interval" : "1 hour"}{"pipelines.trigger.interval" : "10 seconds"}{"pipelines.trigger.interval" : "30 second"}{"pipelines.trigger.interval" : "1 minute"}{"pipelines.trigger.interval" : "10 minutes"}{"pipelines.trigger.interval" : "10 minute"}
Atributos de clúster que no son configurables por el usuario
Dado que Lakeflow Spark Declarative Pipelines (SDP) administra los ciclos de vida del clúster, el sistema establece muchas opciones de clúster y los usuarios no pueden configurar manualmente, ya sea en una configuración de canalización o en una directiva de clúster que usa una canalización. En la tabla siguiente se enumeran estas opciones de configuración y por qué no se pueden establecer manualmente.
cluster_nameSDP establece los nombres de los clústeres usados para ejecutar actualizaciones de canalización. Estos nombres no se pueden invalidar.
data_security_modeaccess_modeEl sistema establece automáticamente estos valores.
spark_versionLos clústeres de SDP se ejecutan en una versión personalizada de Databricks Runtime que se actualiza continuamente para incluir las características más recientes. La versión de Spark se incluye con la versión de Databricks Runtime y no se puede invalidar.
autotermination_minutesDado que SDP administra la lógica de terminación automática y reutilización del clúster, no se puede invalidar el tiempo de terminación automática del clúster.
runtime_engineAunque puede controlar este campo habilitando Photon para la canalización, no puede establecer este valor directamente.
effective_spark_versionEl sistema establece automáticamente este valor.
cluster_sourceEl sistema establece este campo y es de solo lectura.
docker_imageDado que SDP administra el ciclo de vida del clúster, no puede usar un contenedor personalizado con clústeres de canalización.
workload_typeEl sistema establece este valor y no se puede invalidar.