Configuración del proceso para una canalización de Delta Live Tables
Este artículo contiene instrucciones y consideraciones al configurar opciones de proceso personalizadas para canalizaciones de Delta Live Tables.
Las canalizaciones sin servidor no proporcionan opciones de configuración de proceso. Consulte Configuración de una canalización de Delta Live Tables sin servidor.
Selección de una directiva de clúster
Los usuarios deben tener permiso para implementar el proceso para configurar y actualizar canalizaciones de Delta Live Tables. Los administradores del área de trabajo pueden configurar directivas de clúster para proporcionar a los usuarios acceso a recursos de proceso para Delta Live Tables. Consulte Definición de límites en el cálculo de canalizaciones de Tablas dinámicas Delta.
Nota:
Las directivas de clúster son opcionales. Consulte con el administrador del área de trabajo si carece de los privilegios de proceso necesarios para Delta Live Tables.
Para asegurarse de que los valores predeterminados de la directiva de clúster se aplican correctamente, establezca
apply_policy_default_values
true
en en las configuraciones del clúster en la configuración de canalización:{ "clusters": [ { "label": "default", "policy_id": "<policy-id>", "apply_policy_default_values": true } ] }
Configuración de etiquetas de clúster
Puede usar etiquetas de clúster para supervisar el uso de los clústeres de canalización. Agregue etiquetas de clúster en la interfaz de usuario de Delta Live Tables al crear o editar una canalización o edite la configuración json de los clústeres de canalización.
Selección de tipos de instancia para ejecutar una canalización
De forma predeterminada, Delta Live Tables selecciona los tipos de instancia para los nodos de trabajo y el controlador de la canalización. Opcionalmente, puede configurar los tipos de instancia.
Por ejemplo, seleccione tipos de instancia para mejorar el rendimiento de la canalización o solucionar problemas de memoria al ejecutar la canalización. Puede configurar tipos de instancia al crear o editar una canalización con la API de REST o en la interfaz de usuario de Delta Live Tables.
Para configurar tipos de instancia al crear o editar una canalización en la interfaz de usuario de Delta Live Tables:
- Haga clic en el botón Configuración.
- En la sección Avanzado de la configuración de la canalización, en los menús desplegables Tipo de trabajo y Tipo de controlador, seleccione los tipos de instancia para la canalización.
Configuraciones de proceso avanzadas
Nota:
Dado que los recursos de proceso están totalmente administrados para canalizaciones DLT sin servidor, la configuración de proceso no está disponible al seleccionar Sin servidor para una canalización.
Cada canalización de Delta Live Tables tiene dos clústeres asociados:
- El clúster
updates
procesa las actualizaciones de canalización. - El clúster
maintenance
ejecuta tareas de mantenimiento diarias.
La configuración de proceso especificada mediante la interfaz de usuario de configuración de canalización del área de trabajo se aplica a los clústeres de actualización y mantenimiento. Debe editar la configuración json para modificar estas opciones de forma independiente.
La configuración que usan estos clústeres viene determinada por el atributo especificado en la clusters
configuración de canalización.
Con etiquetas de clúster, puede agregar la configuración de proceso que se aplica solo a un tipo de clúster específico. Hay tres etiquetas que puede usar al configurar clústeres de canalización:
Nota:
Se puede omitir la configuración de la etiqueta del clúster si se define solo una configuración de clúster. La etiqueta default
se aplica a las configuraciones de clúster si no se proporciona ninguna configuración para la etiqueta. La configuración de la etiqueta del clúster solo es necesaria si necesita personalizar la configuración de diferentes tipos de clúster.
- La
default
etiqueta define la configuración de proceso para losupdates
clústeres ymaintenance
. La aplicación de la misma configuración a ambos clústeres mejora la confiabilidad de las ejecuciones de mantenimiento al garantizar que las configuraciones necesarias, como las credenciales de acceso a datos para una ubicación de almacenamiento, se aplican al clúster de mantenimiento. - La etiqueta
maintenance
define la configuración del proceso que se aplica solo al clústermaintenance
. También puede usar la etiquetamaintenance
para invalidar las opciones configuradas por la etiquetadefault
. - La etiqueta
updates
define la configuración que se aplica solo al clústerupdates
. Úselo para configurar las opciones que no se deben aplicar almaintenance
clúster.
La configuración definida mediante las etiquetas default
y updates
se combina para crear la configuración final del clúster updates
. Si se define la misma configuración mediante las etiquetas default
y updates
, la configuración definida con la etiqueta updates
invalida la configuración definida con la etiqueta default
.
En el ejemplo siguiente, se define un parámetro de configuración de Spark que se agrega solo a la configuración del clúster updates
:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Delta Live Tables tiene opciones similares para la configuración del clúster como otro proceso en Azure Databricks. Al igual que otras opciones de canalización, puede modificar la configuración JSON de los clústeres para especificar opciones que no están presentes en la interfaz de usuario. Consulte Proceso.
Nota:
Dado que el entorno de ejecución de Delta Live Tables administra el ciclo de vida de los clústeres de canalización y ejecuta una versión personalizada de Databricks Runtime, no puede establecer manualmente algunas opciones de clúster en una configuración de canalización, como la versión de Spark o los nombres de clúster. Consulte Atributos de clúster que no son configurables por el usuario.
Configuración de tipos de instancia para clústeres de actualización y mantenimiento
Para configurar los tipos de instancia en la configuración JSON de la canalización, haga clic en el botón JSON y escriba las configuraciones de los tipos de instancia en la configuración del clúster:
Nota:
Para evitar asignar recursos innecesarios al clúster maintenance
, en este ejemplo, se usa la etiqueta updates
para establecer los tipos de instancia solo para el clúster updates
. Para asignar los tipos de instancia a los clústeres updates
y maintenance
, use la etiqueta default
u omita la configuración de la etiqueta. La etiqueta default
se aplica a las configuraciones del clúster de directiva si no se proporciona ninguna configuración para la etiqueta. Consulte Configuraciones de proceso avanzadas.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"..." : "..."
}
]
}
Retrasar el apagado del proceso
Para controlar el comportamiento de apagado del clúster, puede usar el modo de desarrollo o producción o usar la configuración pipelines.clusterShutdown.delay
en la configuración de la canalización. En el ejemplo siguiente, se establece el valor de pipelines.clusterShutdown.delay
en 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Cuando se habilita el modo production
, el valor predeterminado de pipelines.clusterShutdown.delay
es 0 seconds
. Cuando se habilita el modo development
, el valor predeterminado es 2 hours
.
Nota:
Dado que un clúster de Delta Live Tables se apaga automáticamente cuando no está en uso, hacer referencia a una directiva de clúster que establece autotermination_minutes
en la configuración del clúster produce un error.
Creación de un clúster de nodo único
Si establece num_workers
en 0 en la configuración del clúster, este se crea como un clúster de nodo único. La configuración de un clúster de escalado automático y la configuración min_workers
en 0 y max_workers
en 0 crea un clúster de nodo único.
Si configura un clúster de escalado automático y solo min_workers
se establece en 0, el clúster no se crea como un clúster de nodo único. El clúster tiene al menos un trabajo activo en todo momento hasta que finaliza.
Una configuración de clúster de ejemplo para crear un clúster de nodo único en Delta Live Tables:
{
"clusters": [
{
"num_workers": 0
}
]
}