Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Esta página contiene instrucciones para configurar la computación clásica para las canalizaciones declarativas de Spark de Lakeflow. Para obtener una referencia del esquema JSON, consulte la clusters definición en la referencia de la API de canalizaciones.
Para crear una canalización que se ejecute en el proceso clásico, los usuarios deben tener primero permiso para implementar el proceso clásico, ya sea el permiso de creación sin restricciones o el acceso a una directiva de proceso. Las canalizaciones sin servidor no requieren permisos de creación de recursos informáticos. De forma predeterminada, todos los usuarios del área de trabajo pueden usar canalizaciones sin servidor.
Nota:
Dado que el entorno de ejecución de canalizaciones declarativas de Spark de Lakeflow administra el ciclo de vida del proceso de canalización y ejecuta una versión personalizada de Databricks Runtime, no puede establecer manualmente algunas opciones de proceso en una configuración de canalización, como la versión de Spark o los nombres de clúster. Consulte Atributos de clúster que no son configurables por el usuario.
Seleccione computación para su pipeline
Para configurar el cómputo clásico para la canalización desde el Editor de canalizaciones de Lakeflow:
- Haga clic en Configuración.
- En la sección Cómputo de la configuración de la canalización, haga clic en
para editar.
- Si está activada, desactive Serverless (Sin servidor).
- Realice cualquier otro cambio en la configuración de proceso y, a continuación, haga clic en Guardar.
Esto configura la canalización para usar el proceso clásico y le permite editar la configuración de proceso, como se describe a continuación.
Para más información sobre el Editor de canalizaciones de Lakeflow, consulte Desarrollo y depuración de canalizaciones de ETL con el Editor de canalizaciones de Lakeflow.
Selecciona una política de cómputo
Los administradores del área de trabajo pueden configurar directivas de proceso para proporcionar a los usuarios acceso a los recursos de proceso clásicos para las canalizaciones. Las directivas de cómputo son opcionales. Consulte con el administrador del área de trabajo si carece de los privilegios de proceso necesarios. Consulte Definición de límites en el proceso de canalizaciones declarativas de Spark de Lakeflow.
Al usar la API de Pipelines, para asegurarse de que los valores predeterminados de la política de cálculo se apliquen correctamente, establezca "apply_policy_default_values": true en la clusters definición.
{
"clusters": [
{
"label": "default",
"policy_id": "<policy-id>",
"apply_policy_default_values": true
}
]
}
Configuración de etiquetas de proceso
Puede agregar etiquetas personalizadas a los recursos de computación clásicos de la canalización. Las etiquetas permiten supervisar el costo de los recursos de proceso usados por varios grupos de su organización. Databricks aplica estas etiquetas a los recursos en la nube y a los registros de uso registrados en las tablas del sistema de uso. Puede agregar etiquetas mediante la configuración de la interfaz de usuario etiquetas de clúster o editando la configuración JSON de la canalización.
Selección de tipos de instancia para ejecutar una canalización
De forma predeterminada, Lakeflow Spark Declarative Pipelines selecciona los tipos de instancia para los nodos de trabajo y el controlador de la canalización. Opcionalmente, es posible configurar los tipos de instancia. Por ejemplo, seleccione tipos de instancia para mejorar el rendimiento de la canalización o solucionar problemas de memoria al ejecutar la canalización.
Para configurar tipos de instancia al crear o editar una canalización en el Editor de canalizaciones de Lakeflow:
- Haga clic en el botón Configuración.
- En la sección Cómputo de la configuración de la canalización, haga clic en el
- En la sección Configuración avanzada, seleccione el tipo de trabajador y los tipos de instancia de controlador para la canalización.
Configuración de opciones independientes para los clústeres de actualización y mantenimiento
Cada canalización declarativa tiene dos recursos de proceso asociados: un clúster de actualización que procesa las actualizaciones de canalización y un clúster de mantenimiento que ejecuta tareas de mantenimiento diarias (incluida la optimización predictiva). De forma predeterminada, las configuraciones de proceso se aplican a ambos clústeres. El uso de la misma configuración para ambos clústeres mejora la confiabilidad de las ejecuciones de mantenimiento asegurándose de que las configuraciones necesarias, como las credenciales de acceso a datos para una ubicación de almacenamiento, se aplican al clúster de mantenimiento.
Para aplicar la configuración a solo uno de los dos clústeres, agregue el label campo al objeto JSON de configuración. Hay tres valores posibles para el label campo:
-
maintenance: aplica la configuración solo al clúster de mantenimiento. -
updates: aplica la configuración solo al clúster de actualización. -
default: aplica la configuración a los clústeres de actualización y mantenimiento. Este es el valor predeterminado si se omite ellabelcampo.
Si hay una configuración en conflicto, la configuración con la updates etiqueta o maintenance invalida la configuración definida con la default etiqueta.
Nota:
El clúster de mantenimiento diario solo se usa en determinados casos:
- Canalizaciones almacenadas en metastore de Hive.
- Canalizaciones en áreas de trabajo que no han aceptado los términos de proceso sin servidor del servicio. Si necesita ayuda para aceptar los términos, póngase en contacto con su representante de Databricks.
- Canalizaciones en áreas de trabajo que no han configurado correctamente el vínculo privado a sin servidor.
Ejemplo: Definición de una configuración para el clúster de actualización
En el ejemplo siguiente, se define un parámetro de configuración de Spark que se agrega solo a la configuración del clúster updates:
{
"clusters": [
{
"label": "default",
"autoscale": {
"min_workers": 1,
"max_workers": 5,
"mode": "ENHANCED"
}
},
{
"label": "updates",
"spark_conf": {
"key": "value"
}
}
]
}
Ejemplo: Configuración de tipos de instancia para el clúster de actualización
Para evitar asignar recursos innecesarios al clúster maintenance, en este ejemplo, se usa la etiqueta updates para establecer los tipos de instancia solo para el clúster updates.
{
"clusters": [
{
"label": "updates",
"node_type_id": "Standard_D12_v2",
"driver_node_type_id": "Standard_D3_v2",
"...": "..."
}
]
}
Retrasar el apagado del proceso
Para controlar el comportamiento de apagado del clúster, puede usar el modo de desarrollo o producción o usar la configuración pipelines.clusterShutdown.delay en la configuración de la canalización. En el ejemplo siguiente, se establece el valor de pipelines.clusterShutdown.delay en 60 segundos:
{
"configuration": {
"pipelines.clusterShutdown.delay": "60s"
}
}
Cuando se habilita el modo production, el valor predeterminado de pipelines.clusterShutdown.delay es 0 seconds. Cuando se habilita el modo development, el valor predeterminado es 2 hours.
Nota:
Dado que los recursos de cómputo de las Canalizaciones Declarativas de Lakeflow Spark se apagan automáticamente cuando no están en uso, no puede usar una directiva de proceso que establezca autotermination_minutes. Esto produce un error.
Crea un cómputo de nodo único
Un cómputo de nodo único tiene un nodo de controlador que actúa como maestro y trabajador. Esto está pensado para cargas de trabajo que usan pequeñas cantidades de datos o que no se distribuyen.
Para crear un cómputo de nodo único, establezca num_workers en 0. Por ejemplo:
{
"clusters": [
{
"num_workers": 0
}
]
}