Compartir a través de


Configuración del proceso de trabajos

Este artículo contiene recomendaciones y recursos para configurar el proceso de los trabajos de Databricks.

Importante

Entre las limitaciones del proceso sin servidor de los trabajos se incluyen las siguientes:

  • No se admite la programación continua.
  • No se admiten desencadenadores de intervalos predeterminados o basados en tiempo en Structured Streaming.

Para ver más limitaciones, consulte Limitaciones de los procesos sin servidor.

Cada trabajo puede tener una tarea o varias. Los recursos del proceso se definen para cada tarea. Varias tareas definidas para el mismo trabajo pueden utilizar el mismo recurso del proceso.

Imagen que muestra un trabajo con varias tomas y recursos del proceso en la nube asociados

En la tabla siguiente se indican los tipos de proceso recomendados y admitidos para cada tipo de tarea.

Nota:

El proceso sin servidor de los trabajos tiene limitaciones y no admite todas las cargas de trabajo. Consulte Limitaciones de proceso sin servidor.

Tarea Proceso recomendado Proceso admitido
Cuaderno Trabajos sin servidor Trabajos sin servidor, trabajos clásicos, multiuso clásico
Script de Python Trabajos sin servidor Trabajos sin servidor, trabajos clásicos, multiuso clásico
Paquete wheel de Python Trabajos sin servidor Trabajos sin servidor, trabajos clásicos, multiuso clásico
SQL Almacén de SQL sin servidor Almacén SQL sin servidor, almacén SQL profesional
Canalización de Delta Live Tables Canalización sin servidor Canalización sin servidor, canalización clásica
dbt Almacén de SQL sin servidor Almacén SQL sin servidor, almacén SQL profesional
comandos de la CLI de dbt Trabajos sin servidor Trabajos sin servidor, trabajos clásicos, multiuso clásico
JAR Trabajos clásicos Trabajos clásicos, multiuso clásico
Spark Submit Trabajos clásicos Trabajos clásicos

Los precios de los trabajos están vinculados al proceso que se utiliza para ejecutar tareas. Para más información, consulte Precios de Databricks.

¿Cómo se configura el proceso de los trabajos?

El proceso de trabajos clásicos se configura directamente desde la interfaz de usuario de los trabajos de Databricks y estas configuraciones forman parte de la definición del trabajo. Todos los demás tipos de procesos disponibles almacenan sus configuraciones con otros recursos del área de trabajo. La tabla siguiente tiene más información:

Compute type (Tipo de proceso) Detalles
Proceso de trabajos clásicos El proceso se configura para trabajos clásicos con la misma interfaz de usuario y la misma configuración disponible para el proceso multiuso. Consulte Referencia de configuración de proceso.
Proceso sin servidor para trabajos El proceso sin servidor para los trabajos es el valor predeterminado para todas las tareas que lo admiten. Databricks administra la configuración del proceso para el proceso sin servidor. Consulte Ejecución del trabajo de Azure Databricks con proceso sin servidor para flujos de trabajo. nn Un administrador del área de trabajo debe habilitar el proceso sin servidor para que esta opción sea visible. Consulte Habilitación del proceso sin servidor.
Almacenes de SQL Los administradores del área de trabajo o los usuarios configuran los almacenes de SQL sin servidor y pro con privilegios de creación de clústeres sin restricciones. Las tareas se configuran para que se ejecuten en los almacenes de SQL existentes. Consulte Conexión al almacén SQL.
Proceso de canalización de Delta Live Tables Las canalizaciones de Delta Live Tables se configuran durante la configuración de la canalización. Consulte Configuración del proceso. nn Azure Databricks administra los recursos del proceso de las canalizaciones de Delta Live Tables sin servidor. Consulte Creación de canalizaciones totalmente administradas mediante Delta Live Tables con proceso sin servidor.
Proceso polivalente También, puede configurar las tareas mediante el proceso multiuso clásico. Databricks no recomienda esta configuración para los trabajos de configuración. Consulte Referencia de configuración de proceso y ¿Se debe utilizar el proceso multiuso para los trabajos?.

Uso compartido del proceso entre tareas

Configure las tareas para utilizar los mismos recursos del proceso de trabajos para optimizar el uso de recursos con trabajos que orquestan varias tareas. El uso compartido del proceso entre tareas puede reducir la latencia asociada a los tiempos de inicio.

Puede utilizar un único recurso de proceso de trabajos para ejecutar todas las tareas que forman parte del trabajo o varios recursos de trabajos optimizados para cargas de trabajo específicas. Cualquier proceso de trabajos configurado como parte de un trabajo está disponible para todas las demás tareas del trabajo.

En la tabla siguiente se resaltan las diferencias entre el proceso de trabajos configurado para una tarea única y el proceso de trabajos compartido entre tareas:

Tarea única Compartido entre tareas
Iniciar Cuando inicia la ejecución de la tarea. Cuando inicia la primera ejecución de la tarea configurada para utilizar el recurso del proceso.
Terminate Después de que se ejecuta la tarea. Después de que se ejecuta la tarea final configurada para utilizar el recurso del proceso.
Proceso inactivo No aplicable. El proceso permanece activo o inactivo mientras las tareas que no utilizan el recurso de proceso se ejecutan.

Un clúster de trabajos compartidos está limitado a una sola ejecución del trabajo y no lo pueden usar otros trabajos ni ejecuciones del mismo trabajo.

En una configuración de clúster de trabajos compartidos no se pueden usar las bibliotecas. Debe agregar bibliotecas dependientes en la configuración de tareas.

Revisión, configuración e intercambio de proceso de trabajos

En la sección Proceso del panel Detalles del trabajo se muestran todos los procesos configurados para las tareas del trabajo actual.

Las tareas configuradas para utilizar un recurso de proceso se resaltan en el gráfico de tareas al mover el puntero sobre la especificación de proceso.

Utilice el botón Intercambiar para cambiar el proceso de todas las tareas asociadas a un recurso del proceso.

Los recursos del proceso de trabajos clásicos tienen una opción Configurar. Otros recursos del proceso proporcionan opciones para ver y modificar los detalles de configuración del proceso.

Recomendaciones para configurar el proceso de trabajos clásicos

Esta sección se centra en las recomendaciones generales sobre las características y las configuraciones que pueden beneficiar a algunos flujos de trabajo. Las recomendaciones específicas para configurar el tamaño y los tipos de recursos del proceso varían en función de la carga de trabajo.

Databricks recomienda habilitar la aceleración de Photon, utilizar versiones recientes de Databricks Runtime y utilizar el proceso configurado para el catálogo de Unity.

El proceso sin servidor para trabajos administra toda la infraestructura, lo que elimina las siguientes consideraciones. Consulte Ejecución del trabajo de Azure Databricks con proceso sin servidor para flujos de trabajo.

Nota:

Los flujos de trabajo de Structured Streaming tienen recomendaciones específicas. Consulte Consideraciones de producción para Structured Streaming.

Uso del modo de acceso compartido

Databricks recomienda utilizar el modo de acceso compartido para los trabajos. Consulte Modos de acceso.

Nota:

El modo de acceso compartido no admite algunas cargas de trabajo y características. Databricks recomienda utilizar el modo de acceso de usuario único para estas cargas de trabajo. Vea Limitaciones del modo de acceso de proceso para Unity Catalog.

Uso de directivas de clúster

Databricks recomienda que los administradores del área de trabajo definan directivas de clúster para los trabajos y apliquen estas directivas a todos los usuarios que configuran los trabajos.

Las directivas de clúster permiten a los administradores del área de trabajo establecer controles de costos y limitar las opciones de configuración de los usuarios. Para más información sobre la configuración de directivas de clúster, consulte Creación y administración de directivas de proceso.

Azure Databricks proporciona una directiva predeterminada configurada para los trabajos. Los administradores pueden poner esta directiva a disposición de otros usuarios del área de trabajo. Consulte Proceso de trabajos.

Usar la escalabilidad automática

Configure el escalado automático para que las tareas de larga duración puedan agregar y quitar dinámicamente los nodos de trabajo durante las ejecuciones de los trabajos. Consulte Habilitar el escalado automático.

Uso de un grupo para reducir las horas de inicio del clúster

Los grupos de proceso permiten reservar recursos de proceso desde el proveedor de nube. Los grupos son beneficiosos para reducir la hora de inicio del nuevo clúster de trabajos y garantizar la disponibilidad de los recursos de proceso. Consulte Referencia de configuración del grupo.

Uso de instancias de acceso puntual

Configure instancias de acceso puntual para las cargas de trabajo que tengan requisitos de latencia lax para optimizar los costos. Consulte Instancias de acceso puntual.

¿Se debe utilizar el proceso multiuso para los trabajos?

Hay numerosos motivos por los que Databricks recomienda utilizar el proceso multiuso para los trabajos, entre estos los siguientes:

  • Azure Databricks factura el proceso multiuso a una tarifa diferente a la del proceso de trabajos.
  • El proceso de trabajos finaliza automáticamente una vez completada la ejecución de los trabajos. El proceso multiuso admite la terminación automática, que está asociada a la inactividad en lugar del final de una ejecución de trabajos.
  • El proceso multiuso suele compartirse entre equipos de usuarios. Los trabajos programados en el proceso multiuso suelen tener una mayor latencia debido a la competición para los recursos de proceso.
  • Muchas recomendaciones para optimizar la configuración del proceso de trabajos no son adecuadas para el tipo de consultas ad hoc y las cargas de trabajo interactivas que se ejecutan en un proceso multiuso.

A continuación, se muestran los casos de uso en los que puede optar por utilizar el proceso multiuso para los trabajos:

  • Está desarrollando o probando trabajos nuevos de forma iterativa. Los tiempos de inicio para el proceso de trabajos pueden hacer que el desarrollo iterativo sea tedioso. El proceso multiuso le permite aplicar cambios y ejecutar el trabajo rápidamente.
  • Tiene trabajos de corta duración que deben ejecutarse con frecuencia o según una programación específica. No hay ningún tiempo de inicio asociado al proceso multiuso que se está ejecutando actualmente. Considere los costos asociados al tiempo de inactividad si se utiliza este patrón.

El proceso sin servidor para los trabajos es el sustituto recomendado de la mayoría de los tipos de tareas que podría considerar ejecutar en el proceso multiuso.