Cada trabajo puede tener una tarea o varias. Los recursos del proceso se definen para cada tarea. Varias tareas definidas para el mismo trabajo pueden utilizar el mismo recurso del proceso.
¿Cuál es el proceso recomendado para cada tarea?
En la tabla siguiente se indican los tipos de proceso recomendados y admitidos para cada tipo de tarea.
Nota
El proceso sin servidor de los trabajos tiene limitaciones y no admite todas las cargas de trabajo. Consulte Limitaciones de proceso sin servidor.
Tarea
Proceso recomendado
Proceso admitido
Cuaderno
Trabajos sin servidor
Trabajos sin servidor, trabajos clásicos, multiuso clásico
Python script
Trabajos sin servidor
Trabajos sin servidor, trabajos clásicos, multiuso clásico
Paquete wheel de Python
Trabajos sin servidor
Trabajos sin servidor, trabajos clásicos, multiuso clásico
SQL
Almacén de SQL sin servidor
Almacén SQL sin servidor, almacén SQL profesional
Canalización de Delta Live Tables
Canalización sin servidor
Canalización sin servidor, canalización clásica
dbt
Almacén de SQL sin servidor
Almacén SQL sin servidor, almacén SQL profesional
comandos de la CLI de dbt
Trabajos sin servidor
Trabajos sin servidor, trabajos clásicos, multiuso clásico
JAR
Trabajos clásicos
Trabajos clásicos, multiuso clásico
Spark Submit
Trabajos clásicos
Trabajos clásicos
Los precios de los trabajos están vinculados al proceso que se utiliza para ejecutar tareas. Para más información, consulte Precios de Databricks.
¿Cómo se configura el proceso de los trabajos?
El proceso de trabajos clásicos se configura directamente desde la interfaz de usuario de los trabajos de Databricks y estas configuraciones forman parte de la definición del trabajo. Todos los demás tipos de procesos disponibles almacenan sus configuraciones con otros recursos del área de trabajo. La tabla siguiente tiene más información:
Compute type (Tipo de proceso)
Detalles
Proceso de trabajos clásicos
El proceso se configura para trabajos clásicos con la misma interfaz de usuario y la misma configuración disponible para el proceso multiuso. Consulte Referencia de configuración de proceso.
Los administradores del área de trabajo o los usuarios configuran los almacenes de SQL sin servidor y pro con privilegios de creación de clústeres sin restricciones. Las tareas se configuran para que se ejecuten en los almacenes de SQL existentes. Consulte Conexión al almacén SQL.
Proceso de canalización de Delta Live Tables
Las canalizaciones de Delta Live Tables se configuran durante la configuración de la canalización. Consulte Configuración del proceso para una canalización de Delta Live Tables. nn Azure Databricks administra los recursos del proceso de las canalizaciones de Delta Live Tables sin servidor. Consulte Configuración de una canalización de Delta Live Tables sin servidor.
Configure las tareas para utilizar los mismos recursos del proceso de trabajos para optimizar el uso de recursos con trabajos que orquestan varias tareas. El uso compartido del proceso entre tareas puede reducir la latencia asociada a los tiempos de inicio.
Puede utilizar un único recurso de proceso de trabajos para ejecutar todas las tareas que forman parte del trabajo o varios recursos de trabajos optimizados para cargas de trabajo específicas. Cualquier proceso de trabajos configurado como parte de un trabajo está disponible para todas las demás tareas del trabajo.
En la tabla siguiente se resaltan las diferencias entre el proceso de trabajos configurado para una tarea única y el proceso de trabajos compartido entre tareas:
Tarea única
Compartido entre tareas
Iniciar
Cuando inicia la ejecución de la tarea.
Cuando inicia la primera ejecución de la tarea configurada para utilizar el recurso del proceso.
Terminate
Después de que se ejecuta la tarea.
Después de que se ejecuta la tarea final configurada para utilizar el recurso del proceso.
Proceso inactivo
No aplicable.
El proceso permanece activo o inactivo mientras las tareas que no utilizan el recurso de proceso se ejecutan.
Un clúster de trabajos compartidos está limitado a una sola ejecución del trabajo y no lo pueden usar otros trabajos ni ejecuciones del mismo trabajo.
En una configuración de clúster de trabajos compartidos no se pueden usar las bibliotecas. Debe agregar bibliotecas dependientes en la configuración de tareas.
Revisión, configuración e intercambio de proceso de trabajos
En la sección Proceso del panel Detalles del trabajo se muestran todos los procesos configurados para las tareas del trabajo actual.
Las tareas configuradas para utilizar un recurso de proceso se resaltan en el gráfico de tareas al mover el puntero sobre la especificación de proceso.
Utilice el botón Intercambiar para cambiar el proceso de todas las tareas asociadas a un recurso del proceso.
Los recursos del proceso de trabajos clásicos tienen una opción Configurar. Otros recursos del proceso proporcionan opciones para ver y modificar los detalles de configuración del proceso.
Recomendaciones para configurar el proceso de trabajos clásicos
Esta sección se centra en las recomendaciones generales sobre las características y las configuraciones que pueden beneficiar a algunos flujos de trabajo. Las recomendaciones específicas para configurar el tamaño y los tipos de recursos del proceso varían en función de la carga de trabajo.
Databricks recomienda habilitar la aceleración de Photon, utilizar versiones recientes de Databricks Runtime y utilizar el proceso configurado para el catálogo de Unity.
Databricks recomienda utilizar el modo de acceso compartido para los trabajos. Consulte Modos de acceso.
Nota
El modo de acceso compartido no admite algunas cargas de trabajo y características. Databricks recomienda utilizar el modo de acceso de usuario único para estas cargas de trabajo. Vea Limitaciones del modo de acceso de proceso para Unity Catalog.
Uso de directivas de clúster
Databricks recomienda que los administradores del área de trabajo definan directivas de clúster para los trabajos y apliquen estas directivas a todos los usuarios que configuran los trabajos.
Las directivas de clúster permiten a los administradores del área de trabajo establecer controles de costos y limitar las opciones de configuración de los usuarios. Para más información sobre la configuración de directivas de clúster, consulte Creación y administración de directivas de proceso.
Azure Databricks proporciona una directiva predeterminada configurada para los trabajos. Los administradores pueden poner esta directiva a disposición de otros usuarios del área de trabajo. Consulte Proceso de trabajos.
Usar la escalabilidad automática
Configure el escalado automático para que las tareas de larga duración puedan agregar y quitar dinámicamente los nodos de trabajo durante las ejecuciones de los trabajos. Consulte Habilitar el escalado automático.
Uso de un grupo para reducir las horas de inicio del clúster
Los grupos de proceso permiten reservar recursos de proceso desde el proveedor de nube. Los grupos son beneficiosos para reducir la hora de inicio del nuevo clúster de trabajos y garantizar la disponibilidad de los recursos de proceso. Consulte Referencia de configuración del grupo.
Uso de instancias de acceso puntual
Configure instancias de acceso puntual para las cargas de trabajo que tengan requisitos de latencia lax para optimizar los costos. Consulte Instancias de acceso puntual.
¿Se debe utilizar el proceso multiuso para los trabajos?
Hay numerosos motivos por los que Databricks recomienda utilizar el proceso multiuso para los trabajos, entre estos los siguientes:
Azure Databricks factura el proceso multiuso a una tarifa diferente a la del proceso de trabajos.
El proceso de trabajos finaliza automáticamente una vez completada la ejecución de los trabajos. El proceso multiuso admite la terminación automática, que está asociada a la inactividad en lugar del final de una ejecución de trabajos.
El proceso multiuso suele compartirse entre equipos de usuarios. Los trabajos programados en el proceso multiuso suelen tener una mayor latencia debido a la competición para los recursos de proceso.
Muchas recomendaciones para optimizar la configuración del proceso de trabajos no son adecuadas para el tipo de consultas ad hoc y las cargas de trabajo interactivas que se ejecutan en un proceso multiuso.
A continuación, se muestran los casos de uso en los que puede optar por utilizar el proceso multiuso para los trabajos:
Está desarrollando o probando trabajos nuevos de forma iterativa. Los tiempos de inicio para el proceso de trabajos pueden hacer que el desarrollo iterativo sea tedioso. El proceso multiuso le permite aplicar cambios y ejecutar el trabajo rápidamente.
Tiene trabajos de corta duración que deben ejecutarse con frecuencia o según una programación específica. No hay ningún tiempo de inicio asociado al proceso multiuso que se está ejecutando actualmente. Considere los costos asociados al tiempo de inactividad si se utiliza este patrón.
El proceso sin servidor para los trabajos es el sustituto recomendado de la mayoría de los tipos de tareas que podría considerar ejecutar en el proceso multiuso.
Azure HPC es una capacidad en la nube creada a propósito para la carga de trabajo de IA y de HPC, mediante procesadores de vanguardia e interconexión InfiniBand de clase HPC, con el fin de ofrecer el mejor rendimiento, escalabilidad y valor de la aplicación. Azure HPC permite a los usuarios desbloquear la innovación, la productividad y la agilidad empresarial, mediante una gama de tecnologías de inteligencia artificial y de HPC de alta disponibilidad que se pueden asignar dinámicamente a medida que cambian
Administre una infraestructura de base de datos de SQL Server para bases de datos relacionales locales e híbridas en la nube mediante las ofertas de bases de datos relacionales PaaS de Microsoft.