Configurar las opciones de los trabajos de Azure Databricks

En este artículo se proporciona información sobre cómo configurar los trabajos de Azure Databricks y las tareas de trabajo individuales en la interfaz de usuario de los trabajos. Para obtener información sobre el uso de la CLI de Databricks para editar la configuración del trabajo, ejecute el comando de la CLI databricks jobs update -h. Para más información sobre el uso de la API de trabajos, consulte la API de trabajos.

Algunas opciones de configuración están disponibles en el trabajo y otras opciones están disponibles en las tareas individuales. Por ejemplo, el número máximo de ejecuciones simultáneas solo se puede establecer en el trabajo, mientras que las directivas de reintento se deben definir para cada tarea.

Editar un trabajos

Para cambiar la configuración de un trabajo:

  1. Haga clic en Icono de trabajosTrabajos en la barra lateral.
  2. En la columna Name (Nombre), haga clic en el nombre de trabajo.

En el panel lateral se muestran los detalles del trabajo. Puede cambiar el desencante para el trabajo, la configuración de proceso, las notificaciones, el número máximo de ejecuciones simultáneas, configurar los umbrales de duración y agregar o cambiar etiquetas. Si el control de acceso al trabajo está habilitado, también puede editar permisos de trabajo.

Adición de parámetros para todas las tareas de trabajo

Puede configurar parámetros en un trabajo que se pasa a cualquiera de las tareas del trabajo que aceptan parámetros clave-valor, incluidos los paquetes wheel de Python configurados para aceptar argumentos de palabra clave. Los parámetros establecidos en el nivel de trabajo se agregan a los parámetros de nivel de tarea configurados. Los parámetros de trabajo pasados a las tareas son visibles en la configuración de la tarea, junto con los parámetros configurados en la tarea.

También puede pasar parámetros de trabajo a tareas que no están configuradas con parámetros clave-valor, como las tareas JAR o Spark Submit. A fin de pasar parámetros de trabajo a estas tareas, aplique formato a los argumentos como {{job.parameters.[name]}}, y reemplace [name] por el valor key que identifica el parámetro.

Los parámetros de trabajo tienen prioridad sobre los parámetros de tarea. Si un parámetro de trabajo y un parámetro de tarea tienen la misma clave, el parámetro de trabajo invalida el parámetro de tarea.

Puede invalidar los parámetros de trabajo configurados, o bien agregar nuevos parámetros de trabajo al ejecutar un trabajo con otros parámetros o reparar una ejecución de trabajo.

También puede compartir contexto sobre trabajos y tareas mediante un conjunto de referencias de valor dinámico.

Para agregar parámetros de trabajo, haga clic en Editar parámetros en el panel lateral Detalles del trabajo y especifique la clave y el valor predeterminado de cada parámetro. Para ver una lista de referencias de valor dinámico disponibles, haga clic en Examinar valores dinámicos.

Agregar etiquetas a un trabajo

Para agregar etiquetas o atributos clave:valor al trabajo, puede agregar etiquetas al editar el trabajo. Puede usar etiquetas para filtrar trabajos en la lista Trabajos; por ejemplo, puede usar una etiqueta department para filtrar todos los trabajos que pertenecen a un departamento específico.

Nota:

Dado que las etiquetas de trabajo no están diseñadas para almacenar información confidencial, como información de identificación personal o contraseñas, Databricks recomienda usar etiquetas solo para valores no confidenciales.

Las etiquetas también se propagan a los clústeres de trabajos creados cuando se ejecuta un trabajo, lo que le permite usar etiquetas con la supervisión del clúster existente.

Para agregar o editar etiquetas, haga clic en + Etiqueta en el panel lateral Detalles del trabajo. Puede agregar la etiqueta como una clave y valor, o bien una etiqueta. Para agregar una etiqueta, escriba la etiqueta en el campo Clave y deje el campo Valor vacío.

Configurar clústeres compartidos

Para ver las tareas asociadas a un clúster, haga clic en la pestaña Tareas y mantenga el puntero sobre el clúster en el panel lateral. Para cambiar la configuración del clúster para todas las tareas asociadas, haga clic en Configure (Configurar) en el clúster. Para configurar un nuevo clúster para todas las tareas asociadas, haga clic en Swap (Intercambiar) en el clúster.

Controlar el acceso a un archivo

El control de acceso a trabajos permite a los propietarios y administradores de trabajos conceder permisos específicos en sus trabajos. Los propietarios de trabajos pueden elegir qué otros usuarios o grupos pueden ver los resultados del trabajo. Los propietarios también pueden elegir quién puede administrar sus ejecuciones de trabajo [Ejecutar ahora y Cancel run permissions (Cancelar permisos de ejecución)].

Para más información sobre los niveles de permisos de trabajo, consulte ACL de trabajo.

Debe tener el permiso CAN MANAGE o IS OWNER en el trabajo para administrar los permisos en él.

  1. En la barra lateral, haga clic en Ejecuciones de trabajos.

  2. Haga clic en el nombre de un trabajo.

  3. En el panel Detalles del trabajo, haga clic en Editar permisos.

  4. En Configuración de permisos, haga clic en el menú desplegable Seleccionar usuario, grupo o entidad de servicio… y seleccione un usuario, grupo o entidad de servicio.

    Diálogo Configuración de permisos

  5. Haga clic en Agregar.

  6. Haga clic en Save(Guardar).

Administración del propietario del trabajo

De manera predeterminada, el creador de un trabajo tiene el permiso IS OWNER y es el usuario en la configuración Ejecutar como del trabajo. El trabajo se ejecuta como la identidad del usuario en la configuración Ejecutar como. Para obtener más información sobre la configuración Ejecutar como, vea Ejecución de un trabajo como entidad de servicio.

Los administradores del área de trabajo pueden cambiar el propietario del trabajo a ellos mismos. Cuando se transfiere la propiedad, se concede al propietario anterior el permiso CAN MANAGE.

Nota:

Cuando la configuración de RestrictWorkspaceAdmins en un área de trabajo está establecida en ALLOW ALL, los administradores del área de trabajo pueden cambiar un propietario de trabajo a cualquier usuario o entidad de servicio de su área de trabajo. Para restringir que los administradores del área de trabajo solo puedan cambiar a ellos mismos un propietario de trabajo, vea Restricción de administradores de áreas de trabajo.

Configurar el número máximo de ejecuciones simultáneas

Haga clic en Editar ejecuciones simultáneas en Configuración avanzada para establecer el número máximo de ejecuciones paralelas para este trabajo. Azure Databricks omite la ejecución si el trabajo ya ha alcanzado el número máximo de ejecuciones activas al intentar iniciar una nueva ejecución. Establezca este valor por encima del valor predeterminado de 1 para realizar varias ejecuciones del mismo trabajo simultáneamente. Esto es útil, por ejemplo, si desencadena el trabajo con una programación frecuente y quiere permitir que las ejecuciones consecutivas se superpongan entre sí, o bien si quiere desencadenar varias ejecuciones que difieren en sus parámetros de entrada.

Habilitación de la cola de ejecuciones de trabajos

Para habilitar que las ejecuciones de un trabajo se coloquen en una cola para más adelante cuando no se puedan ejecutar inmediatamente debido a los límites de simultaneidad, haga clic en el botón de alternancia Cola en Configuración avanzada. Consulte ¿Qué ocurre si mi trabajo no se puede ejecutar debido a los límites de simultaneidad?.

Nota:

La cola está habilitada de forma predeterminada para los trabajos creados mediante la interfaz de usuario después del 15 de abril de 2024.

Configurar un tiempo de finalización esperado o un tiempo de espera para un trabajo

Puede configurar los umbrales de duración opcionales para un trabajo, incluido un tiempo de finalización esperado para el trabajo y un tiempo de finalización máximo para el trabajo. Para configurar los umbrales de duración, haga clic en Establecer umbrales de duración.

Para configurar un tiempo de finalización esperado para el trabajo, escriba la duración esperada en el campo Advertencia. Si el trabajo supera este umbral, puede configurar notificaciones para el trabajo de ejecución lenta. Consulte Configurar notificaciones para trabajos de ejecución lenta o con retraso.

Para configurar un tiempo de finalización máximo para un trabajo, escriba la duración máxima en el campo Tiempo de espera. Si el trabajo no se completa en este tiempo, Azure Databricks establece su estado en "Se agotó el tiempo de espera" y se detiene el trabajo.

Editar una tarea

Para establecer las opciones de configuración de tareas:

  1. Haga clic en Icono de trabajosTrabajos en la barra lateral.
  2. En la columna Name (Nombre), haga clic en el nombre de trabajo.
  3. Haga clic en la pestaña Tareas y seleccione la tarea que desea editar.

Definir dependencias de tareas

Puede definir el orden de ejecución de las tareas en un trabajo mediante el menú desplegable Depende de. Puede establecer este campo en una o varias tareas del trabajo.

Editar dependencias de tareas

Nota:

Depende de no es visible si el trabajo consta de una sola tarea.

La configuración de dependencias de tareas crea un grafo acíclico dirigido (DAG) de ejecución de tareas, una manera común de representar el orden de ejecución en los programadores de trabajos. Por ejemplo, considere el siguiente trabajo que consta de cuatro tareas:

Diagrama de ejemplo de dependencias de tareas

  • La tarea 1 es la tarea raíz y no depende de ninguna otra tarea.
  • Las tareas 2 y 3 dependen de que la tarea 1 se complete primero.
  • Por último, la tarea 4 depende de que la tarea 2 y la tarea 3 se completen correctamente.

Azure Databricks ejecuta las tareas de subida antes de ejecutar las de bajada, y ejecuta tantas de ellas en paralelo como sea posible. En el diagrama siguiente se muestra el orden de procesamiento de estas tareas:

Flujo de ejemplo de dependencias de tareas

Configurar un clúster para una tarea

Para configurar el clúster donde se ejecuta una tarea, haga clic en el menú desplegable Clúster. Puede editar un clúster de trabajos compartidos, pero no puede eliminar un clúster compartido si lo siguen utilizando otras tareas.

Para más información sobre cómo seleccionar y configurar clústeres para ejecutar tareas, consulte Uso del proceso de Azure Databricks para los trabajos.

Configurar bibliotecas dependientes

Las bibliotecas dependientes se instalarán en el clúster antes de que se ejecute la tarea. Debe establecer todas las dependencias de tareas para asegurarse de que están instaladas antes de que se inicie la ejecución. Siga las recomendaciones de Dependencias de biblioteca para especificar las dependencias.

Configurar un tiempo de finalización esperado o un tiempo de espera para una tarea

Puede configurar los umbrales de duración opcionales para una tarea, incluido un tiempo de finalización esperado para la tarea y un tiempo de finalización máximo para la tarea. Para configurar los umbrales de duración, haga clic en Umbrales de duración.

Para configurar el tiempo de finalización esperado de la tarea, escriba la duración en el campo Advertencia. Si la tarea supera este umbral, se desencadena un evento. Puede usar este evento para notificar cuando una tarea se ejecuta lentamente. Consulte Configurar notificaciones para trabajos de ejecución lenta o con retraso.

Para configurar un tiempo de finalización máximo para una tarea, escriba la duración máxima en el campo Tiempo de espera. Si la tarea no se completa en este tiempo, Azure Databricks establece su estado en "Se agotó el tiempo de espera".

Configuración de una directiva de reintentos para una tarea

Para configurar una directiva que determine cuándo y cuántas veces se reintentan las ejecuciones de tareas con errores, haga clic en + Agregar junto a Reintentos. El intervalo de reintento se calcula en milisegundos y abarca el periodo de tiempo desde el inicio de la ejecución con errores hasta la ejecución del siguiente reintento.

Nota:

Si configura tanto el tiempo de espera como el número de reintentos, el tiempo de espera se aplica a cada reintento.