Solución de problemas y reparación de errores en los trabajos
Supongamos que se le ha notificado (por ejemplo, a través de una notificación por correo electrónico, una solución de supervisión o en la interfaz de usuario de trabajos de Azure Databricks) que una tarea ha producido un error en una ejecución del trabajo de Azure Databricks. Los pasos de este artículo proporcionan una guía para ayudarle a identificar la causa del error, sugerencias para solucionar las incidencias que encuentre y cómo reparar las ejecuciones de trabajo con errores.
Identificación de la causa del error
Para encontrar la tarea con errores en la interfaz de usuario de trabajos de Azure Databricks:
En la barra lateral, haga clic en Ejecuciones de trabajos.
En la columna Name (Nombre), haga clic en un nombre de trabajo. La pestaña Ejecuciones muestra ejecuciones activas y ejecuciones completadas, incluidas las ejecuciones con errores. La vista de matriz de la pestaña Ejecuciones muestra un historial de ejecuciones para el trabajo, incluidas las ejecuciones correctas y incorrectas para cada tarea de trabajo. Una ejecución de tareas puede ser incorrecta porque se produjo un error o se omitió porque se produjo un error en una tarea dependiente. Con la vista de matriz, puede identificar rápidamente los errores de tarea de la ejecución del trabajo.
Mantenga el puntero sobre una tarea con error para ver los metadatos asociados. Estos metadatos incluyen las fechas de inicio y finalización, el estado, los detalles del clúster de duración y, en algunos casos, un mensaje de error.
Para ayudarle a identificar la causa del error, haga clic en la tarea con errores. Aparece la página Detalles de ejecución de la tarea, mostrando la salida de la tarea, el mensaje de error y los metadatos asociados.
Corrección de la causa del error
La tarea podría haber producido un error por varias razones, por ejemplo, una incidencia de calidad de datos, una configuración incorrecta o recursos de proceso insuficientes. A continuación se sugieren pasos para corregir algunas causas comunes de errores de las tareas:
- Si el error está relacionado con la configuración de la tarea, haga clic en Editar tarea. La configuración de la tarea se abre en una nueva pestaña. Actualice la configuración de la tarea según sea necesario y haga clic en Guardar tarea.
- Si el problema está relacionado con los recursos del clúster, por ejemplo, si se debe a que no hay suficientes instancias, hay varias opciones:
- Si el trabajo está configurado para usar un clúster de trabajos, considere la posibilidad de usar un clúster multiuso compartido.
- Cambie la configuración del clúster. Haga clic en Editar tarea. En el panel Detalles del trabajo, en Proceso, haga clic en Configurar para configurar el clúster. Puede cambiar el número de trabajos, los tipos de instancia u otras opciones de configuración del clúster. También puede hacer clic en Intercambiar para cambiar a otro clúster disponible. Para asegurarse de que está haciendo un uso óptimo de los recursos disponibles, revise los procedimientos recomendados para la configuración del clúster.
- Si es necesario, pida a un administrador que aumente las cuotas de los recursos en la cuenta y región en la nube donde se ha implementado el área de trabajo.
- Si el error se debe a que se ha superado el máximo de ejecuciones simultáneas, realice alguna de las siguientes acciones:
- Espere a que se completen las demás ejecuciones.
- Haga clic en Editar tarea. En el panel Detalles del trabajo, haga clic en Editar ejecuciones simultáneas, escriba un nuevo valor para Número máximo de ejecuciones simultáneas y haga clic en Confirmar.
En algunos casos, la causa de un error puede encontrarse en una ubicación ascendente del trabajo, por ejemplo, si un origen de datos externo no está disponible. Incluso en ese caso puede aprovechar la característica de ejecución de reparación que se describe en la sección siguiente después de resolver el problema externo.
Volver a ejecutar tareas con errores y omitidas
Después de identificar la causa del error, puede reparar los trabajos multitarea con errores o cancelados ejecutando solo el subconjunto de tareas incorrectas y las tareas dependientes. Dado que las tareas correctas y las tareas que dependen de ellas no se vuelven a ejecutar, esta característica reduce el tiempo y los recursos necesarios para recuperarse de ejecuciones de trabajos incorrectas.
Puede cambiar la configuración del trabajo o de la tarea antes de reparar la ejecución del trabajo. Las tareas incorrectas se vuelven a ejecutar con la configuración actual del trabajo y la tarea. Por ejemplo, si cambia la ruta de acceso a un cuaderno o a una configuración de clúster, la tarea se vuelve a ejecutar con la configuración actualizada del cuaderno o del clúster.
Vea el historial de todas las ejecuciones de tareas en la página Detalles de ejecución de la tarea.
Nota:
- Si una o varias tareas comparten un clúster de trabajos, una ejecución de reparación crea un nuevo clúster de trabajos. Por ejemplo, si la ejecución original usó el clúster de trabajos
my_job_cluster
, la primera ejecución de reparación usa el nuevo clúster de trabajosmy_job_cluster_v1
, lo que le permite ver fácilmente la configuración del clúster y del clúster que usa la ejecución inicial y las ejecuciones de reparación. La configuración demy_job_cluster_v1
es la misma que la configuración actual demy_job_cluster
. - La reparación solo se admite con trabajos que organizan dos o más tareas.
- El valor Duración que se muestra en la pestaña Ejecuciones incluye la hora en que se inició la primera ejecución hasta la hora en que finalizó la última ejecución de reparación. Por ejemplo, si se produjo un error en una ejecución dos veces y se realizó correctamente en la tercera ejecución, la duración incluye el tiempo de las tres ejecuciones.
Para reparar una ejecución de trabajo con errores:
- Haga clic en el vínculo de la ejecución con errores en la Hora de inicio columna de la tabla de ejecuciones del trabajo o haga clic en la ejecución con errores en la vista de matriz. Se muestra la página Detalles de la ejecución del trabajo.
- Haga clic en Reparar ejecución. Se muestra el cuadro de diálogo Ejecución del trabajo de reparación, enumerando todas las tareas incorrectas y las tareas dependientes que se volverán a ejecutar.
- Para agregar o editar parámetros para las tareas que se van a reparar, escriba los parámetros en el cuadro de diálogo Ejecución del trabajo de reparación. Los parámetros que escriba en el cuadro de diálogo Ejecución del trabajo de reparación invalidan los valores existentes. En las ejecuciones de reparación posteriores, puede devolver un parámetro a su valor original al borrar la clave y el valor en el cuadro de diálogo Ejecución del trabajo de reparación.
- Haga clic en Ejecución de reparación en el cuadro de diálogo Ejecución del trabajo de reparación.
- Una vez finalizada la ejecución de reparación, la vista de matriz se actualizará con una nueva columna correspondiente a la ejecución reparada. Las tareas con errores que estaban en rojo ahora deberían ser verdes, lo que indica una ejecución correcta de todo el trabajo.
Ver y administrar errores de trabajo continuos
Cuando los errores consecutivos de un trabajo continuo superan un umbral, los trabajos de Azure Databricks usan Retroceso exponencial para reintentar el trabajo. Cuando un trabajo está en estado de retroceso exponencial, un mensaje en el panel Detalles del trabajo muestra información, incluida:
- Número de errores consecutivos.
- Período para que el trabajo se ejecute sin errores para que se considere correcto.
- La hora antes del siguiente reintento si no hay ninguna ejecución activa en ese momento.
Para cancelar la ejecución activa, restablezca el período de reintento e inicie una nueva ejecución de trabajo, haga clic en Reiniciar ejecución.