Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Derramar
Lo primero que hay que buscar en una fase de larga duración es si hay derrames.
En la parte superior de la página de la fase verá los detalles, que pueden incluir estadísticas sobre el desbordamiento:
El desbordamiento ocurre cuando Spark se queda sin memoria. Comienza a mover datos de la memoria al disco, y esto puede ser bastante caro. Es más común durante la mezcla de datos.
Si no ve ninguna estadística para el derrame, significa que la etapa no tiene ningún derrame. Si la fase tiene algún derrame, consulte esta guía sobre cómo manejar el derrame causado por la reorganización.
Coeficiente.Asimetria
Lo siguiente que queremos examinar es si hay asimetría. El sesgo es cuando una o solo algunas tareas tardan mucho más que el resto. Esto da como resultado un uso deficiente del clúster y trabajos más largos.
Desplácese hacia abajo hasta las métricas de resumen. Lo principal que estamos buscando es que la duración máxima sea mucho mayor que la duración del percentil 75. En la captura de pantalla siguiente se muestra una etapa saludable, donde el percentil 75 y Max son iguales.
Si la duración máxima es del 50 % más que el percentil 75, es posible que esté sufriendo de sesgo.
Si ve asimetría, obtenga información sobre los pasos de corrección de asimetría aquí.
Sin sesgos ni volcado
Si no ve sesgo o derrame, regrese a la página del trabajo para obtener información general sobre lo que está ocurriendo. Desplácese hacia arriba hasta la parte superior de la página y haga clic en Id. de trabajo asociados:
Si la fase no tiene desbordamiento o asimetría, consulte alta entrada/salida de la fase de Spark para los próximos pasos.