Compartir a través de


Asimetría y derrame

Derramar

Lo primero que hay que buscar en una fase de larga duración es si hay derrames.

En la parte superior de la página de la fase verá los detalles, que pueden incluir estadísticas sobre el desbordamiento:

Estadísticas de derrames

El desbordamiento ocurre cuando Spark se queda sin memoria. Comienza a mover datos de la memoria al disco, y esto puede ser bastante caro. Es más común durante la mezcla de datos.

Si no ve ninguna estadística para el derrame, significa que la etapa no tiene ningún derrame. Si la fase tiene algún derrame, consulte esta guía sobre cómo manejar el derrame causado por la reorganización.

Coeficiente.Asimetria

Lo siguiente que queremos examinar es si hay asimetría. El sesgo es cuando una o solo algunas tareas tardan mucho más que el resto. Esto da como resultado un uso deficiente del clúster y trabajos más largos.

Desplácese hacia abajo hasta las métricas de resumen. Lo principal que estamos buscando es que la duración máxima sea mucho mayor que la duración del percentil 75. En la captura de pantalla siguiente se muestra una etapa saludable, donde el percentil 75 y Max son iguales.

Estadísticas de asimetría

Si la duración máxima es del 50 % más que el percentil 75, es posible que esté sufriendo de sesgo.

Si ve asimetría, obtenga información sobre los pasos de corrección de asimetría aquí.

Sin sesgos ni volcado

Si no ve sesgo o derrame, regrese a la página del trabajo para obtener información general sobre lo que está ocurriendo. Desplácese hacia arriba hasta la parte superior de la página y haga clic en Id. de trabajo asociados:

Etapa hacia el trabajo

Si la fase no tiene desbordamiento o asimetría, consulte alta entrada/salida de la fase de Spark para los próximos pasos.