Diagnóstico de problemas de costo y rendimiento mediante la interfaz de usuario de Spark

Esta guía le orienta a través de cómo usar la interfaz de usuario de Spark para diagnosticar problemas de costo y rendimiento. Es una guía paso a paso y es un procedimiento práctico. En lugar de proporcionar una explicación de lo que hace cada página de la interfaz de usuario de Spark, le indica qué buscar y qué significa. Si no está familiarizado con los conceptos del controlador, los trabajadores, los ejecutores, las fases y las tareas, es posible que quiera revisar la arquitectura de Spark.

Si busca una lista completa de varias herramientas de optimización, use la Guía de optimización de Databricks. En esta guía de interfaz de usuario de Spark se hace referencia a las secciones de la guía de optimización.

Uso de esta guía

Para navegar por la guía, use los vínculos incrustados en cada página para ir al paso siguiente. La guía contiene los siguientes pasos en orden:

  1. Usar la escala de tiempo de trabajos para identificar problemas importantes
  2. Examinar las fases más largas
  3. Buscar distorsiones o volcados
  4. Determinar si la fase más larga está enlazada a E/S
  5. Buscar otras causas de un tiempo de ejecución de fase lenta

Comencemos.

Cómo abrir la interfaz de usuario de Spark

  1. Vaya a la página del clúster’:

    Vaya a Proceso

  2. Haga clic en Interfaz de usuario de Spark:

    Vaya a SparkUI

Paso siguiente

Ahora que ha abierto la interfaz de usuario de Spark, a continuación revisará la escala de tiempo del evento para obtener más información sobre la canalización o consulta. Vea escala de tiempo de trabajos.