Nota
El acceso a esta página requiere autorización. Puede intentar iniciar sesión o cambiar directorios.
El acceso a esta página requiere autorización. Puede intentar cambiar los directorios.
Entonces, ha determinado que el controlador está sobrecargado. La razón más común para esto es que hay demasiados elementos simultáneos que se ejecutan en el clúster. Esto podría ser demasiados flujos, consultas o trabajos de Spark (algunos clientes usan subprocesos para ejecutar muchos trabajos de Spark simultáneamente).
También podría ser que está ejecutando código que no es de Spark en el clúster que mantiene ocupado el controlador. Si ve brechas en la escala de tiempo causadas por la ejecución de código que no es de Spark, esto significa que los trabajadores están inactivos y probablemente desperdician dinero durante las brechas. Tal vez esto sea intencional e inevitable, pero si puede escribir este código para usar Spark, usará completamente el clúster. Comience con este tutorial para aprender a trabajar con Spark.
Si tiene demasiadas cosas ejecutándose en el clúster simultáneamente, tiene tres opciones:
- Aumentar el tamaño del controlador
- Reducir la simultaneidad
- Propagar la carga entre varios clústeres
Azure Databricks recomienda primero intentar duplicar el tamaño del controlador y ver cómo afecta a su trabajo.