Compartir a través de


Problemas comunes: errores de configuración de Slurm

Posibles mensajes de error

  • Unable to execute command /usr/bin/systemctl --system start slurmd

Solución

Dado que Slurm requiere que todos los nodos de un clúster se definan en slurm.conf, CycleCloud crea previamente todas las máquinas virtuales dentro de CycleCloud cuando se inicia el nodo del programador. Estas máquinas virtuales permanecen sin asignar en Azure hasta que un trabajo los solicite, pero a veces los límites de escalado automático incorrectos o de cuota insuficiente pueden causar problemas de instalación.

  • Asegúrese de que la suscripción tiene suficiente cuota para el tipo de máquina virtual seleccionado y de que los límites de escalabilidad automática están por debajo del importe de la cuota. Es posible que tenga que seleccionar un tipo de máquina virtual diferente o ajustar los límites de escalabilidad automática según corresponda.
  • /var/log/slurmctld/slurm.log Compruebe si hay errores relacionados con el inicio del programador.