Realización de procedimientos comunes de solución de problemas

Completado

Después de completar esta unidad, debería poder describir los procedimientos para las comprobaciones comunes del estado operativo y algunos problemas habituales que pueden surgir.

¿Qué motivos pueden hacer que el trabajo que he enviado a Azure Cyclecloud esté bloqueado con el estado pendiente (PD)?

Un trabajo en el estado PD (pendiente) indica que, aunque se ha enviado un trabajo, Cyclecloud aún no ha encontrado ningún nodo disponible para ejecutarlo. Esto puede deberse a una serie de motivos, como recursos insuficientes, especificaciones de trabajo incorrectas o errores de nodo.

Al configurar un script de trabajo, debe asegurarse de que los recursos solicitados están dentro de los límites del clúster. Esto se debe a que el programador elimina el trabajo una vez que se agota el tiempo asignado, incluso si el trabajo exige más tiempo o el trabajo se quedará bloqueado en la cola para siempre si el trabajo requiere más memoria de la que está disponible en el sistema.

¿Qué pasos puedo seguir para determinar si se han solicitado nodos para mi trabajo de Azure Cyclecloud?

Puede usar el comando Slurm squeue para comprobar el estado del trabajo.

¿Cuál es la ubicación de los registros de Slurm para nodos o programadores? (Slurm)

En Azure CycleCloud, la ubicación de los registros de Slurm para nodos y programadores depende de la configuración del clúster de Slurm. De forma predeterminada, los registros se almacenan en las siguientes ubicaciones:

Los registros del controlador Slurm se almacenan normalmente en /var/log/slurm/slurmctld.log en el nodo del controlador. La ruta exacta puede variar en función de su configuración. Para encontrar la ruta del archivo de registro, compruebe el parámetro SlurmctldLogFile en el archivo de configuración de Slurm (normalmente /etc/slurm/slurm.conf).

Los registros de nodo de proceso de Slurm se almacenan normalmente en /var/log/slurm/slurmd.log en cada nodo de proceso. La ruta exacta puede variar en función de su configuración. Para encontrar la ruta del archivo de registro, compruebe el parámetro SlurmdLogFile en el archivo de configuración de Slurm (normalmente /etc/slurm/slurm.conf).

Para acceder a los archivos de registro, puede iniciar sesión en el controlador o los nodos de proceso a través de SSH y navegar a las ruta del archivo de registro adecuadas. Si necesita cambiar las rutas del archivo de registro, puede hacerlo modificando los parámetros SlurmctldLogFile y SlurmdLogFile en el archivo de configuración de Slurm.

¿Cómo se envían los trabajos? (Slurm)

Para enviar trabajos a Azure CycleCloud al usar Slurm como programador de trabajos, siga estos pasos:

  1. Inicie sesión en la instancia de Azure CycleCloud.
  2. Identifique el clúster al que quiere enviar el trabajo. Puede ver la lista de los clústeres en el panel principal.
  3. Conéctese al nodo principal (controlador) de su clúster de Slurm usando SSH.
  4. Una vez conectado al nodo principal, cree un script de trabajo de Slurm. El script de trabajo es un script de shell simple que contiene directivas de Slurm y los comandos que desea ejecutar en el trabajo.
  5. Envíe el trabajo mediante el comando sbatch.
  6. Supervise el estado del trabajo mediante comandos de Slurm como squeue, sinfo o sacct.
  7. Una vez completado el trabajo, puede ver la salida en el archivo de salida especificado (en este ejemplo, my_job_output.txt).