Eseguire procedure di risoluzione dei problemi comuni

Completato

Al termine di questa unità, è necessario essere in grado di descrivere le procedure per i controlli comuni dello stato operativo e alcuni problemi comuni che possono verificarsi.

Quali motivi potrebbero causare il blocco del processo inviato ad Azure Cyclecloud nello stato PD (in sospeso)?

Un processo nello stato PD (in sospeso) indica che, anche se un processo è stato inviato, Cyclecloud non ha ancora trovato nodi disponibili per eseguire il processo. Ciò può essere dovuto a molti motivi, ad esempio risorse insufficienti, specifiche di processi non corrette o errori del nodo.

Quando si configura uno script di processo, è necessario assicurarsi che le risorse richieste siano comprese nei limiti del cluster. Questo perché l'utilità di pianificazione termina il processo una volta esaurito il tempo allocato, anche se il processo richiede più tempo o richiede più memoria rispetto a quanto disponibile nel sistema.

Quali passaggi è possibile eseguire per stabilire se sono stati richiesti nodi per il processo di Azure Cyclecloud?

È possibile usare il comando Slurm squeue per controllare lo stato del processo.

Qual è il percorso dei log Slurm per nodi/utilità di pianificazione? (Slurm)

In Azure CycleCloud la posizione dei log Slurm per nodi e utilità di pianificazione dipende dalla configurazione del cluster Slurm. Per impostazione predefinita, i log vengono archiviati nei percorsi seguenti:

I log del controller Slurm vengono in genere archiviati nel nodo del controller /var/log/slurm/slurmctld.log. Il percorso esatto può variare a seconda della configurazione. Per trovare il percorso file di log, controllare il parametro SlurmctldLogFile nel file di configurazione di Slurm (in genere /etc/slurm/slurm.conf).

I log dei nodi di calcolo di Slurm vengono in genere archiviati in /var/log/slurm/slurmd.log in ogni nodo di calcolo. Il percorso esatto può variare a seconda della configurazione. Per trovare il percorso file di log, controllare il parametro SlurmdLogFile nel file di configurazione di Slurm (in genere /etc/slurm/slurm.conf).

Per accedere ai file di log, è possibile accedere al controller o ai nodi di calcolo tramite SSH e passare ai percorsi dei file di log appropriati. Se è necessario modificare i percorsi dei file di log, è possibile modificare i SlurmctldLogFile parametri e SlurmdLogFile nel file di configurazione Slurm.

Come è possibile inviare processi? (Slurm)

Per inviare processi ad Azure CycleCloud quando si usa Slurm come utilità di pianificazione dei processi, seguire questa procedura:

  1. Accedere all'istanza di Azure CycleCloud.
  2. Identificare il cluster a cui inviare il processo. È possibile visualizzare l'elenco dei cluster nel dashboard principale.
  3. Connettersi al nodo head (controller) del cluster Slurm usando SSH.
  4. Dopo la connessione al nodo head, creare uno script di processo di Slurm. Lo script di processo è un semplice script della shell che contiene le direttive di Slurm e i comandi da eseguire nel processo.
  5. Inviare il processo con il comando sbatch.
  6. Monitorare lo stato del processo usando i comandi Slurm, ad squeueesempio , sinfoo sacct.
  7. Al termine del processo, è possibile visualizzare l'output nel file di output specificato (in questo esempio my_job_output.txt).