Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Slurm è uno dei più diffusi e ampiamente usati come gestore di carichi di lavoro open source per intelligenza artificiale/HPC e cloud computing. Slurm consente agli utenti di eseguire applicazioni parallele e distribuite su larga scala in un set di nodi di calcolo e offre funzionalità come la pianificazione dei processi, la gestione delle risorse, la tolleranza di errore e il risparmio energia. Slurm è utilizzato da molti dei migliori supercomputer al mondo, istituti di ricerca, università e aziende.
Tuttavia, la configurazione e la gestione dei cluster Slurm nel cloud possono richiedere molto tempo, soprattutto per gli utenti che non hanno familiarità con l'ambiente cloud o la configurazione slurm. Gli utenti devono gestire attività come il provisioning e il ridimensionamento dei nodi di calcolo, l'installazione e l'aggiornamento del software Slurm, la configurazione di rete e archiviazione, il monitoraggio dell'integrità e delle prestazioni del cluster e la risoluzione dei problemi. Queste attività possono distrarre gli utenti dalla ricerca principale o dagli obiettivi aziendali e ridurre la produttività e l'efficienza dei carichi di lavoro di intelligenza artificiale/HPC.
L'area di lavoro di Azure CycleCloud per Slurm è un modello di soluzione di Azure Marketplace che consente agli utenti di creare, configurare e distribuire facilmente cluster Slurm predefiniti con CycleCloud in Azure, senza richiedere alcuna conoscenza precedente di Azure o Slurm. I cluster Slurm sono preconfigurati con PMix v4, Pyxis e enroot per supportare i compiti AI/HPC Slurm containerizzati. Gli utenti possono accedere al nodo di accesso fornito usando SSH o Visual Studio Code per eseguire attività comuni, come l'invio e la gestione dei processi Slurm.
Anche se Azure CycleCloud consente già di eseguire alcune di queste operazioni, non distribuisce automaticamente l'infrastruttura di intelligenza artificiale/HPC. Gli utenti devono gestire attività come l'installazione e la configurazione di CycleCloud, la configurazione della rete e l'archiviazione e la creazione e la configurazione del cluster Slurm. L'area di lavoro di Azure CycleCloud per Slurm esegue automaticamente queste attività in un modello di soluzione Marketplace che può essere distribuito direttamente dal portale di Azure o tramite l'interfaccia della riga di comando di Azure. Sei pronto in pochi minuti e non in giorni o settimane.
Quali sono i vantaggi dell'area di lavoro Azure CycleCloud per Slurm?
Azure CycleCloud è una soluzione ideale quando si vuole creare un ambiente di intelligenza artificiale/HPC in Azure, per trasferire in modalità lift-and-shift alcuni dei carichi di lavoro di intelligenza artificiale/HPC locali o per crearne uno nuovo. Tuttavia, la creazione di un ambiente di intelligenza artificiale/HPC end-to-end completo non è un'attività semplice ed è necessario decidere come progettare la rete, quale componente di archiviazione usare come file system condiviso, quale tipo di macchina virtuale per l'esecuzione del carico di lavoro e molte piccole operazioni che possono rendere il progetto complesso da distribuire.
L'area di lavoro Azure CycleCloud per Slurm offre diversi vantaggi per gli utenti che vogliono eseguire carichi di lavoro Slurm in Azure, ad esempio:
Creazione di cluster semplice e veloce: gli utenti possono creare cluster Slurm in Azure in pochi minuti, seguendo alcuni semplici passaggi nell'interfaccia utente grafica. Questa operazione deve essere confrontata con giorni o settimane di lavoro nel passato senza l'area di lavoro Azure CycleCloud per Slurm. Gli utenti possono scegliere tra varie dimensioni e tipi di macchina virtuale di Azure e personalizzare le impostazioni del cluster, ad esempio il numero di nodi, la configurazione di rete, le opzioni di archiviazione da Azure NetApp Files al file system lustre gestito di Azure e i parametri Slurm.
Gestione flessibile e dinamica dei cluster: i cluster Slurm vengono aumentati o diminuiti da Azure CycleCloud. Gli utenti possono anche monitorare lo stato, le prestazioni e l'utilizzo del cluster, nonché visualizzare i log e le metriche del cluster nell'interfaccia utente grafica. Gli utenti possono anche eliminare i cluster Slurm quando non sono più necessari e pagare solo per le risorse usate.
Come si crea un'area di lavoro di Azure CycleCloud per Slurm?
L'area di lavoro azure CycleCloud per Slurm può essere distribuita da Azure Marketplace o tramite l'interfaccia della riga di comando di Azure. Per eseguire la distribuzione da Marketplace, cercare Slurm e poi fare clic sul pulsante Crea. Per eseguire la distribuzione usando l'interfaccia della riga di comando di Azure, è prima necessario creare un file di parametri di input e quindi distribuirlo usando il az deployment sub create
comando . Le istruzioni dettagliate sono disponibili qui Come distribuire un ambiente dell'area di lavoro CycleCloud Slurm usando l'interfaccia della riga di comando
Che cosa non è lo spazio di lavoro Azure CycleCloud per Slurm?
L'area di lavoro Azure CycleCloud per Slurm non è un servizio PaaS: l'intera infrastruttura viene distribuita nel tenant, consentendo così di distribuire tutto (distribuzione greenfield) o specificare risorse esistenti da riutilizzare (distribuzione brownfield), ad esempio il gruppo di risorse di destinazione, la rete virtuale, Azure NetApp Files e altro ancora.
Come appare uno spazio di lavoro di Azure CycleCloud per un ambiente distribuito Slurm
Ecco l'architettura tipica di ciò che verrà distribuito da Azure CycleCloud Workspace per Slurm. Saranno disponibili risorse obbligatorie come una macchina virtuale per l'esecuzione di CycleCloud, un file system condiviso per le home directory dell'utente, un account di archiviazione per l'archiviazione dei progetti CycleCloud.
La rete virtuale può essere distribuita da Azure CycleCloud Workspace per Slurm o da una esistente in cui verranno create le risorse. Facoltativamente, un file system Azure Managed Lustre verrà creato nella propria subnet.
Se le regole di sicurezza aziendali non consentono l'indirizzo IP pubblico (e molti lo fanno), sarà possibile creare un peering di rete virtuale a una rete virtuale esistente in un modello hub e spoke consueto. L'hub contiene tutti i servizi di connettività, ad esempio un gateway di rete virtuale o azure Bastion.
Infine, in un ambiente senza IP pubblico e senza VPN, sarà necessario un Bastion che fornirà tutta la connettività protetta per connettersi al portale web di CycleCloud e accedere via SSH ai nodi di login.