Snabbstart – Distribuera Azure CycleCloud-arbetsyta för Slurm med marketplace
Azure CycleCloud Workspace for Slurm är ett kostnadsfritt Marketplace-program som ger ett enkelt, säkert och skalbart sätt att hantera beräknings- och lagringsresurser för HPC- och AI-arbetsbelastningar. I den här snabbstarten installerar du CycleCloud-arbetsytan för Slurm med hjälp av Marketplace-programmet.
Förutsättningar
För den här snabbstarten behöver du:
- Ett Azure-konto med en aktiv prenumeration
- Rollerna deltagare och administratör för användaråtkomst på prenumerationsnivå
Hur distribuerar du?
- Logga in på Azure-portalen.
- Klicka på det övre vänstra
+ Create a Resource
alternativet - I rutan
Search services and marketplace
anger du Slurm och väljer sedan Azure CycleCloud-arbetsyta för Slurm. - På sidan Azure CycleCloud Workspace for Slurm väljer du Skapa.
Grundfraser
- På sidan Ny Azure CycleCloud-arbetsyta för Slurm-konto anger eller väljer du följande information.
- Prenumeration: Välj den prenumeration som ska användas om den inte redan har valts.
- Region: Välj den Azure-region där du vill distribuera din CycleCloud-arbetsyta för Slurm-miljön.
- Resursgrupp: Välj resursgruppen för Azure CycleCloud-arbetsytan för Slurm-kontot eller skapa en ny.
- CycleCloud VM Size: Välj en ny VM-storlek eller behåll standardstorleken
- Administratörsanvändare: Ange ett namn och ett lösenord för CycleCloud-administratörskontot.
- Offentlig SSH-nyckel för administratör: Välj den offentliga SSH-nyckeln för administratörskontot direkt eller om den lagras i en SSH-nyckelresurs i Azure.
Filsystem
Användarnas hemkatalog – Skapa ny
Ange var användarnas hemkatalog ska finnas. Skapa en ny Builtin NFS- använder den virtuella datorn scheduler som en NFS-server med en ansluten datadisk.
Skapa en ny Azure NetApp Files skapar ett ANF-konto, en pool och en volym för den angivna kapaciteten och tjänstnivån.
Användarnas hemkatalog – Använd befintlig
Om du har en befintlig NFS-monteringspunkt väljer du alternativet Använd befintlig och anger inställningarna för att montera den.
Ytterligare filsystemmontering – Skapa ny
Om du behöver montera ytterligare ett filsystem för dina projektdata kan du antingen skapa ett nytt eller ange ett befintligt. Du kan skapa en ny Azure NetApp Files-volym eller ett Azure Managed Lustre-filsystem.
Ytterligare filsystemmontering – Använd befintlig
Om du har en befintlig extern NFS-monteringspunkt eller ett Azure Managed Lustre-filsystem kan du ange monteringsalternativen.
Nätverkande
Ange här om du vill skapa ett nytt virtuellt nätverk och undernät eller använda ett befintligt.
Skapa ett nytt virtuellt nätverk
- Välj den CIDR som ska matcha med antalet beräkningsnoder som du riktar in dig på och ange en grundläggande IP-adress.
- Det är en bra idé att skapa en Bastion om du inte har direkt anslutning från företagets IT-avdelning.
- Du måste skapa en NAT Gateway för att tillhandahålla utgående anslutning till Internet. Detta kommer att bli obligatoriskt 2025 och tillämpas redan av vissa företag,
- Peer-koppla till ett befintligt virtuellt nätverk om du redan har en HUB som du vill peer-koppla till som kan leverera tjänster som Bastion och en VPN-gateway. Var noga med att välja en grundläggande IP-adress som är kompatibel med ditt peerkopplade virtuella nätverk. Kontrollera Tillåt gatewayöverföring om det peerkopplade virtuella nätverket har en gateway.
Använda befintligt virtuellt nätverk
Innan du använder ett befintligt virtuellt nätverk kontrollerar du kraven i Planera din CycleCloud-arbetsyta för Slurm-distribution
Slurm-inställningar
Ange den VM-storlek och avbildning som ska användas för Scheduler och inloggningsnoderna. Avbildningar är de HPC-avbildningar som tillhandahålls på Azure Marketplace med associerade URI:er:
Bildnamn | URI |
---|---|
Alma Linux 8.7 | almalinux:almalinux-hpc:8_7-hpc-gen2:latest |
Ubuntu 20.04 | microsoft-dsvm:ubuntu-hpc:2004:latest |
Ubuntu 22.04 | microsoft-dsvm:ubuntu-hpc:2204:latest |
Anpassad avbildning | Du måste ange en avbildnings-URN eller ett bild-ID |
Om du väljer Custom Image
måste du ange en avbildnings-URN för en befintlig marketplace-avbildning eller ett bild-ID för en bild i ett Azure Compute-galleri.
Du kan också kontrollera Use image on all nodes
om du vill att scheduler-, inloggningsnoder och beräkningsnoder ska använda samma avbildning.
Ange hur många inloggningsnoder du vill etablera vid start och det maximala antalet. När du aktiverar hälsokontroller körs slutligen nodhälsokontroller för HPC- och GPU-partitionerna för att automatiskt ta bort noder som inte är felfria när de startas.
Om du vill aktivera Slurm-jobbredovisning markerar du kryssrutan för att visa anslutningsalternativen. Observera att du måste ha en tidigare distribuerad Azure Database for MySQL flexibel serverresurs. Anslutning genom att tillhandahålla ett fullständigt domännamn eller en privat IP-adress är tillgänglig om du väljer att ange ett eget virtuellt nätverk eller använda VNET-peering när du skapar ett nytt virtuellt nätverk som en del av distributionen. Dessutom är anslutning via privat slutpunkt tillgänglig om du väljer att skapa ett nytt virtuellt nätverk.
Partitionsinställningar
Azure CycleCloud-arbetsytan för Slurm levereras med 3 definierade Slurm-partitioner:
- HTC: för embarassingly icke-MPI jobb,
- HPC: för nära kopplade MPI-jobb som främst använder VM-typer med InfiniBand-stöd,
- GPU: för MPI- och icke-MPI GPU-jobb
Du kan ange att avbildningen och det maximala antalet noder ska etableras dynamiskt av CycleCloud för varje partition. Endast HTC-partitionen tillåter användning av Spot-instanser eftersom det vanligtvis inte är bästa praxis att använda Spot-instanser för HPC- och GPU-jobb. De här inställningarna kan dock åsidosättas efter distributionen i CycleCloud-användargränssnittet.
Taggar
Ange relevanta taggar för de resurser som behövs.
Node Array
taggar tillämpas dynamiskt på virtuella datorer som etableras av CycleCloud.
Granska+skapa
Granska dina alternativ. Det här steget kommer också att bearbetas till vissa valideringar.
När det har skickats klickar du på knappen Skapa för att initiera distributionen
Följ distributionsstatusen och stegen.
Kontrollera distributionen
Anslut till ccw-cyclecloud-vm
med Bastion med användarnamnet och SSH-nycklarna som angavs under distributionen.
När du är ansluten kontrollerar du cloud-init-loggarna för att kontrollera att allt är korrekt.
$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group:
Cluster nodes:
scheduler: Off -- --
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0]. Up 754.29 seconds
Upprätta sedan anslutningen mellan klientdatorn och den virtuella CycleCloud-datorn. Detta kan vara från företagets IT, ett VPN, en Bastion-tunneltrafik, en ansluten offentlig IP-adress om företaget tillåter det. Anslut till webbgränssnittet genom att bläddra till https://<cycleccloud_ip>och autentisera med användarnamnet och lösenordet som angavs under distributionen. Bekräfta att både Scheduler och inloggningsnoden körs.
Ansluta till inloggningsnoden
När du använder Bastion använder du något av verktygsskripten util/ssh_thru_bastion.sh eller util/tunnel_thru_bastion.sh för att ansluta, förutsatt här. Om du inte använder en Bastion måste du upprätta direktanslutningen själv.