Dela via


Snabbstart – Distribuera Azure CycleCloud-arbetsyta för Slurm med marketplace

Azure CycleCloud Workspace for Slurm är ett kostnadsfritt Marketplace-program som ger ett enkelt, säkert och skalbart sätt att hantera beräknings- och lagringsresurser för HPC- och AI-arbetsbelastningar. I den här snabbstarten installerar du CycleCloud-arbetsytan för Slurm med hjälp av Marketplace-programmet.

Förutsättningar

För den här snabbstarten behöver du:

  1. Ett Azure-konto med en aktiv prenumeration
  2. Rollerna deltagare och administratör för användaråtkomst på prenumerationsnivå

Hur distribuerar du?

  • Logga in på Azure-portalen.
  • Klicka på det övre vänstra + Create a Resource alternativet
  • I rutan Search services and marketplace anger du Slurm och väljer sedan Azure CycleCloud-arbetsyta för Slurm.
  • På sidan Azure CycleCloud Workspace for Slurm väljer du Skapa.

Skärmbild av Azure CycleCloud-arbetsytan för Slurm Marketplace-skärmen

Grundfraser

  • På sidan Ny Azure CycleCloud-arbetsyta för Slurm-konto anger eller väljer du följande information.
    • Prenumeration: Välj den prenumeration som ska användas om den inte redan har valts.
    • Region: Välj den Azure-region där du vill distribuera din CycleCloud-arbetsyta för Slurm-miljön.
    • Resursgrupp: Välj resursgruppen för Azure CycleCloud-arbetsytan för Slurm-kontot eller skapa en ny.
    • CycleCloud VM Size: Välj en ny VM-storlek eller behåll standardstorleken
    • Administratörsanvändare: Ange ett namn och ett lösenord för CycleCloud-administratörskontot.
    • Offentlig SSH-nyckel för administratör: Välj den offentliga SSH-nyckeln för administratörskontot direkt eller om den lagras i en SSH-nyckelresurs i Azure.

Skärmbild av skärmen Grundläggande alternativ

Filsystem

Användarnas hemkatalog – Skapa ny

Ange var användarnas hemkatalog ska finnas. Skapa en ny Builtin NFS- använder den virtuella datorn scheduler som en NFS-server med en ansluten datadisk. Skärmbild av filsystemmonteringen för /shared och /home Builtin NFS create new options screen

Skapa en ny Azure NetApp Files skapar ett ANF-konto, en pool och en volym för den angivna kapaciteten och tjänstnivån. Skärmbild av filsystemmonteringen för /shared- och /home Azure NetApp-filer skapar skärmen nya alternativ

Användarnas hemkatalog – Använd befintlig

Om du har en befintlig NFS-monteringspunkt väljer du alternativet Använd befintlig och anger inställningarna för att montera den. Skärmbild av filsystemmonteringen för /shared- och /home use external NFS options screen

Ytterligare filsystemmontering – Skapa ny

Om du behöver montera ytterligare ett filsystem för dina projektdata kan du antingen skapa ett nytt eller ange ett befintligt. Du kan skapa en ny Azure NetApp Files-volym eller ett Azure Managed Lustre-filsystem.

Skärmbild av ytterligare filsystemmontering för att skapa nya Azure NetApp Files-

Skärmbild av ytterligare filsystemmontering för att skapa nya Azure Managed Lustre-

Ytterligare filsystemmontering – Använd befintlig

Om du har en befintlig extern NFS-monteringspunkt eller ett Azure Managed Lustre-filsystem kan du ange monteringsalternativen.

Skärmbild av ytterligare filsystemmontering för en befintlig extern NFS-

Nätverkande

Ange här om du vill skapa ett nytt virtuellt nätverk och undernät eller använda ett befintligt.

Skapa ett nytt virtuellt nätverk

Skärmbild av nätverksalternativen för att skapa en ny

  • Välj den CIDR som ska matcha med antalet beräkningsnoder som du riktar in dig på och ange en grundläggande IP-adress.
  • Det är en bra idé att skapa en Bastion om du inte har direkt anslutning från företagets IT-avdelning.
  • Du måste skapa en NAT Gateway för att tillhandahålla utgående anslutning till Internet. Detta kommer att bli obligatoriskt 2025 och tillämpas redan av vissa företag,
  • Peer-koppla till ett befintligt virtuellt nätverk om du redan har en HUB som du vill peer-koppla till som kan leverera tjänster som Bastion och en VPN-gateway. Var noga med att välja en grundläggande IP-adress som är kompatibel med ditt peerkopplade virtuella nätverk. Kontrollera Tillåt gatewayöverföring om det peerkopplade virtuella nätverket har en gateway.

Använda befintligt virtuellt nätverk

Innan du använder ett befintligt virtuellt nätverk kontrollerar du kraven i Planera din CycleCloud-arbetsyta för Slurm-distribution

Skärmbild av nätverksalternativen för att använda en befintlig

Slurm-inställningar

Ange den VM-storlek och avbildning som ska användas för Scheduler och inloggningsnoderna. Avbildningar är de HPC-avbildningar som tillhandahålls på Azure Marketplace med associerade URI:er:

Bildnamn URI
Alma Linux 8.7 almalinux:almalinux-hpc:8_7-hpc-gen2:latest
Ubuntu 20.04 microsoft-dsvm:ubuntu-hpc:2004:latest
Ubuntu 22.04 microsoft-dsvm:ubuntu-hpc:2204:latest
Anpassad avbildning Du måste ange en avbildnings-URN eller ett bild-ID

Om du väljer Custom Image måste du ange en avbildnings-URN för en befintlig marketplace-avbildning eller ett bild-ID för en bild i ett Azure Compute-galleri.

Du kan också kontrollera Use image on all nodes om du vill att scheduler-, inloggningsnoder och beräkningsnoder ska använda samma avbildning.

Ange hur många inloggningsnoder du vill etablera vid start och det maximala antalet. När du aktiverar hälsokontroller körs slutligen nodhälsokontroller för HPC- och GPU-partitionerna för att automatiskt ta bort noder som inte är felfria när de startas.

Skärmbild av Slurm-inställningarna

Om du vill aktivera Slurm-jobbredovisning markerar du kryssrutan för att visa anslutningsalternativen. Observera att du måste ha en tidigare distribuerad Azure Database for MySQL flexibel serverresurs. Anslutning genom att tillhandahålla ett fullständigt domännamn eller en privat IP-adress är tillgänglig om du väljer att ange ett eget virtuellt nätverk eller använda VNET-peering när du skapar ett nytt virtuellt nätverk som en del av distributionen. Dessutom är anslutning via privat slutpunkt tillgänglig om du väljer att skapa ett nytt virtuellt nätverk.

Skärmbild av alternativen för Slurm-inställning för jobbredovisningsdatabasen, direkt FQDN-

Skärmbild av alternativen för Slurm-inställning för jobbredovisningsdatabasen med privat slutpunkt

Partitionsinställningar

Azure CycleCloud-arbetsytan för Slurm levereras med 3 definierade Slurm-partitioner:

  • HTC: för embarassingly icke-MPI jobb,
  • HPC: för nära kopplade MPI-jobb som främst använder VM-typer med InfiniBand-stöd,
  • GPU: för MPI- och icke-MPI GPU-jobb

Du kan ange att avbildningen och det maximala antalet noder ska etableras dynamiskt av CycleCloud för varje partition. Endast HTC-partitionen tillåter användning av Spot-instanser eftersom det vanligtvis inte är bästa praxis att använda Spot-instanser för HPC- och GPU-jobb. De här inställningarna kan dock åsidosättas efter distributionen i CycleCloud-användargränssnittet.

Skärmbild av alternativen för partitionsinställningar

Taggar

Ange relevanta taggar för de resurser som behövs. Node Array taggar tillämpas dynamiskt på virtuella datorer som etableras av CycleCloud.

Skärmbild av alternativen för taggar

Granska+skapa

Granska dina alternativ. Det här steget kommer också att bearbetas till vissa valideringar. Skärmbild av gransknings-

När det har skickats klickar du på knappen Skapa för att initiera distributionen Skärmbild av den distribution som pågår

Följ distributionsstatusen och stegen.

Kontrollera distributionen

Anslut till ccw-cyclecloud-vm med Bastion med användarnamnet och SSH-nycklarna som angavs under distributionen.

Skärmbild av menyn Anslut med Bastion Skärmbild av anslutningsalternativen Anslut med Bastion

När du är ansluten kontrollerar du cloud-init-loggarna för att kontrollera att allt är korrekt.

$tail -f -n 25 /var/log/cloud-init-output.log
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Waiting for Azure.MachineType to be populated...
Starting cluster ccws....
----------------------------
ccws : allocation -> started
----------------------------
Resource group: 
Cluster nodes:
    scheduler: Off -- --  
Total nodes: 1
CC start_cluster successful
/
exiting after install
Cloud-init v. 23.4-7.el8_10.alma.1 running 'modules:final' at Wed, 12 Jun 2024 10:15:53 +0000. Up 11.84 seconds.
Cloud-init v. 23.4-7.el8_10.alma.1 finished at Wed, 12 Jun 2024 10:28:15 +0000. Datasource DataSourceAzure [seed=/dev/sr0].  Up 754.29 seconds

Upprätta sedan anslutningen mellan klientdatorn och den virtuella CycleCloud-datorn. Detta kan vara från företagets IT, ett VPN, en Bastion-tunneltrafik, en ansluten offentlig IP-adress om företaget tillåter det. Anslut till webbgränssnittet genom att bläddra till https://<cycleccloud_ip>och autentisera med användarnamnet och lösenordet som angavs under distributionen. Bekräfta att både Scheduler och inloggningsnoden körs.

Ansluta till inloggningsnoden

När du använder Bastion använder du något av verktygsskripten util/ssh_thru_bastion.sh eller util/tunnel_thru_bastion.sh för att ansluta, förutsatt här. Om du inte använder en Bastion måste du upprätta direktanslutningen själv.