Övning – Skapa ett HPC-kluster från inbyggda mallar

Slutförd

Du kan skapa nya kluster direkt från det grafiska gränssnittet i Azure CycleCloud-webbappen. CycleCloud erbjuder många fördefinierade, schemaläggarspecifika mallar, vilket förenklar klusteretablering för motsvarande schemaläggare.

Nu när du har etablerat en virtuell Azure-dator som är värd för CycleCloud-webbprogrammen är du redo att utvärdera dess användning för distribution av ett Slurm-baserat HPC-kluster till Azure. Du måste först se till att azure-prenumerationen uppfyller klustrets resurskrav. Du vill också överväga om din ledningsgrupp vill behålla klustrets kostnad inom projektets budget. Därför planerar du att konfigurera CycleCloud-budgetaviseringar och avetablera labbmiljön när du har slutfört utvärderingen.

I den här övningen går du igenom distributionen av ett Slurm-baserat HPC-kluster till Azure med hjälp av Azure CycleCloud. Övningen består av följande uppgifter:

  • Uppgift 1: Förbereda distributionen av ett HPC-kluster
  • Uppgift 2: Skapa ett HPC-kluster med hjälp av Azure CycleCloud
  • Uppgift 3: Konfigurera och starta ett HPC-kluster med hjälp av Azure CycleCloud
  • Uppgift 4: Rensa labbmiljön

Uppgift 1: Förbereda distributionen av ett HPC-kluster

Innan du distribuerar ett HPC-kluster bör du först se till att du har tillräckligt med nätverks- och beräkningsresurser för att hantera dess användning.

Kommentar

För att slutföra den här övningen behöver du inte uppfylla kvotkraven för etablering av beräkningsnoderna eftersom du inte kör några jobb i klustret som du skapar. Men om så är fallet kanske du ser ett matchningsfel mellan skärmbilderna i den här övningen och ditt CycleCloud-webbgränssnitt, eftersom CycleCloud inte skapar platshållarberäkningsnoder i förväg om du inte har tillräckligt många tillgängliga kärnor.

  1. På datorn växlar du till webbläsarfönstret som visar Azure-portalen.

  2. I Azure-portalen använder du sökrutan överst i portalgränssnittet för att söka efter resursgruppen cyclecloud-rg .

  3. I Azure-portalen går du till sidan cyclecloud-rg och i listan över resurser väljer du posten cyclecloud-rg-vnet som representerar det virtuella nätverk som du etablerade i föregående övning i den här modulen.

  4. På sidan cyclecloud-rg-vnet går du till den lodräta menyn till vänster och väljer Undernät.

  5. På cyclecloud-rg-vnet | I fönstret Undernät väljer du + Undernät.

  6. I fönstret Lägg till undernät i textrutan Namn anger du contoso-slurm-lab-cluster-subnet, accepterar standardintervallet för undernätet och väljer Spara.

    Kommentar

    Vi rekommenderar att du separerar undernätet som är värd för den virtuella Datorn CycleCloud Azure från undernäten som är värdar för klusterberäkningsresurser. För större kluster bör du allokera TILLRÄCKLIGT stora IP-adressintervall.

  7. I Azure-portalen använder du sökrutan för att söka efter prenumerationer.

  8. På sidan Prenumerationer väljer du den Azure-prenumeration som du använder för övningar i den här modulen.

  9. På sidan som visar Azure-prenumerationen går du till den lodräta menyn till vänster och i avsnittet Inställningar väljer du Användning + kvoter.

  10. I fönstret Användning + kvoter konfigurerar du följande filtreringsinställningar (lämna andra med sina standardvärden):

    Inställning Värde
    Välj en tjänst Välj Standard Dv3 Family vCPU:er, Standard FSv2 Family vCPU:er och Totalt antal regionala vCPU:er .
    Välj en leverantör Välj posten Microsoft.Compute.
    Välj en plats Välj namnet på den Azure-region där du tänker distribuera klustret i den här övningen.
  11. Granska utdata och identifiera antalet tillgängliga vCPU:er i varje grupp.

    Skärmbild som visar fönstret Användning plus kvoter i Azure-portalen.

Uppgift 2: Skapa ett HPC-kluster med hjälp av Azure CycleCloud

Nu har du CycleCloud-webbprogrammet installerat på en virtuell Azure-dator, tillräckligt med vCPU-kärnor i din Azure-prenumeration och ett särskilt nätverksundernät som kan hantera automatisk skalning av klusternoder. Du är redo att fortsätta med distributionen av ett Slurm-baserat kluster.

  1. Välj länken Tillbaka till kluster i det övre vänstra hörnet i webbläsarfönstret som visar sidan Prenumerationer i Azure CycleCloud-webbprogrammet.

  2. På sidan Skapa ett nytt kluster granskar du de tillgängliga alternativen och i avsnittet Schemaläggare väljer du Slurm.

    Skärmbild som visar sidan Skapa ett nytt kluster i Azure CycleCloud-webbprogrammet.

  3. På fliken Omsidan Nytt Slurm-kluster går du till textrutan Klusternamn och anger contoso-slurm-lab-cluster.

    Skärmbild som visar fliken Om på sidan Nytt Slurm-kluster i Azure CycleCloud-webbprogrammet.

  4. På fliken Obligatoriskt Inställningarsidan Nytt Slurm-kluster i textrutan Klusternamn konfigurerar du följande inställningar (låt andra ha sina standardvärden):

    Inställning Värde
    Region Välj namnet på den Azure-region där du tänker distribuera klustret i den här övningen.
    Vm-typ för Scheduler Välj Välj och i popup-fönstret Välj en datortyp går du till textrutan SKU Search och anger "D2ds_v5". I listan med resultat markerar du kryssrutan bredvid posten D2ds_v5 och väljer sedan Använd.

    Skärmbild som visar popup-fönstret Välj en datortyp på sidan Nytt Slurm-kluster i Azure CycleCloud-webbprogrammet.

    Inställning Värde
    Maximalt antal HPC-kärnor Ange 100
    Maximalt antal HTC-kärnor Ange 100
    Maximalt antal virtuella datorer per skalningsuppsättning Ange 40
    Undernäts-ID Välj cyclecloud-rg: cyclecloud-rg-vnet-contoso-slurm-lab-cluster-subnet

    Skärmbild som visar fliken Obligatoriskt Inställningar på sidan Nytt Slurm-kluster i Azure CycleCloud-webbprogrammet.

    Kommentar

    Inställningen Maximalt antal virtuella datorer per skalningsuppsättning begränsar den maximala storleken på ett meddelandeöverföringsgränssnittsjobb som kan köras i klustret, eftersom skalningsuppsättningen för närvarande är infiniBand-infrastrukturgränsen.

  5. På fliken Nätverksansluten lagringsidan Nytt Slurm-kluster kontrollerar du att NFS-typen är inställd på Inbyggd. Acceptera standardvärdet för Storlek (GB) inställt på 100 och välj Nästa.

    Skärmbild som visar fliken Nätverksansluten lagring på sidan Nytt Slurm-kluster i Azure CycleCloud-webbprogrammet.

  6. På fliken Avancerat Inställningarsidan Nytt Slurm-kluster granskar du de tillgängliga alternativen utan att göra några ändringar och väljer sedan Nästa.

    Skärmbild som visar fliken Avancerat Inställningar på sidan Nytt Slurm-kluster i Azure CycleCloud-webbprogrammet.

  7. På fliken Cloud-initsidan Nytt Slurm-kluster granskar du de tillgängliga alternativen utan att göra några ändringar och väljer sedan Spara.

Uppgift 3: Konfigurera och starta ett HPC-kluster med hjälp av Azure CycleCloud

Förbered för operationalisering av klustret genom att ställa in aviseringar som meddelar dig när klusteranvändningskostnaderna når den budget som allokerats mot kostnaden för Azure-resurser. Du kan också verifiera distributionen genom att starta klustret med det grafiska gränssnittet för CycleCloud-webbprogrammet.

  1. På datorn går du till webbläsaren och visar det grafiska gränssnittet för Azure CycleCloud-webbprogrammet och granskar egenskaperna för det nyligen distribuerade klustret.

    Skärmbild som visar sidan för contoso-slurm-lab-cluster i inaktiverat tillstånd i Azure CycleCloud-webbappen.

  2. På sidan contoso-slurm-lab-cluster väljer du länken Skapa ny avisering.

  3. I popup-fönstret Klusteranvändningsavisering för contoso-slurm-lab-cluster anger du följande inställningar och väljer sedan Spara:

    Inställning Värde
    Budget 100,00 USD
    Per Month
    Skicka meddelande Aktiverad
    Mottagare cc-admin@contoso.com

    Skärmbild som visar klusteranvändningsaviseringen för popup-fönstret contoso-slurm-lab-cluster i Azure CycleCloud-webbprogrammet.

  4. På sidan contoso-slurm-lab-cluster väljer du startlänken och väljer OK när du uppmanas att bekräfta.

  5. Övervaka startprocessen.

    Kommentar

    Processen omfattar etablering av den virtuella Azure-datorn som hanterar rollen för klustrets huvudnod samt installation och konfiguration av Slurm-schemaläggaren. Det kan ta ungefär fem minuter.

    Skärmbild som visar fliken Noder i contoso-slurm-lab-cluster i det startade tillståndet i Azure CycleCloud-webbprogrammet.

Uppgift 4: Rensa labbmiljön

Du har slutfört testningen av klusterdistributionsprocessen med hjälp av Azure CycleCloud-programmet. För att undvika onödiga kostnader i samband med användning av Azure-resurser avslutar du klustret och tar bort alla resurser som du har etablerat under övningarna i den här kursen.

  1. På datorn går du till webbläsaren och visar det grafiska gränssnittet för Azure CycleCloud-webbprogrammet, på sidan contoso-slurm-lab-cluster väljer du länken Avsluta och väljer OK när du uppmanas att bekräfta.

  2. Övervaka avslutningsprocessen.

    Kommentar

    Processen omfattar avetablering av den virtuella Azure-datorn som hanterar rollen för klustrets huvudnod. Det kan ta ungefär fem minuter.

    Kommentar

    Du bör ta bort de resurser som du distribuerade som en del av den här övningen, enligt beskrivningen i den här uppgiften. Om du inte tar bort resurserna kan du debiteras ytterligare avgifter för din prenumeration.

    Kommentar

    Om du vill ta bort alla andra resurser som du har etablerat i den här labbuppgiften tar du bort resursgruppen cyclecloud-rg .

  3. På datorn växlar du till webbläsarfönstret som visar Azure-portalen.

  4. Gå till bladet cyclecloud-rg i Azure-portalen. Välj posten Ta bort resursgrupp i verktygsfältet. I textrutan SKRIV RESURSGRUPPENS NAMN anger du cyclecloud-rg och väljer sedan Ta bort.

  5. Upprepa föregående steg för att ta bort resursgruppen med namnet som börjar med contoso-slurm-lab-cluster – som innehåller diskresursen som används av klustret.

Grattis! Du har slutfört den andra övningen i den här modulen. Du har säkerställt tillgängligheten för beräknings- och nätverksresurser som krävs för distribution av ett nytt kluster. Sedan distribuerade du klustret med hjälp av Azure CycleCloud, konfigurerade dess budgetaviseringar och startade det för att verifiera dess funktioner. Slutligen avslutade du klustret och tog bort alla resurser som du etablerade i den här modulen för att undvika onödiga kostnader.