Dela via


Vad är Azure CycleCloud-arbetsyta för Slurm?

Slurm är en av de mest populära och mest använda arbetsbelastningshanteraren med öppen källkod för AI/HPC och molnbaserad databehandling. Slurm gör det möjligt för användare att köra storskaliga parallella och distribuerade program över en uppsättning beräkningsnoder och tillhandahåller funktioner som schemaläggning av jobb, resurshantering, feltolerans och energisparfunktioner. Slurm används av många av världens främsta superdatorer, forskningsinstitut, universitet och företag.

Det kan dock vara svårt och tidskrävande att konfigurera och hantera Slurm-kluster i molnet, särskilt för användare som inte är bekanta med molnmiljön eller Slurm-konfigurationen. Användarna måste hantera uppgifter som etablering och skalning av beräkningsnoder, installation och uppdatering av Slurm-programvara, konfiguration av nätverk och lagring, övervakning av klusterhälsa och prestanda samt felsökningsproblem. Dessa uppgifter kan distrahera användare från kärnforskning eller affärsmål och minska produktiviteten och effektiviteten i deras AI/HPC-arbetsbelastningar.

Azure CycleCloud Workspace for Slurm är en Azure Marketplace-lösningsmall som gör det möjligt för användare att enkelt skapa, konfigurera och distribuera fördefinierade Slurm-kluster med CycleCloud i Azure, utan att kräva några förkunskaper om Azure eller Slurm. Slurm-kluster kommer att förkonfigureras med PMix v4, Pyxis och enroot för att stödja containerbaserade AI/HPC Slurm-jobb. Användare kan komma åt den etablerade inloggningsnoden med hjälp av SSH eller Visual Studio Code för att utföra vanliga uppgifter som att skicka och hantera Slurm-jobb.

Azure CycleCloud låter dig redan göra några av dessa, men den distribuerar inte AI/HPC-infrastrukturen åt dig. Användarna måste hantera uppgifter som att installera och konfigurera CycleCloud, konfigurera nätverk och lagring samt skapa och konfigurera Slurm-klustret. Azure CycleCloud-arbetsytan för Slurm utför dessa uppgifter åt dig i en Marketplace-lösningsmall som kan distribueras direkt från Azure-portalen eller via Azure CLI. Du kommer att vara redo i minuter och inte dagar eller veckor.

Vilka är fördelarna med Azure CycleCloud-arbetsytan för Slurm?

Azure CycleCloud är en bra lösning när du vill skapa en AI/HPC-miljö i Azure, antingen för att lyfta och flytta en del av din lokala AI/HPC-arbetsbelastning eller för att skapa en ny. Att skapa en fullständig AI/HPC-miljö från slutpunkt till slutpunkt är dock inte en lätt uppgift och du måste bestämma hur du behöver utforma nätverket, vilken lagringskomponent som ska användas som ett delat filsystem, vilken VM-typ som ska köra din arbetsbelastning och många små saker som kan göra projektet komplext att leverera.

Azure CycleCloud-arbetsytan för Slurm erbjuder flera fördelar för användare som vill köra Slurm-arbetsbelastningar i Azure, till exempel:

  • Enkelt och snabbt att skapa kluster: Användare kan skapa Slurm-kluster i Azure på några minuter genom att följa några enkla steg i GUI. Detta måste jämföras med tidigare dagar eller veckors arbete utan Azure CycleCloud-arbetsyta för Slurm. Användarna kan välja mellan olika storlekar och typer av virtuella Azure-datorer och anpassa klusterinställningarna, till exempel antalet noder, nätverkskonfigurationen, lagringsalternativen från Azure NetApp Files till Azure Managed Lustre Filesystem och Slurm-parametrarna.

  • Flexibel och dynamisk klusterhantering: Slurm-kluster skalas upp eller ned av Azure CycleCloud. Användare kan också övervaka klusterstatus, prestanda och användning samt visa klusterloggarna och måtten i användargränssnittet. Användare kan också ta bort sina Slurm-kluster när de inte längre behövs och bara betala för de resurser de använder.

Hur skapar jag en Azure CycleCloud-arbetsyta för Slurm?

Azure CycleCloud-arbetsytan för Slurm kan distribueras antingen från Azure Marketplace eller med hjälp av Azure CLI. Om du vill distribuera från Marketplace söker du först efter Slurm och klickar sedan på knappen Skapa. Om du vill distribuera med Azure CLI måste du först skapa en indataparameterfil och sedan distribuera med hjälp av kommandot az deployment sub create. Detaljerade instruktioner finns här Distribuera en CycleCloud Slurm-arbetsytemiljö med hjälp av CLI-

Vilken Azure CycleCloud-arbetsyta för Slurm är inte?

Azure CycleCloud-arbetsytan för Slurm är inte en PaaS-tjänst: hela infrastrukturen distribueras i din klientorganisation, vilket gör att du kan distribuera allt (greenfield-distribution) eller ange befintliga resurser som ska återanvändas (brownfield-distribution), till exempel målresursgruppen, virtuellt nätverk, Azure NetApp Files med mera.

Hur en Azure CycleCloud-arbetsyta för Slurm-distribuerad miljö ser ut

Översiktsarkitektur

Här är den typiska arkitekturen för vad som ska distribueras av Azure CycleCloud Workspace for Slurm. Det kommer att finnas obligatoriska resurser som en virtuell dator för att köra CycleCloud, ett delat filsystem för användarnas hemkataloger, ett lagringskonto för CycleCloud-projektlagring.

Det virtuella nätverket kan antingen distribueras av Azure CycleCloud-arbetsytan för Slurm eller en befintlig där resurser skapas. Du kan också skapa ett Azure Managed Lustre-filsystem i ett eget undernät.

Om företagets säkerhetsregler inte tillåter offentlig IP -adress (och många gör det) kan du skapa en vnet-peering till ett befintligt virtuellt nätverk i ett vanligt nav- och ekermönster. Hubben innehåller sedan alla anslutningstjänster, till exempel en virtuell nätverksgateway eller en Azure Bastion.

I en offentlig IP-adress krävs slutligen ingen VPN-miljö, en Bastion och ger all säker anslutning för att ansluta till CycleCloud-webbportalen och SSH i inloggningsnoderna.

Nästa steg