Azure HPC-landingszoneversneller (High Performance Computing)

Artikel
10/10/2023

De HPC-landingszoneversneller (High Performance Computing) automatiseert de implementatie van een omgeving. Deze omgeving biedt een basisframework dat u kunt aanpassen om een end-to-end implementatiemechanisme te maken voor een volledige HPC-clusteroplossing in Azure. De accelerator is een verzameling opensourcescripts en sjablonen die uw landingszones op ondernemingsniveau kunnen voorbereiden. Het kan een specifieke architectuurbenadering en een referentie-implementatie bieden die voldoet aan de architectuur en best practices van het Cloud Adoption Framework.

Klanten gebruiken HPC op verschillende manieren om aan hun bedrijfsbehoeften te voldoen en u kunt de HPC-landingszoneversneller aanpassen om een architectuur te produceren die op uw manier past. Met behulp van de accelerator kunt u uw organisatie op een duurzame schaal plaatsen.

Een landingszone op ondernemingsniveau implementeren

De HPC-landingszoneversneller gaat ervan uit dat u begint met een landingszone op ondernemingsniveau die is geïmplementeerd. Zie de volgende artikelen voor meer informatie over deze vereiste:

Wat de HPC-landingszoneversneller biedt

De benadering voor landingszones van de HPC-landingszoneversneller biedt de volgende assets voor uw project:

Een modulaire benadering, zodat u omgevingsvariabelen kunt aanpassen
Ontwerprichtlijnen om te helpen bij het evalueren van kritieke beslissingen
De architectuur van de landingszone
Een implementatie met:
- Een implementeerbare referentie waarmee de omgeving voor uw HPC-implementatie kan worden gemaakt
- Een door Microsoft goedgekeurde HPC-referentie-implementatie om de geïmplementeerde omgeving te testen

Ontwerprichtlijnen voor energie, productie en financiën

De architecturen van landingszones variëren per bedrijfssector, naast verschillen per organisatie. In deze sectie vindt u artikelen per sector die richtlijnen bieden voor het maken van uw landingszone:

Ontwerprichtlijnen voor het kiezen van HPC-rekenkracht voor AI-workloads

Het kiezen van de juiste SKU voor gpu geoptimaliseerde rekenkracht voor AI-workloads is belangrijk voor het optimaliseren van prestaties en het beheren van de kosten. Microsoft biedt veel verschillende SKU's die zijn geoptimaliseerd voor workloads die profiteren van meer GPU-kracht. Er zijn verschillende overwegingen bij het kiezen van de juiste SKU voor AI-workloads. Kleinere workloads kunnen alleen profiteren van een fractie van de CPU, GPU en bandbreedte van krachtigere SKU's, zoals NDv4. U kunt andere reken-SKU's, zoals NCv4 en NDv2, overwegen voor kleinere taken. Hier volgen enkele overwegingen bij het kiezen van de juiste SKU van geoptimaliseerde GPU-berekeningen voor AI-workloads:

Controlepunten. Houd rekening met factoren zoals het controlepuntinterval bij het uitvoeren van uw machine learning-modellen. Dit kan van invloed zijn op de GPU-prestaties tijdens de trainingsfase. Een balans vinden tussen opslagefficiëntie en het onderhouden van soepele GPU-bewerkingen. Bewaak uw GPU-gebruik.
Deductie. Deductievereisten verschillen van de trainingsvereisten, met een mogelijke hogere CPU-belasting die de CPU-prestaties kan beperken. Houd rekening met de deductievereisten van uw model bij het selecteren van een reken-SKU. Bewaak uw CPU-gebruik.
Training. Houd rekening met de vereisten van uw model tijdens de training, waarbij u het CPU- en GPU-gebruik bewaakt.
Grootte van taak. Overweeg bij het overwegen van de reken-SKU voor uw AI-workloads de grootte van de taak. Kleinere taken, zoals die ongeveer OPT 1.3B, profiteren mogelijk niet van grotere SKU-grootten en kunnen CPU- en GPU-energie inactief laten, afhankelijk van de fase van de taak (deductie, training).
Bandbreedte. Grotere, lagere latentiebandbreedte kan een kostenpost zijn wanneer deze niet wordt gebruikt. Overweeg InfiniBand alleen voor de grootste modellen waarvoor de extra bandbreedte is vereist.

Bekijk de voor GPU geoptimaliseerde grootten van virtuele machines van Azure.

Voorbeeld: conceptuele referentiearchitectuur voor energie

De volgende conceptuele referentiearchitectuur is een voorbeeld van ontwerpgebieden en best practices voor energieomgevingen .

Voorbeeld: conceptuele referentiearchitectuur voor financiën

De volgende conceptuele referentiearchitectuur is een voorbeeld van ontwerpgebieden en aanbevolen procedures voor financiële omgevingen.

Voorbeeld: conceptuele referentiearchitectuur voor productie

De volgende conceptuele referentiearchitectuur is een voorbeeld van ontwerpgebieden en aanbevolen procedures voor productieomgevingen .

De HPC-landingszoneversneller verkrijgen

De HPC-landingszoneversneller is beschikbaar op GitHub: Azure HPC OnDemand Platform Accelerator

Volgende stappen

Bekijk de kritieke ontwerpgebieden van de HPC-landingszoneversneller in Azure Identity and Access Management voor overwegingen en aanbevelingen voor uw architectuur voor de HPC-landingszoneversneller.