Condividi tramite


Acceleratore di zona di destinazione HPC (High Performance Computing) di Azure

L'acceleratore di zona di destinazione HPC (High Performance Computing) automatizza la distribuzione di un ambiente. Questo ambiente offre un framework di base che è possibile personalizzare per creare un meccanismo di distribuzione end-to-end per una soluzione cluster HPC completa in Azure. L'acceleratore è una raccolta di script e modelli open source che possono preparare le zone di destinazione su scala aziendale. Può fornire un approccio architetturale specifico e un'implementazione di riferimento conforme all'architettura e alle procedure consigliate di Cloud Adoption Framework.

I clienti adottano HPC in vari modi per soddisfare le proprie esigenze aziendali ed è possibile adattare l'acceleratore di zona di destinazione HPC per produrre un'architettura adatta alle proprie esigenze. L'uso dell'acceleratore consente all'organizzazione di raggiungere una scalabilità sostenibile.

Implementare una zona di destinazione su scala aziendale

L'acceleratore di zona di destinazione HPC presuppone che si inizi con una zona di destinazione su scala aziendale implementata correttamente. Per altre informazioni su questo prerequisito, vedere gli articoli seguenti:

Elementi forniti dall'acceleratore di zona di destinazione HPC

L'approccio alle zone di destinazione dell'acceleratore di zona di destinazione HPC fornisce gli asset seguenti al progetto:

  • Approccio modulare, in modo da poter personalizzare le variabili di ambiente
  • Linee guida di progettazione per facilitare la valutazione delle decisioni critiche
  • Architettura della zona di destinazione
  • Implementazione che include:
    • Riferimento distribuibile in grado di creare l'ambiente per la distribuzione HPC
    • Implementazione di riferimento HPC approvata da Microsoft per testare l'ambiente distribuito

Linee guida di progettazione per energia, produzione e finanza

Le architetture delle zone di destinazione variano in base al settore aziendale, oltre a variare in base all'organizzazione. Questa sezione elenca articoli per settore che forniscono linee guida per la creazione della zona di destinazione:

Linee guida per la progettazione per la scelta del calcolo HPC per i carichi di lavoro di intelligenza artificiale

La scelta dello SKU corretto del calcolo ottimizzato per gpu per i carichi di lavoro di intelligenza artificiale è importante per ottimizzare le prestazioni e controllare i costi. Microsoft offre molti SKU diversi ottimizzati per i carichi di lavoro che traggono vantaggio da una maggiore potenza gpu. Quando si sceglie lo SKU appropriato per i carichi di lavoro di intelligenza artificiale, è necessario tenere presenti diverse considerazioni. I carichi di lavoro più piccoli possono sfruttare solo una frazione della CPU, della GPU e della larghezza di banda di SKU più potenti come NDv4. È possibile prendere in considerazione altri SKU di calcolo, ad esempio NCv4 e NDv2, per processi più piccoli. Ecco alcune considerazioni quando si sceglie lo SKU appropriato per il calcolo ottimizzato per GPU per i carichi di lavoro di intelligenza artificiale:

  • Checkpointing. Prendere in considerazione fattori come l'intervallo di checkpoint durante l'esecuzione dei modelli di Machine Learning. Ciò può influire sulle prestazioni della GPU durante la fase di training. Trovare un equilibrio tra efficienza di archiviazione e mantenimento di operazioni GPU uniformi. Monitorare l'utilizzo della GPU.
  • Inferenza. I requisiti di inferenza differiscono dai requisiti di training, con un possibile carico di CPU superiore che può aumentare le prestazioni della CPU. Quando si seleziona uno SKU di calcolo, prendere in considerazione i requisiti di inferenza del modello. Monitorare l'utilizzo della CPU.
  • Formazione. Prendere in considerazione i requisiti del modello durante il training, monitorando sia l'utilizzo della CPU che della GPU.
  • Ridimensionamento dei processi. Quando si considera lo SKU di calcolo per i carichi di lavoro di intelligenza artificiale, prendere in considerazione le dimensioni del processo. I processi più piccoli, ad esempio quelli opt 1.3B circa, potrebbero non sfruttare le dimensioni dello SKU più grandi e potrebbero lasciare inattive la CPU e la potenza GPU a seconda della fase del processo (inferenza, training).
  • Banda. La larghezza di banda di latenza più grande e bassa può essere una spesa quando non viene usata. Si consideri InfiniBand solo per i modelli più grandi che richiederanno la larghezza di banda aggiuntiva.

Visualizzare le dimensioni delle macchine virtuali ottimizzate per la GPU di Azure.

Esempio: architettura di riferimento concettuale per l'energia

L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti energetici .

Diagram that shows an example architecture for an energy environment, including compute, storage, subnets, a database, and a front end for on-premises users.

Esempio: architettura di riferimento concettuale per finanza

L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti finanziari .

Diagram that shows an example architecture for a finance environment, including on-premises resources, virtual network, subnets, and network security groups.

Esempio: architettura di riferimento concettuale per la produzione

L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti di produzione .

Diagram that shows an example architecture for a manufacturing environment, including on-premises and cloud resources and an HPC landing zone.

Ottenere l'acceleratore di zona di destinazione HPC

L'acceleratore di zona di destinazione HPC è disponibile in GitHub: Azure HPC OnDemand Platform Accelerator

Passaggi successivi

Per considerazioni e consigli per l'architettura dell'acceleratore di zona di destinazione HPC, esaminare le aree di progettazione critiche dell'acceleratore di zona di destinazione HPC in Gestione delle identità e degli accessi di Azure.