Acceleratore di zona di destinazione HPC (High Performance Computing) di Azure
L'acceleratore di zona di destinazione HPC (High Performance Computing) automatizza la distribuzione di un ambiente. Questo ambiente offre un framework di base che è possibile personalizzare per creare un meccanismo di distribuzione end-to-end per una soluzione cluster HPC completa in Azure. L'acceleratore è una raccolta di script e modelli open source che possono preparare le zone di destinazione su scala aziendale. Può fornire un approccio architetturale specifico e un'implementazione di riferimento conforme all'architettura e alle procedure consigliate di Cloud Adoption Framework.
I clienti adottano HPC in vari modi per soddisfare le proprie esigenze aziendali ed è possibile adattare l'acceleratore di zona di destinazione HPC per produrre un'architettura adatta alle proprie esigenze. L'uso dell'acceleratore consente all'organizzazione di raggiungere una scalabilità sostenibile.
Implementare una zona di destinazione su scala aziendale
L'acceleratore di zona di destinazione HPC presuppone che si inizi con una zona di destinazione su scala aziendale implementata correttamente. Per altre informazioni su questo prerequisito, vedere gli articoli seguenti:
- Iniziare con le zone di destinazione su scala aziendale di Cloud Adoption Framework
- Implementare zone di destinazione di scalabilità aziendale di Cloud Adoption Framework in Azure
Elementi forniti dall'acceleratore di zona di destinazione HPC
L'approccio alle zone di destinazione dell'acceleratore di zona di destinazione HPC fornisce gli asset seguenti al progetto:
- Approccio modulare, in modo da poter personalizzare le variabili di ambiente
- Linee guida di progettazione per facilitare la valutazione delle decisioni critiche
- Architettura della zona di destinazione
- Implementazione che include:
- Riferimento distribuibile in grado di creare l'ambiente per la distribuzione HPC
- Implementazione di riferimento HPC approvata da Microsoft per testare l'ambiente distribuito
Linee guida di progettazione per energia, produzione e finanza
Le architetture delle zone di destinazione variano in base al settore aziendale, oltre a variare in base all'organizzazione. Questa sezione elenca articoli per settore che forniscono linee guida per la creazione della zona di destinazione:
Energia (petrolio e gas)
- Fatturazione di Azure e tenant di Microsoft Entra per HPC per l'energia
- Gestione delle identità e degli accessi per Azure HPC in energia
- Gestione per Azure HPC in energia
- Topologia di rete e connettività per Azure HPC in energia
- Automazione della piattaforma e DevOps per Azure HPC in energia
- Organizzazione delle risorse per HPC nel settore energetico
- Governance per HPC nei settori energetici
- Sicurezza per Azure HPC in energia
- Calcola carichi di lavoro di applicazioni HPC su larga scala nelle macchine virtuali di Azure
- Archiviazione per ambienti di energia HPC
Produzione
- Produzione di tenant hpc di Azure e tenant di Active Directory
- Gestione delle identità e degli accessi di Azure per HPC nella produzione
- Gestione di HPC nel settore manifatturiero
- Produzione della topologia e della connettività di rete HPC
- Automazione della piattaforma e DevOps per Azure HPC nel settore manifatturiero
- Organizzazione delle risorse HPC per la produzione
- Governance di Azure per la produzione di HPC
- Sicurezza per HPC nei settori manifatturieri
- Produzione di archiviazione HPC
Dati finanziari
- Offerte di fatturazione di Azure e tenant di Active Directory per la finanza HPC
- Finance HPC Azure identity and access management
- Gestione di HPC nel settore finanziario
- Topologia di rete e connettività per HPC nel settore finanziario
- Automazione della piattaforma e DevOps per HPC nel settore finanziario
- Organizzazione delle risorse per Azure HPC nel settore finanziario
- Governance per l'HPC finanziario
- Sicurezza per HPC nel settore finanziario
- Archiviazione per HPC nel settore finanziario
Linee guida per la progettazione per la scelta del calcolo HPC per i carichi di lavoro di intelligenza artificiale
La scelta dello SKU corretto del calcolo ottimizzato per gpu per i carichi di lavoro di intelligenza artificiale è importante per ottimizzare le prestazioni e controllare i costi. Microsoft offre molti SKU diversi ottimizzati per i carichi di lavoro che traggono vantaggio da una maggiore potenza gpu. Quando si sceglie lo SKU appropriato per i carichi di lavoro di intelligenza artificiale, è necessario tenere presenti diverse considerazioni. I carichi di lavoro più piccoli possono sfruttare solo una frazione della CPU, della GPU e della larghezza di banda di SKU più potenti come NDv4. È possibile prendere in considerazione altri SKU di calcolo, ad esempio NCv4 e NDv2, per processi più piccoli. Ecco alcune considerazioni quando si sceglie lo SKU appropriato per il calcolo ottimizzato per GPU per i carichi di lavoro di intelligenza artificiale:
- Checkpointing. Prendere in considerazione fattori come l'intervallo di checkpoint durante l'esecuzione dei modelli di Machine Learning. Ciò può influire sulle prestazioni della GPU durante la fase di training. Trovare un equilibrio tra efficienza di archiviazione e mantenimento di operazioni GPU uniformi. Monitorare l'utilizzo della GPU.
- Inferenza. I requisiti di inferenza differiscono dai requisiti di training, con un possibile carico di CPU superiore che può aumentare le prestazioni della CPU. Quando si seleziona uno SKU di calcolo, prendere in considerazione i requisiti di inferenza del modello. Monitorare l'utilizzo della CPU.
- Formazione. Prendere in considerazione i requisiti del modello durante il training, monitorando sia l'utilizzo della CPU che della GPU.
- Ridimensionamento dei processi. Quando si considera lo SKU di calcolo per i carichi di lavoro di intelligenza artificiale, prendere in considerazione le dimensioni del processo. I processi più piccoli, ad esempio quelli opt 1.3B circa, potrebbero non sfruttare le dimensioni dello SKU più grandi e potrebbero lasciare inattive la CPU e la potenza GPU a seconda della fase del processo (inferenza, training).
- Banda. La larghezza di banda di latenza più grande e bassa può essere una spesa quando non viene usata. Si consideri InfiniBand solo per i modelli più grandi che richiederanno la larghezza di banda aggiuntiva.
Visualizzare le dimensioni delle macchine virtuali ottimizzate per la GPU di Azure.
Esempio: architettura di riferimento concettuale per l'energia
L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti energetici .
Esempio: architettura di riferimento concettuale per finanza
L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti finanziari .
Esempio: architettura di riferimento concettuale per la produzione
L'architettura di riferimento concettuale seguente è un esempio che illustra le aree di progettazione e le procedure consigliate per gli ambienti di produzione .
Ottenere l'acceleratore di zona di destinazione HPC
L'acceleratore di zona di destinazione HPC è disponibile in GitHub: Azure HPC OnDemand Platform Accelerator
Passaggi successivi
Per considerazioni e consigli per l'architettura dell'acceleratore di zona di destinazione HPC, esaminare le aree di progettazione critiche dell'acceleratore di zona di destinazione HPC in Gestione delle identità e degli accessi di Azure.