Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Il partizionamento GPU consente di condividere un dispositivo GPU fisico con più macchine virtuali. Con il partizionamento o la virtualizzazione della GPU, ogni macchina virtuale ottiene una frazione dedicata della GPU anziché l'intera GPU.
La funzionalità di partizionamento GPU usa l'interfaccia SR-IOV (Single Root IO Virtualization), che fornisce un limite di sicurezza supportato da hardware con prestazioni prevedibili per ogni macchina virtuale. Ogni macchina virtuale può accedere solo alle risorse GPU a essa dedicate e il partizionamento hardware sicuro impedisce l'accesso non autorizzato da altre macchine virtuali.
A partire da Windows Server 2025, la migrazione in tempo reale è supportata con il partizionamento GPU, consentendo una maggiore flessibilità per la gestione delle macchine virtuali. Per usare la migrazione in tempo reale con il partizionamento GPU, assicurarsi che la configurazione soddisfi i requisiti descritti in questo articolo. La migrazione in tempo reale consente di spostare macchine virtuali tra host senza tempi di inattività, essenziali per la manutenzione e il bilanciamento del carico in un ambiente di produzione.
Questa funzionalità consente migrazioni di macchine virtuali pianificate mantenendo l'allocazione delle risorse GPU, garantendo tempi di inattività minimi e prestazioni coerenti.
Il partizionamento della GPU è progettato per i server autonomi. È possibile eseguire la migrazione in tempo reale di macchine virtuali tra nodi autonomi per tempi di inattività pianificati; tuttavia, i clienti che richiedono il clustering per tempi di inattività non pianificati devono usare Windows Server 2025 Datacenter.
Quando usare il partizionamento GPU
Alcuni carichi di lavoro, ad esempio l'infrastruttura VDI (Virtual Desktop Infrastructure), l'intelligenza artificiale e l'inferenza con Machine Learning (ML) richiedono l'accelerazione GPU e il partizionamento GPU può contribuire a ridurre il costo totale di proprietà per l'infrastruttura nel suo complesso.
Per esempio:
Applicazioni VDI: i clienti su perimetro distribuito eseguono app di produttività di base, ad esempio Microsoft Office e carichi di lavoro di visualizzazione con uso intensivo di grafica negli ambienti VDI, che richiedono accelerazione GPU. Per questi carichi di lavoro, è possibile ottenere l'accelerazione GPU necessaria tramite il partizionamento DDA o GPU. Con il partizionamento GPU è possibile creare più partizioni e assegnare ogni partizione a una macchina virtuale che ospita un ambiente VDI. Il partizionamento GPU consente di ottenere la densità desiderata e di ridimensionare il numero di utenti supportati in base a un ordine di grandezza.
Inferenza con Machine Learning: i clienti nei punti vendita al dettaglio e negli stabilimenti di produzione possono eseguire l'inferenza a livello perimetrale, che richiede il supporto GPU per i server. Usando la GPU nei server, è possibile eseguire modelli di Machine Learning per ottenere risultati rapidi su cui è possibile agire prima che i dati vengano inviati al cloud. Il set di dati completo può essere facoltativamente trasferito per continuare a ripetere il training dei modelli di Machine Learning e migliorarli. Oltre a DDA, in cui si dedica un'intera GPU fisica a una macchina virtuale, il partizionamento GPU consente di eseguire più applicazioni di inferenza contemporaneamente sulla stessa GPU, ma in partizioni hardware separate, ottimizzando l'utilizzo della GPU.
Requirements
Per usare il partizionamento GPU con la migrazione in tempo reale, è necessario avere una CPU, un sistema operativo e una GPU supportati. Le sezioni seguenti descrivono i requisiti.
Requisiti della CPU
Gli host del cluster devono essere dotati di processori capaci di rilevare i bit DMA tramite l'unità di gestione della memoria input/output (IOMMU). Ad esempio, i processori che supportano Intel VT-D o AMD-Vi. Se si usa Windows Server e la migrazione in tempo reale senza processori abilitati per IOMMU, le VM vengono riavviate automaticamente in posizioni in cui sono disponibili le risorse GPU.
Esempi di processori che supportano il rilevamento dei bit IOMMU DMA includono:
- AMD EPYC 7002 e versioni successive (Milano)
- 4a generazione Intel Xeon SP (Zaffiro Rapids)
Sistemi operativi guest supportati
Il partizionamento della GPU in Windows Server 2025 e versioni successive supporta i seguenti sistemi operativi guest:
- Windows 10 o versione successiva
- Windows 10 Enterprise multisessione o versioni successive
- Windows Server 2019 o versione successiva
- Linux Ubuntu 18.04 LTS, Linux Ubuntu 20.04 LTS, Linux Ubuntu 22.04 LTS
GPU supportate
Le GPU seguenti supportano il partizionamento GPU:
- NVIDIA A2
- NVIDIA A10
- NVIDIA A16
- NVIDIA A40
- NVIDIA L2
- NVIDIA L4
- NVIDIA L40
- NVIDIA L40S
Per usare la migrazione in tempo reale con il partizionamento GPU, è necessario usare il driver incluso nel software NVIDIA vGPU v18.x o versione successiva. Il driver NVIDIA fornisce il supporto necessario per il partizionamento gpu e le funzionalità di migrazione in tempo reale.
È consigliabile collaborare con i partner OEM (Original Equipment Manufacturer) per pianificare e ordinare i sistemi personalizzati per i carichi di lavoro. Consultare anche i fornitori di hardware indipendenti dalla GPU (IHD) per assicurarsi di disporre delle configurazioni appropriate e del software necessario per la configurazione. Tuttavia, supportiamo altre GPU se si vuole usare l'accelerazione GPU tramite DDA (Discrete Device Assignment). Contattare i partner OEM e i fornitori di hardware indipendenti per ottenere un elenco delle GPU che supportano DDA. Per altre informazioni sull'uso dell'accelerazione GPU tramite DDA, vedere Discrete Device Assignment (DDA).
Per ottenere prestazioni ottimali, è consigliabile creare una configurazione omogenea per le GPU in tutti i server del cluster. Una configurazione omogenea consiste nell'installare GPU di marca e modello identici e nel configurare lo stesso numero di partizioni nelle GPU in tutti i server del cluster. Ad esempio, in un cluster di due server con una o più GPU installate, tutte le GPU devono essere di marca, modello e dimensioni identici. Anche il numero di partizioni in ogni GPU deve corrispondere.
Limitations
Quando si usa la funzionalità di partizionamento GPU, considerare le limitazioni seguenti:
Il partizionamento GPU non è supportato se la configurazione non è omogenea. Di seguito sono riportati alcuni esempi di configurazioni non supportate:
Combinazione di GPU di fornitori diversi nello stesso cluster.
Uso di modelli di GPU diversi di famiglie di prodotti diverse dello stesso fornitore nello stesso cluster.
Non è possibile assegnare una GPU fisica come GPU partizionabile o DDA (Discrete Device Assignment). È possibile assegnarla come DDA o come GPU partizionabile, ma non come tutte e due.
Se si assegnano più partizioni GPU a una macchina virtuale, ogni partizione viene visualizzata come un'altra GPU.
Le partizioni vengono assegnate automaticamente alle VM. Non è possibile scegliere una partizione specifica per una macchina virtuale specifica.
È possibile partizionare la GPU usando Windows Admin Center o PowerShell. È consigliabile usare Windows Admin Center per configurare e assegnare partizioni GPU. Windows Admin Center convalida automaticamente una configurazione omogenea delle GPU in tutti i server del cluster. Fornisce avvisi ed errori appropriati per eseguire le azioni correttive necessarie.
Se si usa PowerShell per abilitare il partizionamento GPU, è necessario eseguire gli stessi passaggi di configurazione in ogni server del cluster. È necessario assicurarsi manualmente che la configurazione omogenea venga mantenuta per le GPU in tutti i server del cluster.
Quando si esegue la migrazione in tempo reale di una macchina virtuale con una partizione GPU assegnata, la migrazione in tempo reale di Hyper-V passa automaticamente all'uso di TCP/IP con compressione. La migrazione di una macchina virtuale ha come effetto potenziale l'aumento dell'uso della CPU di un host. Inoltre, le migrazioni in tempo reale potrebbero richiedere più tempo rispetto alle macchine virtuali senza partizioni GPU collegate.
Contenuti correlati
Per altre informazioni sull'uso di GPU con le macchine virtuali e il partizionamento GPU, vedere: