GPU 分割
適用于:Azure Stack HCI 版本 23H2 和 22H2
GPU 分割可讓您與多部虛擬機器 (VM) 共用實體 GPU 裝置。 使用 GPU 資料分割或 GPU 虛擬化時,每個 VM 都會取得 GPU 的專用部分,而不是整個 GPU。
GPU 資料分割功能使用單一根 IO 虛擬化 (SR-IOV) 介面,為每個 VM 提供硬體支援的安全性界限與可預測的效能。 每個 VM 只能存取其專用的 GPU 資源,而安全硬體分割可防止其他 VM 未經授權存取。
Windows Server 引進了 GPU 分割即時移轉。 使用 GPU 分割即時移轉有特定需求。 除了建議的即時移轉最佳做法之外,您的叢集主機還需要具有輸入/輸出記憶體管理單元 (IOMMU) DMA 位元追蹤功能的處理器。 例如,支援 Intel VT-D 或 AMD-Vi 的處理器。 如果您使用 Windows Server 和即時移轉,而處理器沒有 IOMMU 功能,則 VM 會在有 GPU 資源可用時自動重新啟動。
GPU 資料分割是為獨立伺服器所設計的。 您可以在獨立節點之間即時移轉 VM,以因應計劃性停機。不過,如果客戶需要使用叢集功能來因應非計劃性停機,則必須改用 Windows Server 2025 Datacenter。
使用 GPU 分割的時機
某些工作負載,例如虛擬桌面基礎結構 (VDI)、人工智慧 (AI) 和 器學習 (ML) 推斷需要 GPU 加速,GPU 分割有助於降低整體基礎結構的總擁有成本。
例如:
VDI 應用程式:分散式邊緣客戶會在需要 GPU 加速的 VDI 環境中執行基本的生產力應用程式 (例如 Microsoft Office) 和圖形密集的視覺效果工作負載。 針對這類工作負載,您可以透過 DDA 或 GPU 分割達成必要的 GPU 加速。 透過 GPU 分割,您可以建立多個分割區,並將每個分割區指派給裝載 VDI 環境的 VM。 GPU 分割可協助您達到所需的密度,並讓支援的使用者數量呈指數成長。
使用 ML 進行推斷:零售店和製造廠的客戶可以在邊緣執行推斷,這需要為其伺服器提供 GPU 支援。 在伺服器上使用 GPU,您可以執行 ML 模型以快速取得結果,然後在資料傳送到雲端之前採取行動。 可以選擇傳輸完整的資料集,以繼續重新訓練和改進您的 ML 模型。 除了將整個實體 GPU 指派給 VM 的 DDA 之外,GPU 分割可讓您在同一個 GPU 上平行執行多個推斷應用程式,但在不同的實體分割區中,從而最大限度地利用 GPU。
支援的客體作業系統
Windows Server 2025 及更新版本上的 GPU 資料分割支援這些客體作業系統:
Azure Stack HCI 上的 GPU 分割支援這些客體作業系統:
- Windows 10 或更新版本
- Windows 10 企業版多工作階段或更新版本
- Windows Server 2019 或更新版本
- Linux Ubuntu 18.04 LTS、Linux Ubuntu 20.04 LTS、Linux Ubuntu 22.04 LTS
支援的 GPU
下列 GPU 支援 GPU 分割:
- NVIDIA A2
- NVIDIA A10
- NVIDIA A16
- NVIDIA A40
- NVIDIA L2
- NVIDIA L4
- NVIDIA L40
- NVIDIA L40S
注意
NVIDIA 驅動程式目前不支援使用 GPU 資料分割進行即時移轉。
我們建議您與原始設備製造商 (OEM) 合作夥伴和 GPU 獨立硬體供應商 (IHV) 合作,透過適當的設定和必要軟體來規劃、訂購和設定系統,以滿足您所需的工作負載。 但是,如果您想透過離散裝置指派 (DDA) 來使用 GPU 加速,我們可支援更多的 GPU。 請聯絡您的 OEM 合作夥伴和 IHV,以取得支援 DDA 的 GPU 清單。 如需透過 DDA 使用 GPU 加速的詳細資訊,請參閱離散裝置指派 (DDA)。
為了獲得最佳效能,建議您為叢集中所有伺服器的 GPU 建立同質設定。 同質設定包含安裝相同品牌和型號的 GPU,以及在叢集中所有伺服器的 GPU 中設定相同的分割區計數。 例如,在已安裝一或多個 GPU 之兩部伺服器組成的叢集中,所有 GPU 必須具有相同的品牌、型號和大小。 每個 GPU 上的分割區計數也必須相符。
限制
使用 GPU 分割功能時,請考慮下列限制:
如果您未使用同質設定,則不支援 GPU 分割。 以下是一些不受支援的設定範例:
在同一叢集中混合不同廠商的 GPU。
在同一叢集中使用相同廠商之不同產品系列的不同 GPU 模型。
您無法將實體 GPU 指派為 離散裝置指派 (DDA) 或可分割的 GPU。 您可以將它指派為 DDA 或可分割的 GPU,但不能同時指派為這兩者。
您只能將單一 GPU 分割區指派給 VM。
分割區會自動指派給 VM。 您無法針對特定 VM 選擇特定的分割區。
- 目前,Azure Stack HCI 上的 GPU 分割不支援 VM 即時移轉。 但是,如果發生失敗,VM 會自動重新啟動並位於有可用 GPU 資源的位置。
您可以使用 Windows Admin Center 或使用 PowerShell 分割 GPU。 建議您使用 Windows Admin Center 來設定和指派 GPU 分割區。 Windows Admin Center 會自動驗證叢集中所有伺服器的 GPU 是否有同質設定。 它提供適當的警告和錯誤,以採取任何所需的更正動作。
如果使用 PowerShell 佈建 GPU 分割,您必須在叢集中的每個伺服器上執行佈建步驟。 您必須手動確定叢集中所有伺服器的 GPU 都保持同質設定。
- 即時移轉已指派 GPU 分割區的虛擬機器時,Hyper-V 即時移轉會自動回復為使用 TCP/IP 和壓縮。 移轉虛擬機器可能會提高主機的 CPU 使用率。 此外,比起沒有附加 GPU 分割區的虛擬機器,即時移轉可能會花費更長的時間。
相關內容
如需搭配 VM 和 GPU 分割使用 GPU 的詳細資訊,請參閱:
如需搭配 VM 和 GPU 分割使用 GPU 的詳細資訊,請參閱: