您可以將圖形處理單位 (GPU) 包含在叢集中,以提供 GPU 加速給叢集 VM 中執行的工作負載。 GPU 加速可透過離散裝置指派 (DDA) 提供,這可讓您將一或多個實體 GPU 奉獻給 VM,或透過 GPU 分割。 叢集 VM 可以利用 GPU 加速,以及透過故障轉移的高可用性等叢集功能。
在本文中,您將瞭解如何使用 GPU 搭配叢集 VM,以使用離散裝置指派為工作負載提供 GPU 加速。 本文會引導您準備叢集、將 GPU 指派給叢集 VM,以及使用 Windows Admin Center 和 PowerShell 故障轉移該 VM。
小提示
目前不支援使用 DDA 提供的 GPU 進行虛擬機(VM)的即時遷移,但在故障時,VM 可以自動重新啟動,並可轉移至有 GPU 資源的地方。 想要在叢集 VM 中使用即時移轉? 請考慮使用 GPU 分割。 GPU 分割可讓您共用一小部分的 GPU,而不是整個 GPU。 若要深入瞭解何時使用 GPU 磁碟分區和支援即時移轉,請參閱 分割並將 GPU 指派給虛擬機。
必要條件
開始搭配叢集 VM 使用 GPU 之前,有幾個需求和考慮事項:
您需要 Azure Local 2311.2 和更新版本。
請檢視如何在 Azure 本機 2311.2 及更新版本中管理 GPU 的方法,請參閱 準備 Azure 本機的 GPU。
- 您需要執行 Windows Server 2025 或更新版本的 Windows Server 故障轉移叢集。
您必須熟悉故障移轉叢集和 Hyper-V。
您必須在叢集中的所有伺服器上安裝相同的 GPU 製造和模型。
檢閱並遵循 GPU 製造商的指示,在叢集中的每個伺服器上安裝必要的驅動程式和軟體。
視硬體廠商而定,您可能也需要設定任何 GPU 授權需求。
您需要已安裝 Windows Admin Center 的電腦。 此電腦可能是您的其中一個叢集節點。
依照使用離散裝置指派規劃裝置中的步驟,在叢集中準備 GPU 裝置。
確定您的裝置在 VM 內配置了足夠的 MMIO 空間。 如需詳細資訊,請參閱 MMIO 空間。
建立要指派 GPU 的 VM。 根據使用離散裝置指派部署圖形裝置中的指示,設定 DDA 的快取行為、停止動作和記憶體對應 I/O (MMIO) 屬性來準備該 VM。
在每部伺服器上安裝安全性風險降低驅動程式、停用 GPU,以及將它們從主機卸除,以準備每部伺服器的 GPU。 若要深入瞭解此程式,請參閱 使用離散裝置指派部署圖形裝置。
注意
您的系統必須支援具有 GPU 支援的 Azure 本機解決方案。 若要瀏覽選項,請瀏覽 Azure 在地目錄。
準備叢集
當必要條件完成時,您可以準備叢集以搭配叢集 VM 使用 GPU。
準備叢集牽涉到建立資源集區,其中包含可供指派給 VM 的 GPU。 叢集會使用此集區來判斷指派給 GPU 資源集區之任何已啟動或已移動 VM 的 VM 位置。
使用 Windows Admin Center,請遵循下列步驟來準備叢集以搭配叢集 VM 使用 GPU。
若要準備叢集,並將 VM 指派給 GPU 資源集區:
將 VM 指派給 GPU 資源集區
您現在可以將 VM 指派給 GPU 資源集區。 您可以將一或多個 VM 指派給叢集 GPU 資源集區,並從叢集 GPU 資源集區移除 VM。
請遵循下列步驟,使用 Windows Admin Center 將現有的 VM 指派給 GPU 資源集區。
注意
您也需要在 VM 內從 GPU 製造商安裝驅動程式,讓 VM 中的應用程式可以利用指派給他們的 GPU。
在 [ 將 VM 指派給 GPU 集區 ] 頁面上,指定下列專案,然後選取 [ 指派]:
- 伺服器名稱
- GPU 集區 名稱
- 您想要從 GPU 集區將 GPU 指派給的虛擬機 。
您也可以定義記憶體對應IO(MMIO) 空間的進階設定值,以判斷單一 GPU 的資源需求。
程式完成之後,您會收到確認提示,其中顯示您已成功將 GPU 從 GPU 資源集區指派給 VM,其會顯示在 [指派的 VM] 底下。
若要從 GPU 資源集區取消指派 VM:
當您啟動 VM 時,叢集可確保 VM 位於具有此叢集範圍集區中可用 GPU 資源的伺服器上。 叢集也會透過 DDA 將 GPU 指派給 VM,以允許從 VM 內的工作負載存取 GPU。
使用指派的 GPU 故障轉移 VM
若要測試叢集將 GPU 工作負載故障轉移的能力,請在 VM 所在且已指派 GPU 的伺服器上執行清空操作。 在伺服器上執行清空作業會導致叢集在另一部伺服器上重新啟動 VM,前提是另一部伺服器在您建立的集區中有足夠的可用資源。
若要清空伺服器,請遵循故障轉移叢集維護程式中的指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。
若要測試叢集將 GPU 工作負載故障轉移的能力,請在 VM 所在且已指派 GPU 的伺服器上執行清空操作。 在伺服器上執行清空作業會導致叢集在另一部伺服器上重新啟動 VM,前提是另一部伺服器在您建立的集區中有足夠的可用資源。
若要清空伺服器,請遵循故障轉移叢集維護程式中的指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。
相關內容
如需搭配叢集 VM 使用 GPU 的詳細資訊,請參閱:
如需搭配 VM 和 GPU 分割使用 GPU 的詳細資訊,請參閱: