共用方式為


在叢集 VM 中使用 GPU 並進行離散裝置指派

您可以將圖形處理單位 (GPU) 包含在叢集中,以提供 GPU 加速給叢集 VM 中執行的工作負載。 GPU 加速可透過離散裝置指派 (DDA) 提供,這可讓您將一或多個實體 GPU 奉獻給 VM,或透過 GPU 分割。 叢集 VM 可以利用 GPU 加速,以及透過故障轉移的高可用性等叢集功能。

在本文中,您將瞭解如何使用 GPU 搭配叢集 VM,以使用離散裝置指派為工作負載提供 GPU 加速。 本文會引導您準備叢集、將 GPU 指派給叢集 VM,以及使用 Windows Admin Center 和 PowerShell 故障轉移該 VM。

小提示

目前不支援使用 DDA 提供的 GPU 進行虛擬機(VM)的即時遷移,但在故障時,VM 可以自動重新啟動,並可轉移至有 GPU 資源的地方。 想要在叢集 VM 中使用即時移轉? 請考慮使用 GPU 分割。 GPU 分割可讓您共用一小部分的 GPU,而不是整個 GPU。 若要深入瞭解何時使用 GPU 磁碟分區和支援即時移轉,請參閱 分割並將 GPU 指派給虛擬機

必要條件

開始搭配叢集 VM 使用 GPU 之前,有幾個需求和考慮事項:

  • 您需要 Azure Local 2311.2 和更新版本。

  • 請檢視如何在 Azure 本機 2311.2 及更新版本中管理 GPU 的方法,請參閱 準備 Azure 本機的 GPU

  • 您需要執行 Windows Server 2025 或更新版本的 Windows Server 故障轉移叢集。
  • 您必須熟悉故障移轉叢集和 Hyper-V。

  • 您必須在叢集中的所有伺服器上安裝相同的 GPU 製造和模型。

  • 檢閱並遵循 GPU 製造商的指示,在叢集中的每個伺服器上安裝必要的驅動程式和軟體。

  • 視硬體廠商而定,您可能也需要設定任何 GPU 授權需求。

  • 您需要已安裝 Windows Admin Center 的電腦。 此電腦可能是您的其中一個叢集節點。

  • 建立要指派 GPU 的 VM。 根據使用離散裝置指派部署圖形裝置中的指示,設定 DDA 的快取行為、停止動作和記憶體對應 I/O (MMIO) 屬性來準備該 VM。

  • 在每部伺服器上安裝安全性風險降低驅動程式、停用 GPU,以及將它們從主機卸除,以準備每部伺服器的 GPU。 若要深入瞭解此程式,請參閱 使用離散裝置指派部署圖形裝置。

  • 依照使用離散裝置指派規劃裝置中的步驟,在叢集中準備 GPU 裝置。

  • 確定您的裝置在 VM 內配置了足夠的 MMIO 空間。 如需詳細資訊,請參閱 MMIO 空間

  • 建立要指派 GPU 的 VM。 根據使用離散裝置指派部署圖形裝置中的指示,設定 DDA 的快取行為、停止動作和記憶體對應 I/O (MMIO) 屬性來準備該 VM。

  • 在每部伺服器上安裝安全性風險降低驅動程式、停用 GPU,以及將它們從主機卸除,以準備每部伺服器的 GPU。 若要深入瞭解此程式,請參閱 使用離散裝置指派部署圖形裝置。

注意

您的系統必須支援具有 GPU 支援的 Azure 本機解決方案。 若要瀏覽選項,請瀏覽 Azure 在地目錄

準備叢集

當必要條件完成時,您可以準備叢集以搭配叢集 VM 使用 GPU。

準備叢集牽涉到建立資源集區,其中包含可供指派給 VM 的 GPU。 叢集會使用此集區來判斷指派給 GPU 資源集區之任何已啟動或已移動 VM 的 VM 位置。

使用 Windows Admin Center,請遵循下列步驟來準備叢集以搭配叢集 VM 使用 GPU。

若要準備叢集,並將 VM 指派給 GPU 資源集區:

  1. 啟動 Windows Admin Center 並確保已安裝 GPU 擴充功能。

  2. 從頂端下拉功能表中選取 [叢集管理員],然後連接到您的叢集。

  3. 設定功能表中,選取擴充功能>GPU

  4. 在 [工具] 功能表上的 [延伸模組] 底下,選取 [GPU] 以開啟工具。

    Windows Admin Center 中 GPU 工具的螢幕快照。

  5. 在工具的主頁面上,選取 [GPU 集 區] 索引卷標,然後選取 [ 建立 GPU 集區]。

    Windows Admin Center 中 [建立 GPU 集區] 頁面的螢幕快照。

  6. 在 [ 新增 GPU 集區 ] 頁面上,指定下列專案,然後選取 [ 儲存]:

    1. 伺服器名稱
    2. GPU 集區 名稱
    3. 您要新增至集區的 GPU

    Windows Admin Center 中 [新增 GPU 集區] 頁面的螢幕快照,以指定伺服器、集區名稱和 GPU。

    程式完成之後,您會收到顯示新 GPU 集區和主機伺服器名稱的成功提示。

將 VM 指派給 GPU 資源集區

您現在可以將 VM 指派給 GPU 資源集區。 您可以將一或多個 VM 指派給叢集 GPU 資源集區,並從叢集 GPU 資源集區移除 VM。

請遵循下列步驟,使用 Windows Admin Center 將現有的 VM 指派給 GPU 資源集區。

注意

您也需要在 VM 內從 GPU 製造商安裝驅動程式,讓 VM 中的應用程式可以利用指派給他們的 GPU。

  1. 在 [ 將 VM 指派給 GPU 集區 ] 頁面上,指定下列專案,然後選取 [ 指派]:

    1. 伺服器名稱
    2. GPU 集區 名稱
    3. 您想要從 GPU 集區將 GPU 指派給的虛擬機

    您也可以定義記憶體對應IO(MMIO) 空間的進階設定值,以判斷單一 GPU 的資源需求。

    Windows Admin Center 中 [將 VM 指派至 GPU 集區] 頁面的螢幕快照,其中從 GPU 集區將 VM 指派給 GPU。

    程式完成之後,您會收到確認提示,其中顯示您已成功將 GPU 從 GPU 資源集區指派給 VM,其會顯示在 [指派的 VM] 底下

    成功提示的螢幕快照,其中顯示已指派給 VM 的 GPU,以及顯示在 [指派的 VM] 底下的 VM。

若要從 GPU 資源集區取消指派 VM:

  1. 在 [ GPU 集區 ] 索引標籤上,選取您要取消指派的 GPU,然後選取 [ 取消指派 VM]。

  2. 在 [ 從 GPU 集 區取消指派 VM] 頁面上的 [ 虛擬機 ] 列表框中,指定 VM 的名稱,然後選取 [ 取消指派]。

    [從 GPU 集區取消指派 VM] 頁面的螢幕快照,其中顯示要取消指派的 VM。

    程式完成之後,您會收到成功提示,指出 VM 已從 GPU 集區取消指派,且在 [指派狀態] 下,GPU 會顯示 [可用] (未指派)。

當您啟動 VM 時,叢集可確保 VM 位於具有此叢集範圍集區中可用 GPU 資源的伺服器上。 叢集也會透過 DDA 將 GPU 指派給 VM,以允許從 VM 內的工作負載存取 GPU。

使用指派的 GPU 故障轉移 VM

若要測試叢集將 GPU 工作負載故障轉移的能力,請在 VM 所在且已指派 GPU 的伺服器上執行清空操作。 在伺服器上執行清空作業會導致叢集在另一部伺服器上重新啟動 VM,前提是另一部伺服器在您建立的集區中有足夠的可用資源。

若要清空伺服器,請遵循故障轉移叢集維護程式中指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。

若要測試叢集將 GPU 工作負載故障轉移的能力,請在 VM 所在且已指派 GPU 的伺服器上執行清空操作。 在伺服器上執行清空作業會導致叢集在另一部伺服器上重新啟動 VM,前提是另一部伺服器在您建立的集區中有足夠的可用資源。

若要清空伺服器,請遵循故障轉移叢集維護程式中指示。 叢集會在叢集中的另一部伺服器上重新啟動 VM,只要另一部伺服器在您建立的集區中有足夠的可用 GPU 資源。

如需搭配叢集 VM 使用 GPU 的詳細資訊,請參閱:

如需搭配 VM 和 GPU 分割使用 GPU 的詳細資訊,請參閱: