Azure 高效能運算（HPC）登陸區域加速器

發行項
01/10/2024

高效能運算（HPC）登陸區域加速器會自動部署環境。此環境提供基底架構，您可以自定義以在 Azure 中建立完整 HPC 叢集解決方案的端對端部署機制。加速器是開放原始碼腳本和範本的集合，可準備企業級登陸區域。它可以提供特定的架構方法和參考實作，以遵守雲端採用架構的架構和最佳做法。

客戶以各種方式採用 HPC 以符合其業務需求，而且您可以調整 HPC 登陸區域加速器，以產生符合您方式的架構。使用加速器有助於讓您的組織走上可持續規模的道路。

實作企業級登陸區域

HPC 登陸區域加速器假設您從已成功實作的企業級登陸區域開始。如需此必要條件的詳細資訊，請參閱下列文章：

HPC 登陸區域加速器提供的內容

HPC 登陸區域加速器登陸區域的方法會為您的專案提供下列資產：

模組化方法，讓您可以自定義環境變數
協助評估重要決策的設計指導方針
登陸區域架構
包含：
- 可部署的參考，能夠為您的 HPC 部署建立環境
- Microsoft 核准的 HPC 參考實作，以測試已部署的環境

能源、製造和金融的設計指導方針

除了依組織而異之外，登陸區域的架構也會因商務部門而異。本節列出依扇區的文章，提供建立登陸區域的指導方針：

為 AI 工作負載選擇 HPC 計算的設計指導方針

為 AI 工作負載選擇正確的 GPU 優化計算 SKU 對於優化效能及控制成本而言很重要。 Microsoft 提供許多不同的 SKU，針對受益於更多 GPU 能力的工作負載進行優化。為 AI 工作負載選擇正確的 SKU 時，有幾個考慮。較小的工作負載只能利用一小部分的CPU、GPU和更強大的SKU頻寬，例如 NDv4。您可能想要考慮其他計算 SKU，例如 NCv4 和 NDv2，以用於較小的作業。以下是針對 AI 工作負載選擇正確 GPU 優化計算 SKU 時的一些考慮：

檢查點。請考慮執行機器學習模型時檢查點間隔等因素。這可能會影響定型階段的 GPU 效能。在記憶體效率與維護順暢 GPU 作業之間取得平衡。監視 GPU 使用量。
推斷。推斷需求與定型需求不同，且可能較高的CPU負載可能會超過CPU效能。選取計算 SKU 時，請考慮模型的推斷需求。監視您的CPU使用量。
訓練。請考慮在定型期間模型的需求，同時監視 CPU 和 GPU 使用量。
作業大小調整。考慮 AI 工作負載的計算 SKU 時，請考慮作業的大小。較小的作業，例如大約 OPT 1.3B 的作業可能無法利用較大的 SKU 大小，而且可能會根據作業階段（推斷、定型）而讓 CPU 和 GPU 電源閒置。
帶寬。較大型、較低的延遲頻寬在未使用時可能會是費用。僅針對需要額外頻寬的最大模型，請考慮 InfiniBand。

檢視 Azure 的 GPU 優化虛擬機大小。

範例：能源的概念參考架構

下列概念參考架構是示範能源環境設計領域和最佳做法的範例。

範例：財務的概念參考架構

下列概念參考架構是示範財務環境設計領域和最佳做法的範例。

範例：製造的概念參考架構

下列概念參考架構是示範製造環境的設計區域和最佳做法的範例。

取得 HPC 登陸區域加速器

HPC 登陸區域加速器可在 GitHub 上取得： Azure HPC OnDemand Platform Accelerator

下一步

如需 HPC 登陸區域加速器架構的考慮和建議，請檢閱 Azure 身分識別和存取管理中 HPC 登陸區域加速器的重要設計區域。

共用方式為

Azure 高效能運算（HPC）登陸區域加速器

實作企業級登陸區域

HPC 登陸區域加速器提供的內容

能源、製造和金融的設計指導方針

為 AI 工作負載選擇 HPC 計算的設計指導方針

範例：能源的概念參考架構

範例：財務的概念參考架構

範例：製造的概念參考架構

取得 HPC 登陸區域加速器

下一步

其他資源

共用方式為

Azure 高效能運算 （HPC） 登陸區域加速器

實作企業級登陸區域

HPC 登陸區域加速器提供的內容

能源、製造和金融的設計指導方針

為 AI 工作負載選擇 HPC 計算的設計指導方針

範例：能源的概念參考架構

範例：財務的概念參考架構

範例：製造的概念參考架構

取得 HPC 登陸區域加速器

下一步

其他資源

Azure 高效能運算（HPC）登陸區域加速器