次の方法で共有


Azure ハイ パフォーマンス コンピューティング (HPC) ランディング ゾーン アクセラレータ

ハイ パフォーマンス コンピューティング (HPC) ランディング ゾーン アクセラレータにより、環境のデプロイが自動化されます。 この環境には、Azure で完全な HPC クラスター ソリューション用のエンド ツー エンドのデプロイ メカニズムを作成するようにカスタマイズできる基本フレームワークが用意されています。 アクセラレータは、エンタープライズ規模のランディング ゾーンを準備できるオープンソース スクリプトとテンプレートのコレクションです。 特定のアーキテクチャ アプローチと、クラウド導入フレームワークのアーキテクチャとベスト プラクティスに準拠した参照実装を提供できます。

顧客は、ビジネス ニーズに合わせてさまざまな方法で HPC を採用し、HPC ランディング ゾーン アクセラレータを適応させ、 自分 の方法に合ったアーキテクチャを作成できます。 アクセラレータを使用すると、組織を持続可能なスケールへのパスに配置するのに役立ちます。

エンタープライズ規模のランディング ゾーンを実装する

HPC ランディング ゾーン アクセラレータは、正常に実装されたエンタープライズ規模のランディング ゾーンから開始することを前提としています。 この前提条件の詳細については、次の記事を参照してください。

HPC ランディング ゾーン アクセラレータが提供するもの

HPC ランディング ゾーン アクセラレータのランディング ゾーンへのアプローチは、プロジェクトに次の資産を提供します。

  • 重要な意思決定の評価に役立つ設計ガイドライン
  • ランディング ゾーンのアーキテクチャ
  • 以下を含む実装:
    • 独自の HPC デプロイの環境を作成できるデプロイ可能なリファレンス
    • デプロイされた環境をテストするための Microsoft が承認した HPC リファレンス実装

エネルギー、製造、財務に関する設計ガイドライン

ランディング ゾーンのアーキテクチャは、組織によって異なるだけでなく、ビジネス 部門によって異なります。 このセクションでは、ランディング ゾーンを作成するためのガイドラインを示す記事を示します。

AI ワークロード用の HPC コンピューティングを選択するための設計ガイドライン

パフォーマンスを最適化し、コストを制御するには、GPU 最適化コンピューティングの適切な SKU を選択することが重要です。 Microsoft では、GPU の能力を高めるワークロード向けに最適化されたさまざまな SKU を提供しています。 AI ワークロードに適した SKU を選択する際には、いくつかの考慮事項があります。 ワークロードが小さい場合、より強力なNDv6のようなSKUのCPU、GPU、帯域幅の一部しか活用できないことがあります。 小規模なジョブでは、NCv4 や NDv4 などの他のコンピューティング SKU を検討することをお勧めします。 AI ワークロードに適した GPU 最適化コンピューティングの SKU を選択する場合は、次の要因を考慮してください。

  • チェックポイント機能。 機械学習モデルを実行するときのチェックポイント間隔などの要因を考慮してください。 これは、トレーニング フェーズ中の GPU パフォーマンスに影響を与える可能性があります。 ストレージ効率とスムーズな GPU 操作の維持のバランスを取ります。 GPU 使用率を監視します。
  • 推論。 推論の要件はトレーニング要件とは異なり、CPU のパフォーマンスを最大限に引き出すことができる CPU 負荷が高くなる可能性があります。 コンピューティング SKU を選択するときは、モデルの推論要件を検討してください。 CPU 使用率を監視します。
  • 訓練。 トレーニング中にモデルの要件を検討し、CPU と GPU の両方の使用状況を監視します。
  • ジョブのサイズ設定。 AI ワークロードのコンピューティング SKU を検討するときは、ジョブのサイズを検討してください。 約 OPT 1.3B などのジョブが小さいほど、より大きな SKU サイズを利用できない場合があり、ジョブのステージ (推論、トレーニング) によっては CPU と GPU の電力がアイドル状態になる可能性があります。
  • 帯域幅。 使用しない場合、大きな帯域幅と低遅延は費用がかかる可能性があります。 余分な帯域幅を必要とする最大のモデルに対してのみ InfiniBand を検討してください。

Azure の GPU 最適化された仮想マシンのサイズを表示します

例: エネルギーの概念参照アーキテクチャ

次の概念参照アーキテクチャは、 エネルギー 環境の設計領域とベスト プラクティスを示す例です。

コンピューティング、ストレージ、サブネット、データベース、オンプレミス ユーザー向けのフロントエンドなど、エネルギー環境のアーキテクチャの例を示す図。

例: 財務の概念参照アーキテクチャ

次の概念参照アーキテクチャは、 財務 環境の設計領域とベスト プラクティスを示す例です。

オンプレミスのリソース、仮想ネットワーク、サブネット、ネットワーク セキュリティ グループなど、財務環境のアーキテクチャの例を示す図。

例: 製造の概念参照アーキテクチャ

次の概念参照アーキテクチャは、 製造 環境の設計領域とベスト プラクティスを示す例です。

オンプレミスとクラウドのリソース、HPC ランディング ゾーンなど、製造環境のアーキテクチャの例を示す図。

HPC ランディング ゾーン アクセラレータを取得する

HPC ランディング ゾーン アクセラレータをデプロイするには、Azure Marketplace または Azure CLI を使用します。

このアクセラレータ ソリューションの詳細については、 Slurm 用の Azure CycleCloud ワークスペースに関するページを参照してください。

次のステップ

HPC ランディング ゾーン アクセラレータ アーキテクチャに関する考慮事項と推奨事項については、 Azure Identity and Access Management の HPC ランディング ゾーン アクセラレータの重要な設計領域を確認してください。