Azure Stack Hub 上の GPU (グラフィックス処理装置) 仮想マシン (VM)
注意事項
この記事では、サポート終了 (EOL) 状態に近い Linux ディストリビューションである CentOS について説明します。 使用を検討し、それに応じて計画してください。 詳細については、 CentOS の終了に関するガイダンスを参照してください。
この記事では、Azure Stack Hub の統合システムでサポートされているグラフィックス処理装置 (GPU) のモデルについて説明します。 また、GPU で使用されるドライバーのインストール手順についてもご確認いただけます。 Azure Stack Hub で GPU がサポートされることにより、人工知能、トレーニング、推論、データ視覚化などのソリューションが可能になります。 AMD Radeon Instinct MI25 を使用することで、グラフィックを多用するアプリケーション (Autodesk AutoCAD など) をサポートできます。
3 つの GPU モデルから選択できます。 NVIDIA V100、NVIDIA T4、AMD MI25 の各 GPU で利用できます。 これらの物理 GPU は、次のように、Azure N-Series の仮想マシン (VM) の種類に対応しています。
警告
このリリースでは、GPU VM はサポートされていません。 Azure Stack Hub 2005 以降にアップグレードする必要があります。 また、Azure Stack Hub ハードウェアには物理 GPU が必要です。
NCv3
NCv3 シリーズ VM は NVIDIA Tesla V100 GPU を備えています。 貯留層モデリング、DNA シーケンシング、タンパク質解析、モンテ カルロ シミュレーションをはじめとする従来の HPC ワークロードに、これらの最新の GPU を活用することができます。
サイズ | vCPU | メモリ:GiB | 一時ストレージ (SSD) GiB | GPU | GPU メモリ: GiB | 最大データ ディスク数 | 最大 NIC 数 |
---|---|---|---|---|---|---|---|
Standard_NC6s_v3 | 6 | 112 | 736 | 1 | 16 | 12 | 4 |
Standard_NC12s_v3 | 12 | 224 | 1474 | 2 | 32 | 24 | 8 |
Standard_NC24s_v3 | 24 | 448 | 2948 | 4 | 64 | 32 | 8 |
NVv4
NVv4 シリーズの仮想マシンには AMD Radeon Instinct MI25 GPU が搭載されています。 NVv4 シリーズでは、Azure Stack Hub に、部分的な GPU を備えた仮想マシンが導入されています。 このサイズは、GPU アクセラレータによるグラフィックス アプリケーションと仮想デスクトップに使用できます。 NVv4 仮想マシンでは現在、Windows ゲスト オペレーティング システムのみがサポートされています。
サイズ | vCPU | メモリ:GiB | 一時ストレージ (SSD) GiB | GPU | GPU メモリ: GiB | 最大データ ディスク数 | 最大 NIC 数 |
---|---|---|---|---|---|---|---|
Standard_NV4as_v4 | 4 | 14 | 88 | 1/8 | 2 | 4 | 2 |
Standard_NV8as_v4 | 8 | 28 | 176 | 1/4 | 4 | 8 | 4 |
Standard_NV16as_v4 | 16 | 56 | 352 | 1/2 | 8 | 16 | 8 |
Standard_NV32as_v4 | 32 | 112 | 704 | 1 | 16 | 32 | 8 |
NCasT4_v3
サイズ | vCPU | メモリ:GiB | GPU | GPU メモリ: GiB | 最大データ ディスク数 | 最大 NIC 数 |
---|---|---|---|---|---|---|
Standard_NC4as_T4_v3 | 4 | 28 | 1 | 16 | 8 | 4 |
Standard_NC8as_T4_v3 | 8 | 56 | 1 | 16 | 16 | 8 |
Standard_NC16as_T4_v3 | 16 | 110 | 1 | 16 | 32 | 8 |
Standard_NC64as_T4_v3 | 64 | 440 | 4 | 64 | 32 | 8 |
NC_A100 v4
NC_A100シリーズの VM には、Tesla V100 GPU の後継者である NVIDIA Ampere A100 GPU が搭載されています。 これらの更新された GPU は、リザーバ モデリング、DNA シーケンシング、タンパク質分析、モンテカルロ シミュレーションなどの従来の HPC ワークロードに利用できます。
サイズ | vCPU | メモリ:GiB | 一時ストレージ (GiB) | 最大データ ディスク数 | GPU | GPU メモリ GiB | 最大 NIC 数 |
---|---|---|---|---|---|---|---|
Standard_NC24ads_A100_v4 | 24 | 220 | 1123 | 12 | 1 | 80 | 2 |
Standard_NC48ads_A100_v4 | 48 | 440 | 2246 | 24 | 2 | 160 | 4 |
GPU システムの考慮事項
- GPU は次のいずれかの SKU である必要があります: AMD MI-25、Nvidia V100 (およびバリアント)、Nvidia T4。
- サポートされているサーバーあたりの GPU 数 (1、2、3、4)。 推奨: 1、2、4。
- すべての GPU が、スケール ユニット全体でまったく同じ SKU である必要があります。
- サーバーあたりの GPU 量は、スケール ユニット全体ですべて同じである必要があります。
- GPU パーティション サイズ (AMD Mi25 の場合) は、スケール ユニット上のすべての GPU VM で同じである必要があります。
キャパシティ プランニング
Azure Stack Hub キャパシティ プランナーが、GPU 構成をサポートするために更新されました。 これには https://aka.ms/azstackcapacityplanner 上でアクセスできます。
既存の Azure Stack Hub 上での GPU の追加
Azure Stack Hub で既存のシステムに GPU を追加できるようになりました。 これを行うには、stop-azurestack を実行し、stop-azurestack の手順を実行して、GPU を追加します。その後、完了するまで start-azurestack を実行します。 システムに GPU が既に存在する場合は、前に作成したすべての GPU VM の停止-割り当て解除を行い、再起動する必要があります。
修正プログラム、更新プログラムの適用時、および FRU の際の VM の動作
GPU VM では、修正プログラムと更新プログラム (PnU) の適用時や、Azure Stack Hub のハードウェア交換 (FRU) などの操作中にダウンタイムが発生することがあります。 次の表は、これらのアクティビティ中に見られる VM の状態と、操作後にこれらの VM を使用できるようにするために実行できる手動のアクションを示しています。
操作 | PnU - 完全更新、OEM 更新 | FRU |
---|---|---|
VM の状態 | 更新中は使用できません。 手動操作で使用可能にできます。 VM は更新後に自動的にオンラインになります。 | FRU 中は使用できません。 手動操作で使用可能にできます。 FRU 後に VM を再度起動する必要があります |
手動操作 | 更新中に VM を使用できるようにする必要があるときは、使用可能な GPU パーティションがある場合は、ポータルで [再起動] ボタンをクリックすることで VM を再起動できます。 VM は更新後に自動的に復帰します | FRU 中、VM は使用できません。 使用可能な GPU がある場合は、FRU 中、VM の停止-割り当て解除を行い、再起動することができます。 FRU 完了後は、 [停止] ボタンを使用して VM の停止-割り当て解除を行い、 [開始] ボタンを使用して、再度起動を開始する必要があります。 |
ゲスト ドライバーのインストール
次の PowerShell コマンドレットを、ドライバーのインストールに使用できます。
$VmName = <VM Name In Portal>
$ResourceGroupName = <Resource Group of VM>
$Location = "redmond"
$driverName = <Give a name to the driver>
$driverPublisher = "Microsoft.HpcCompute"
$driverType = <Specify Driver Type> #GPU Driver Types: "NvidiaGpuDriverWindows"; "NvidiaGpuDriverLinux"; "AmdGpuDriverWindows"
$driverVersion = <Specify Driver Version> #Nvidia Driver Version:"1.3"; AMD Driver Version:"1.0"
Set-AzureRmVMExtension -Location $Location `
-Publisher $driverPublisher `
-ExtensionType $driverType `
-TypeHandlerVersion $driverVersion `
-VMName $VmName `
-ResourceGroupName $ResourceGroupName `
-Name $driverName `
-Settings $Settings ` # If no settings are set, omit this parameter
-Verbose
Azure Stack Hub GPU VM の OS、種類、接続に応じて、以下の設定を使用して変更する必要があります。
AMD MI25
ゲスト ドライバーのバージョンは、接続状態に関係なく、Azure Stack Hub のバージョンと一致する必要があります。 Azure Stack Hub のバージョンと一致しない新しいバージョンを使用すると、使いやすさの問題が発生する可能性があります。
Azure Stack Hub のバージョン | AMD ゲスト ドライバー |
---|---|
2206 | 21.Q2-1、 20.Q4-1 |
2108 | 21.Q2-1、 20.Q4-1 |
2102 | 21.Q2-1、 20.Q4-1 |
接続済み
前のセクションの PowerShell スクリプトを、AMD 用の適切なドライバーの種類と共に使用します。 「Windows を実行している N シリーズ VM に AMD GPU ドライバーをインストールする」の記事では、NVv4 GPU-P 対応 VM 内に AMD Radeon Instinct MI25 のドライバーをインストールする手順と、ドライバーのインストールを確認する手順について説明します。
[Disconnected](切断済み)
ドライバーはインターネット上の場所から拡張機能によってプルされます。このため、外部ネットワークから切断された VM がアクセスすることはできません。 前の表からドライバーをダウンロードし、VM からアクセスできるローカル ネットワーク内のストレージ アカウントにアップロードできます。
AMD ドライバーをストレージ アカウントに追加し、 でその Settings
アカウントの URL を 指定します。 これらの設定は 、Set-AzureRMVMExtension コマンドレットで使用する必要があります。 例:
$Settings = @{
"DriverURL" = <URL to driver in storage account>
}
NVIDIA
GPU を使用する CUDA または GRID ワークロード用の仮想マシン内に、NVIDIA ドライバーをインストールする必要があります。
ユース ケース: グラフィックス/視覚化 GRID
このシナリオには、GRID ドライバーを使用する必要があります。 必要なライセンスをお持ちの場合は、NVIDIA アプリケーション ハブから GRID ドライバーをダウンロードできます。 また、GRID ドライバーには、VM で GRID ドライバーを使用する前に、適切な GRID ライセンスが含まれる GRID ライセンス サーバーも必要です。
$Settings = @{
"DriverURL" = "https://download.microsoft.com/download/e/8/2/e8257939-a439-4da8-a927-b64b63743db1/431.79_grid_win10_server2016_server2019_64bit_international.exe"; "DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="GRID"
}
ユース ケース: compute/CUDA - 接続済み
CUDA ドライバーには、ライセンス サーバーも変更された設定も必要としません。
ユース ケース: compute/CUDA - 切断
NVIDIA CUDA ドライバーへのリンクは、次のリンクを使用して取得できます: https://raw.githubusercontent.com/Azure/azhpc-extensions/master/NvidiaGPU/resources.json
Windows:
$Settings = @{
"DriverURL" = "";
"DriverCertificateUrl" = "https://go.microsoft.com/fwlink/?linkid=871664";
"DriverType"="CUDA"
}
Linux:
設定に関するいくつかの URL を参照する必要があります。
URL | Notes |
---|---|
PUBKEY_URL | PUBKEY_URL は、Linux VM 用ではない Nvidia ドライバー リポジトリ向け公開キーです。 これは、Ubuntu 用ドライバーをインストールするために使用されます。 |
DKMS_URL | DKMS_URL は、RedHat/CentOs 上の Nvidia カーネル モジュールをコンパイルするためのパッケージを取得するために使用されます。 |
DRIVER_URL | DRIVER_URL は、Nvidia ドライバーのリポジトリ情報をダウンロードするための URL で、Linux VM のリポジトリ リストに追加されます。 |
LIS_URL | LIS_URL は、RedHat/CentOs 向け Linux 統合サービス パッケージをダウンロードするための URL です (URL https://www.microsoft.com/download/details.aspx?id=55106 にある Linux Integration Services v4.3 for Hyper-V および Azure)。既定ではインストールされません。LIS_RHEL_ver は、Nvidia ドライバーで動作するフォール バック カーネル バージョンです。 これは、Linux VM のカーネルが、要求された Nvidia ドライバーと互換性がない場合に、RedHat/CentOs 上で使用されます。 |
URL を設定に追加します。
$Settings=@{
"isCustomInstall"=$true;
"DRIVER_URL"="https://go.microsoft.com/fwlink/?linkid=874273";
"CUDA_ver"="10.0.130";
"PUBKEY_URL"="http://download.microsoft.com/download/F/F/A/FFAC979D-AD9C-4684-A6CE-C92BB9372A3B/7fa2af80.pub";
"DKMS_URL"="https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm";
"LIS_URL"="https://aka.ms/lis";
"LIS_RHEL_ver"="3.10.0-1062.9.1.el7"
}
次のステップ
フィードバック
https://aka.ms/ContentUserFeedback」を参照してください。
以下は間もなく提供いたします。2024 年を通じて、コンテンツのフィードバック メカニズムとして GitHub の issue を段階的に廃止し、新しいフィードバック システムに置き換えます。 詳細については、「フィードバックの送信と表示