GPU リソースを使用するコンテナーインスタンスをデプロイする

Von Bedeutung

この製品は、2025 年 7 月 14 日の時点で廃止されます。

Azure Container Instances で特定のコンピューティング集中型ワークロードを実行するには、グラフィックス処理装置 (GPU) リソースを使用してコンテナーグループをデプロイします。グループ内のコンテナーインスタンスは、コンピューティング統合デバイスアーキテクチャ (CUDA) やディープラーニングアプリケーションなどのコンテナーワークロードを実行しているときに、1 つ以上の NVIDIA Tesla GPU にアクセスできます。

この記事では、 YAML ファイルまたは Azure Resource Manager テンプレート (ARM テンプレート) を使用してコンテナーグループをデプロイするときに GPU リソースを追加する方法について説明します。 Azure portal を使用してコンテナーインスタンスをデプロイするときに GPU リソースを指定することもできます。

[前提条件]

現在の制限により、すべての制限の引き上げ要求が承認されない場合があります。

運用コンテナーのデプロイにこのバージョンを使用する場合は、 Azure サポート要求を作成して制限を引き上げます。

プレビューの制限事項

プレビューでは、コンテナーグループで GPU リソースを使用する場合、次の制限が適用されます。

リージョンの可用性

リージョン	オペレーティングシステム (OS)	使用可能な GPU SKU
米国東部、西ヨーロッパ、米国西部 2、東南アジア、インド中部	Linux	V100

今後、より多くのリージョンに対するサポートが追加されます。

サポートされている OS の種類: Linux のみ。

その他の制限事項: 仮想ネットワークにコンテナーグループをデプロイするときに GPU リソースを使用することはできません。

GPU リソースについて

カウントとバージョン

コンテナーインスタンスで GPU を使用するには、次の情報を使って GPU リソースを指定します。

Count: GPU の数は 1、2、または 4 です。
バージョン: GPU バージョンは V100 です。各バージョンは、次の Azure GPU 対応 VM ファミリのいずれかで NVIDIA Tesla GPU にマップされます。

Version VM ファミリ

V100 NCv3

Version	VM ファミリ
V100	NCv3

SKU ごとの最大リソース

オペレーティングシステム (OS)	GPU のSKU (製品番号)	GPU 数	最大の CPU 使用量	最大メモリ (GB)	ストレージ (GB)
Linux	V100	1	6	112	50
Linux	V100	2	12	224	50
Linux	V100	4	24	448	50

GPU リソースをデプロイするときは、前の表に示した最大値まで、ワークロードに適した CPU リソースとメモリリソースを設定します。これらの値は、現在、GPU リソースのないコンテナーグループで使用可能な CPU とメモリリソースよりも大きくなっています。

Von Bedeutung

GPU リソースの既定のサブスクリプション制限 (クォータ) は、バージョンによって異なります。 V100 バージョンの既定の CPU 制限は、最初は 0 に設定されます。利用可能なリージョンの増加を要求するには、 Azure サポート要求を送信します。

注意事項

デプロイ時間: GPU リソースを含むコンテナーグループの作成には、最大で 8 ~ 10 分かかります。 Azure で GPU 仮想マシン (VM) をプロビジョニングして構成するには、さらに時間が必要です。
価格: GPU リソースのないコンテナーグループと同様に、GPU リソースを含むコンテナーグループの 期間中 に使用されるリソースに対して Azure の課金が行われます。期間は、最初のコンテナーイメージのプルが開始された時点から、コンテナーグループが終了する時点までが計算されます。コンテナーグループをデプロイする時間は含まれません。

詳細については、価格の詳細に関するページをご覧ください。
CUDA ドライバー: GPU リソースを含むコンテナーインスタンスは、CUDA ワークロード用に開発されたコンテナーイメージを使用できるように、NVIDIA CUDA ドライバーとコンテナーランタイムで事前にプロビジョニングされます。

この段階では、CUDA 11 までサポートしています。たとえば、Docker ファイルには次の基本イメージを使用できます。
- nvidia/cuda:11.4.2-base-ubuntu20.04
- tensorflow/tensorflow:devel-gpu
Docker Hub からパブリックコンテナーイメージを使用する場合の信頼性を向上させるには、プライベート Azure コンテナーレジストリにイメージをインポートして管理します。次に、プライベートに管理された基本イメージを使用するように Docker ファイルを更新します。パブリックイメージの操作に関する詳細を参照してください。

YAML の例

GPU リソースを追加するには、YAML ファイルを使用してコンテナーグループをデプロイする方法があります。次の YAML を gpu-deploy-aci.yaml という名前の新しいファイルにコピーし、ファイルを保存します。この YAML は、V100 GPU を持つコンテナーインスタンスを指定する gpucontainergroup という名前のコンテナーグループを作成します。このインスタンスでは、CUDA ベクトル加法アプリケーションのサンプルが実行されます。ワークロードを実行するには、リソース要求だけで十分です。

注

次の例では、パブリックコンテナーイメージを使用します。信頼性を向上させるには、プライベート Azure コンテナーレジストリにイメージをインポートして管理します。その後、プライベートに管理された基本イメージを使用するように YAML を更新します。パブリックイメージの操作に関する詳細を参照してください。

additional_properties: {}
apiVersion: '2021-09-01'
name: gpucontainergroup
properties:
  containers:
  - name: gpucontainer
    properties:
      image: k8s-gcrio.azureedge.net/cuda-vector-add:v0.1
      resources:
        requests:
          cpu: 1.0
          memoryInGB: 1.5
          gpu:
            count: 1
            sku: V100
  osType: Linux
  restartPolicy: OnFailure

az container create コマンドを使用してコンテナーグループをデプロイし、--file パラメーターの YAML ファイル名を指定します。 GPU リソースをサポートするリソースグループの名前とコンテナーグループの場所 ( eastus など) を指定する必要があります。

az container create --resource-group myResourceGroup --file gpu-deploy-aci.yaml --location eastus

デプロイが完了するまで、数分間かかります。その後、コンテナーが起動して CUDA ベクトル加法演算が実行されます。 az container logs コマンドを実行して、ログの出力を表示します。

az container logs --resource-group myResourceGroup --name gpucontainergroup --container-name gpucontainer

アウトプット：

[Vector addition of 50000 elements]
Copy input data from the host memory to the CUDA device
CUDA kernel launch with 196 blocks of 256 threads
Copy output data from the CUDA device to the host memory
Test PASSED
Done

Resource Manager テンプレートの例

GPU リソースを使用してコンテナーグループをデプロイするもう 1 つの方法は、 ARM テンプレートを使用することです。まず、 gpudeploy.jsonという名前のファイルを作成します。次に、次の JSON をそれにコピーします。この例では、MNIST データセットに対して TensorFlow トレーニングジョブを実行する V100 GPU を搭載したコンテナーインスタンスをデプロイします。ワークロードを実行するには、リソース要求だけで十分です。

{
    "$schema": "https://schema.management.azure.com/schemas/2015-01-01/deploymentTemplate.json#",
    "contentVersion": "1.0.0.0",
    "parameters": {
      "containerGroupName": {
        "type": "string",
        "defaultValue": "gpucontainergrouprm",
        "metadata": {
          "description": "Container Group name."
        }
      }
    },
    "variables": {
      "containername": "gpucontainer",
      "containerimage": "mcr.microsoft.com/azuredocs/samples-tf-mnist-demo:gpu"
    },
    "resources": [
      {
        "name": "[parameters('containerGroupName')]",
        "type": "Microsoft.ContainerInstance/containerGroups",
        "apiVersion": "2021-09-01",
        "location": "[resourceGroup().location]",
        "properties": {
            "containers": [
            {
              "name": "[variables('containername')]",
              "properties": {
                "image": "[variables('containerimage')]",
                "resources": {
                  "requests": {
                    "cpu": 4.0,
                    "memoryInGb": 12.0,
                    "gpu": {
                        "count": 1,
                        "sku": "V100"
                  }
                }
              }
            }
          }
        ],
        "osType": "Linux",
        "restartPolicy": "OnFailure"
        }
      }
    ]
}

az deployment group create コマンドを使用してテンプレートをデプロイします。 GPU リソースをサポートしているリージョン (eastus など) で作成されたリソースグループの名前を指定する必要があります。

az deployment group create --resource-group myResourceGroup --template-file gpudeploy.json

デプロイが完了するまで、数分間かかります。次に、コンテナーが開始され、TensorFlow ジョブが実行されます。 az container logs コマンドを実行して、ログの出力を表示します。

az container logs --resource-group myResourceGroup --name gpucontainergrouprm --container-name gpucontainer

アウトプット：

2018-10-25 18:31:10.155010: I tensorflow/core/platform/cpu_feature_guard.cc:137] Your CPU supports instructions that this TensorFlow binary was not compiled to use: SSE4.1 SSE4.2 AVX AVX2 FMA
2018-10-25 18:31:10.305937: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1030] Found device 0 with properties:
name: Tesla V100 major: 3 minor: 7 memoryClockRate(GHz): 0.8235
pciBusID: ccb6:00:00.0
totalMemory: 11.92GiB freeMemory: 11.85GiB
2018-10-25 18:31:10.305981: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1120] Creating TensorFlow device (/device:GPU:0) -> (device: 0, name: Tesla V100, pci bus id: ccb6:00:00.0, compute capability: 3.7)
2018-10-25 18:31:14.941723: I tensorflow/stream_executor/dso_loader.cc:139] successfully opened CUDA library libcupti.so.8.0 locally
Successfully downloaded train-images-idx3-ubyte.gz 9912422 bytes.
Extracting /tmp/tensorflow/input_data/train-images-idx3-ubyte.gz
Successfully downloaded train-labels-idx1-ubyte.gz 28881 bytes.
Extracting /tmp/tensorflow/input_data/train-labels-idx1-ubyte.gz
Successfully downloaded t10k-images-idx3-ubyte.gz 1648877 bytes.
Extracting /tmp/tensorflow/input_data/t10k-images-idx3-ubyte.gz
Successfully downloaded t10k-labels-idx1-ubyte.gz 4542 bytes.
Extracting /tmp/tensorflow/input_data/t10k-labels-idx1-ubyte.gz
Accuracy at step 0: 0.097
Accuracy at step 10: 0.6993
Accuracy at step 20: 0.8208
Accuracy at step 30: 0.8594
...
Accuracy at step 990: 0.969
Adding run metadata for 999

リソースをクリーンアップする

GPU リソースの使用はコストがかかる可能性があるため、コンテナーが長時間予期せず実行されないようにします。 Azure portal でコンテナーを監視します。 az container show コマンドを使用して、コンテナーグループの状態を確認することもできます。例えば次が挙げられます。

az container show --resource-group myResourceGroup --name gpucontainergroup --output table

作成したコンテナーインスタンスの操作が完了したら、次のコマンドを使用して削除します。

az container delete --resource-group myResourceGroup --name gpucontainergroup -y
az container delete --resource-group myResourceGroup --name gpucontainergrouprm -y

YAML ファイルまたは ARM テンプレートを使用してコンテナーグループをデプロイする方法について説明します。
Azure での GPU 最適化 VM サイズの詳細について説明します。

フィードバック

このページはお役に立ちましたか?

Last updated on 2025-11-21