Azure Kubernetes Service (AKS) でコンピューティングを集中的に使用するワークロードに Windows GPU を使用する (プレビュー)

2025-06-27

グラフィック処理装置 (GPU) は、グラフィックや視覚化ワークロードなど、コンピューティング処理の負荷が高いワークロードによく使用されます。 AKS では、コンピューティング処理の負荷が高い Kubernetes ワークロードを実行するための GPU 対応の Windows および Linux ノードプールがサポートされています。

この記事は、新規および既存の AKS クラスターでスケジュール可能な GPU を使用して Windows ノードをプロビジョニングするのに役立ちます (プレビュー)。

サポートされている GPU 対応仮想マシン (VM)

サポートされている GPU 対応 VM を表示するには、Azure での GPU 最適化済み VM サイズに関する記事を参照してください。 AKS ノードプールには、最小サイズの Standard_NC6s_v3 をお勧めします。 NVv4 シリーズ (AMD GPU に基づく) は、AKS ではサポートされていません。

注

GPU 対応 VM には、より高い価格が適用され、利用可能なリージョンが限られる特殊なハードウェアが含まれます。詳細については、価格ツールと利用可能なリージョンを参照してください。

制限事項

既存のノードプールの更新による Windows GPU の追加はサポートされていません。
Kubernetes バージョン 1.28 以前ではサポートされていません。

開始する前に

この記事は、AKS クラスターがすでに存在していることを前提としています。クラスターがない場合は、Azure CLI、Azure PowerShell、または Azure portal を使用して作成します。
--gpu-driver コマンドで az aks nodepool add フィールドを使用するように Azure CLI バージョン 2.72.2 以降をインストールして構成する必要があります。バージョンを確認するには、az --version を実行します。インストールまたはアップグレードする必要がある場合は、Azure CLI のインストールに関するページを参照してください。
aks-preview Azure CLI 拡張機能がインストールされている場合は、バージョンを 18.0.0b2 以降に更新してください。

クラスターの資格情報を取得する

az aks get-credentials コマンドを使用して AKS クラスターの資格情報を取得します。次のコマンド例では、myResourceGroup リソースグループにある myAKSCluster の資格情報を取得します。
```
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
```

Windows GPU を使用し、ドライバーは自動インストールにする

NVIDIA GPU の使用には、Kubernetes 向け DirectX デバイスプラグインなどのさまざまな NVIDIA ソフトウェアコンポーネントのインストールや GPU ドライバーのインストールなどがともないます。サポートされている GPU 対応 VM を使用して Windows ノードプールを作成すると、これらのコンポーネントと適切な NVIDIA CUDA ドライバーまたは GRID ドライバーがインストールされます。 NC および ND シリーズの VM サイズの場合、CUDA ドライバーがインストールされます。 NV シリーズの VM サイズの場合、GRID ドライバーがインストールされます。

重要

AKS のプレビュー機能は、セルフサービスのオプトイン単位で利用できます。プレビューは、"現状有姿" および "利用可能な限度" で提供され、サービスレベルアグリーメントおよび限定保証から除外されるものとします。 AKS プレビューは、ベストエフォートベースでカスタマーサポートによって部分的にカバーされます。そのため、これらの機能は、運用環境での使用を意図していません。詳細については、次のサポート記事を参照してください。

`aks-preview` Azure CLI 拡張機能をインストールする

az extension add または az extension update コマンドを利用し、aks-preview 拡張機能を登録するか、更新します。

# Register the aks-preview extension
az extension add --name aks-preview

# Update the aks-preview extension
az extension update --name aks-preview

`WindowsGPUPreview` 機能フラグを登録する

WindowsGPUPreview コマンドを使用して、az feature register 機能フラグを登録します。
```
az feature register --namespace "Microsoft.ContainerService" --name "WindowsGPUPreview"
```
状態が [登録済み] と表示されるまでに数分かかります。

az feature show コマンドを使用して、登録の状態を確認します。

az feature show --namespace "Microsoft.ContainerService" --name "WindowsGPUPreview"

状態が Registered と表示されたら、コマンドを使用して az provider register リソースプロバイダーの登録を最新の情報に更新します。
```
az provider register --namespace Microsoft.ContainerService
```

Windows GPU 対応ノードプールを作成する (プレビュー)

Windows GPU 対応ノードプールを作成するには、サポートされている GPU 対応 VM サイズを使用し、os-type として Windows を指定する必要があります。既定の Windows os-sku は Windows2022 ですが、すべての Windows os-sku オプションがサポートされています。

az aks nodepool add コマンドを使用して Windows GPU 対応ノードプールを作成する

az aks nodepool add \
   --resource-group myResourceGroup \
   --cluster-name myAKSCluster \
   --name gpunp \
   --node-count 1 \
   --os-type Windows \
   --kubernetes-version 1.29.0 \
   --node-vm-size Standard_NC6s_v3

GPU がスケジュール可能であることを確認します。
GPU がスケジュール可能であることを確認したら、GPU ワークロードを実行できます。

GPU ドライバーの種類を指定する (プレビュー)

AKS の既定では、サポートされている GPU 対応 VM ごとに既定の GPU ドライバーの種類が指定されます。 GPU ワークロードが機能するにはワークロードとドライバーの互換性が重要であるため、Windows GPU ノードのドライバーの種類を指定できます。この機能は、Linux GPU ノードプールではサポートされていません。

GPU をサポートする Windows エージェントプールを作成する場合、--driver-type フラグを使用して GPU ドライバーの種類を指定するオプションがあります。

使用可能なオプションは次のとおりです。

GRID: 仮想化のサポートを必要とするアプリケーションの場合。
CUDA: 科学コンピューティングとデータ集約型アプリケーションの計算タスク用に最適化されています。

注

--driver-type フラグを設定した場合、選択したドライバーの種類が特定の VM サイズやノードプールの構成と互換性があることは、お客様が確認する必要があります。 AKS は互換性の検証を試みますが、指定したドライバーの種類と、基となる VM またはハードウェア間に互換性がないことが原因でノードプールの作成が失敗するシナリオがあります。

GPU ドライバーの種類を指定して Windows GPU 対応ノードプールを作成するには、az aks nodepool add コマンドを使用します。

az aks nodepool add \
    --resource-group myResourceGroup \
    --cluster-name myAKSCluster \
    --name gpunp \
    --node-count 1 \
    --os-type Windows \
    --kubernetes-version 1.29.0 \
    --node-vm-size Standard_NC6s_v3 \
    --driver-type GRID

たとえば、上記のコマンドを実行すると、GRID GPU ドライバーの種類を使用して GPU 対応ノードプールを作成できます。このドライバーの種類を選択すると、NC シリーズ VM SKU の既定の CUDA ドライバーの種類がオーバーライドされます。

Windows GPU を使用し、ドライバーは手動インストールにする

AKS で N シリーズ (NVIDIA GPU) VM サイズの Windows ノードプールを作成すると、GPU ドライバーと Kubernetes DirectX デバイスプラグインが自動的にインストールされます。この自動インストールをバイパスするには、次の手順に従います。

ノードプールの作成時に構成を設定して--gpu-driver noneします。
Kubernetes DirectX デバイスプラグインの手動インストール。

GPU ドライバーのインストールをスキップする

AKS では、GPU ドライバーの自動インストールが既定で有効になっています。独自のドライバーをインストールするなどの場合、GPU ドライバーのインストールをスキップすることがあります。

注

gpu-driver API フィールドは、以前に --skip-gpu-driver-install ノードプールタグを使用していたお客様に推奨される代替手段です。

AKS の --skip-gpu-driver-install ノードプールタグは、2025 年 8 月 14 日に廃止されます。 GPU ドライバーの自動インストールをスキップする既存の動作を保持するには、ノードプールを最新のノードイメージバージョンにアップグレードし、 --gpu-driver フィールドを none に設定します。 2025 年 8 月 14 日以降、この既定の動作をバイパスするために、 --skip-gpu-driver-install ノードプールタグを使用して AKS GPU 対応ノードプールをプロビジョニングすることはできません。詳細については、「タグの廃止skip-gpu-driver」を参照してください。

az aks nodepool add コマンドを使用してノードプールを作成し、 API フィールドをに設定して、GPU ドライバーの自動インストールをスキップします。

az aks nodepool add \
    --resource-group myResourceGroup \
    --cluster-name myAKSCluster \
    --name gpunp \
    --node-count 1 \
    --os-type windows \
    --os-sku windows2022 \
    --gpu-driver none

注

使用している --node-vm-size がまだ AKS にオンボードされていない場合は、GPU を使用できません。 --gpu-driver フィールドは機能しません。

Kubernetes DirectX デバイスプラグインの手動インストール

Kubernetes DirectX デバイスプラグイン用の DaemonSet をデプロイできます。このプラグインは、各ノードでポッドを実行して、GPU に必要なドライバーを提供します。

az aks nodepool add コマンドを使用して、クラスターにノードプールを追加します。

az aks nodepool add \
    --resource-group myResourceGroup \
    --cluster-name myAKSCluster \
    --name gpunp \
    --node-count 1 \
    --os-type windows \
    --os-sku windows2022

名前空間を作成し、Kubernetes DirectX デバイスプラグインをデプロイする

kubectl create namespace コマンドを使って名前空間を作成します。
```
kubectl create namespace gpu-resources
```

k8s-directx-device-plugin.yaml という名前のファイルを作成し、Kubernetes プロジェクトの NVIDIA デバイスプラグインの一部として提供される次の YAML マニフェストを貼り付けます。

apiVersion: apps/v1
kind: DaemonSet
metadata:
  name: nvidia-device-plugin-daemonset
  namespace: gpu-resources
spec:
  selector:
    matchLabels:
      name: nvidia-device-plugin-ds
  updateStrategy:
    type: RollingUpdate
  template:
    metadata:
      # Mark this pod as a critical add-on; when enabled, the critical add-on scheduler
      # reserves resources for critical add-on pods so that they can be rescheduled after
      # a failure.  This annotation works in tandem with the toleration below.
      annotations:
        scheduler.alpha.kubernetes.io/critical-pod: ""
      labels:
        name: nvidia-device-plugin-ds
    spec:
      tolerations:
      # Allow this pod to be rescheduled while the node is in "critical add-ons only" mode.
      # This, along with the annotation above marks this pod as a critical add-on.
      - key: CriticalAddonsOnly
        operator: Exists
      - key: nvidia.com/gpu
        operator: Exists
        effect: NoSchedule
      - key: "sku"
        operator: "Equal"
        value: "gpu"
        effect: "NoSchedule"
      containers:
      - image: mcr.microsoft.com/aks/aks-windows-gpu-device-plugin:0.0.17
        name: nvidia-device-plugin-ctr
        securityContext:
          allowPrivilegeEscalation: false
          capabilities:
            drop: ["ALL"]
        volumeMounts:
          - name: device-plugin
            mountPath: /var/lib/kubelet/device-plugins
      volumes:
        - name: device-plugin
          hostPath:
            path: /var/lib/kubelet/device-plugins

DaemonSet を作成し、kubectl apply コマンドを使って NVIDIA デバイスプラグインが正常に作成されたことを確認します。
```
kubectl apply -f nvidia-device-plugin-ds.yaml
```
これで NVIDIA デバイスプラグインが正常にインストールされたので、GPU がスケジュール可能であることを確認できます。

GPU がスケジュール可能であることを確認する

クラスターを作成したら、Kubernetes で GPU がスケジュール可能であることを確認します。

kubectl get nodes コマンドを使用して、クラスター内のノードを一覧表示します。
```
kubectl get nodes
```
出力は次の出力例のようになります。
```
NAME                   STATUS   ROLES   AGE   VERSION
aks-gpunp-28993262-0   Ready    agent   13m   v1.20.7
```
kubectl describe node コマンドを使用して GPU がスケジュール可能であることを確認します。
```
kubectl describe node aks-gpunp-28993262-0
```
Capacity セクションで、GPU は microsoft.com/directx: 1 と表示されているはずです。出力は、次の要約された出力例のようになります:
```
Capacity:
[...]
 microsoft.com.directx/gpu:                 1
[...]
```

リソースをクリーンアップする

kubectl delete job コマンドを使用して、この記事で作成した関連する Kubernetes オブジェクトを削除します。
```
kubectl delete jobs windows-gpu-workload
```

次のステップ

Apache Spark ジョブを実行するには、AKS での Apache Spark ジョブの実行に関する記事を参照してください。
Kubernetes スケジューラの機能の詳細については、「Azure Kubernetes Service (AKS) での高度なスケジューラ機能に関するベストプラクティス」を参照してください。
Azure Kubernetes Service と Azure Machine Learning の詳細については、次を参照してください。

次の方法で共有