Bereitstellen einer Kubernetes-Workload mit gemeinsamer GPU-Nutzung auf einem Azure Stack Edge Pro-GPU-Gerät

2025-02-07

In diesem Artikel wird beschrieben, wie containerisierte Workloads die GPUs auf Ihrem Azure Stack Edge Pro-GPU-Gerät gemeinsam nutzen können. In diesem Artikel führen Sie zwei Aufträge aus: einen ohne GPU-Kontextfreigabe und einen mit über den Multiprozessdienst (MPS) aktivierter Kontextfreigabe auf dem Gerät. Weitere Informationen finden Sie unter Multiprozessdienst.

Voraussetzungen

Stellen Sie Folgendes sicher, bevor Sie beginnen:

Sie haben Zugriff auf ein Azure Stack Edge Pro-GPU-Gerät, das aktiviert und für die Computerolle konfiguriert ist. Sie verfügen über den Kubernetes-API-Endpunkt und haben diesen Endpunkt der hosts-Datei auf dem Client hinzugefügt, der auf das Gerät zugreifen soll.
Sie haben Zugriff auf ein Clientsystem mit einem unterstützten Betriebssystem. Wenn Sie einen Windows-Client verwenden, sollte für den Zugriff auf das Gerät auf dem System mindestens PowerShell 5.0 ausgeführt werden.
Sie haben einen Namespace und einen Benutzer erstellt. Außerdem haben Sie dem Benutzer Zugriff auf diesen Namespace gewährt. Sie haben die KUBECONFIG-Datei dieses Namespace auf dem Clientsystem installiert, mit dem Sie auf Ihr Gerät zugreifen. Detaillierte Anweisungen finden Sie unter Verbinden mit einem Kubernetes-Cluster und Verwalten des Clusters über kubectl auf Ihrem Azure Stack Edge Pro-GPU-Gerät.

Speichern Sie die folgende yaml-Datei für die Bereitstellung auf Ihrem lokalen System. Mit dieser Datei führen Sie die Kubernetes-Bereitstellung aus. Diese Bereitstellung basiert auf einfachen CUDA-Containern, die bei NVIDIA öffentlich verfügbar sind.

apiVersion: batch/v1
kind: Job
metadata:
  name: cuda-sample1
spec:
  template:
    spec:
      hostPID: true
      hostIPC: true
      containers:
        - name: cuda-sample-container1
          image: nvidia/samples:nbody
          command: ["/tmp/nbody"]
          args: ["-benchmark", "-i=1000"]
          env:
          - name: NVIDIA_VISIBLE_DEVICES
            value: "0"
      restartPolicy: "Never"
  backoffLimit: 1
---

apiVersion: batch/v1
kind: Job
metadata:
  name: cuda-sample2
spec:
  template:
    metadata:
    spec:
      hostPID: true
      hostIPC: true
      containers:
        - name: cuda-sample-container2
          image: nvidia/samples:nbody
          command: ["/tmp/nbody"]
          args: ["-benchmark", "-i=1000"]
          env:
          - name: NVIDIA_VISIBLE_DEVICES
            value: "0"
      restartPolicy: "Never"
  backoffLimit: 1

Überprüfen von GPU-Treiber und CUDA-Version

Der erste Schritt ist die Prüfung, ob auf Ihrem Gerät der erforderliche GPU-Treiber und die erforderlichen CUDA-Versionen ausgeführt werden.

Stellen Sie auf Ihrem Gerät eine Verbindung mit der PowerShell-Schnittstelle her.
Führen Sie den folgenden Befehl aus:
```
Get-HcsGpuNvidiaSmi
```

Notieren Sie sich die Informationen der NVIDIA-SMI-Ausgabe zur GPU-Version und die CUDA-Version auf Ihrem Gerät. Wenn Sie Azure Stack Edge 2102 ausführen, entspricht diese Version den folgenden Treiberversionen:

GPU-Treiberversion: 460.32.03
CUDA-Version: 11.2

Beispielausgabe:

[10.100.10.10]: PS>Get-HcsGpuNvidiaSmi
K8S-1HXQG13CL-1HXQG13:

Wed Mar  3 12:24:27 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00002C74:00:00.0 Off |                    0 |
| N/A   34C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
[10.100.10.10]: PS>

Lassen Sie diese Sitzung geöffnet, da Sie sie für den gesamten Artikel zum Anzeigen der NVIDIA-SMI-Ausgabe verwenden.

Sie führen den ersten Auftrag aus, um eine Anwendung auf Ihrem Gerät im Namespace mynamesp1 bereitzustellen. Diese Anwendungsbereitstellung soll auch zeigen, dass die GPU-Kontextfreigabe standardmäßig nicht aktiviert ist.

Listen Sie alle Pods auf, die im Namespace ausgeführt werden. Führen Sie den folgenden Befehl aus:

kubectl get pods -n <Name of the namespace>

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
No resources found.

Starten Sie einen Bereitstellungsauftrag auf Ihrem Gerät unter Verwendung der zuvor zur Verfügung gestellten Datei „deployment.yaml“. Führen Sie den folgenden Befehl aus:
```
kubectl apply -f <Path to the deployment .yaml> -n <Name of the namespace> 
```
Dieser Auftrag erstellt zwei Container und wendet eine N-Körper-Simulation auf beide Container an. Die Anzahl der Simulationsiterationen wird im Feld .yaml angegeben.

Beispielausgabe:
```
PS C:\WINDOWS\system32> kubectl apply -f -n mynamesp1 C:\gpu-sharing\k8-gpusharing.yaml
job.batch/cuda-sample1 created
job.batch/cuda-sample2 created
PS C:\WINDOWS\system32>
```

Führen Sie den folgenden Befehl aus, um die in der Bereitstellung gestarteten Pods aufzulisten:

kubectl get pods -n <Name of the namespace>

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
NAME                 READY   STATUS    RESTARTS   AGE
cuda-sample1-27srm   1/1     Running   0          28s
cuda-sample2-db9vx   1/1     Running   0          27s
PS C:\WINDOWS\system32>

Auf Ihrem Gerät werden zwei Pods ausgeführt: cuda-sample1-cf979886d-xcwsq und cuda-sample2-68b4899948-vcv68.

Rufen Sie die Details der Pods ab. Führen Sie den folgenden Befehl aus:

kubectl -n <Name of the namespace> describe <Name of the job>

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl -n mynamesp1 describe job.batch/cuda-sample1;  kubectl -n mynamesp1 describe job.batch/cuda-sample2
Name:           cuda-sample1
Namespace:      mynamesp1
Selector:       controller-uid=22783f76-6af1-490d-b6eb-67dd4cda0e1f
Labels:         controller-uid=22783f76-6af1-490d-b6eb-67dd4cda0e1f
                job-name=cuda-sample1
Annotations:    kubectl.kubernetes.io/last-applied-configuration:
                  {"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"cuda-sample1","namespace":"mynamesp1"},"spec":{"backoffLimit":1...
Parallelism:    1
Completions:    1
Start Time:     Wed, 03 Mar 2021 12:25:34 -0800
Pods Statuses:  1 Running / 0 Succeeded / 0 Failed
Pod Template:
  Labels:  controller-uid=22783f76-6af1-490d-b6eb-67dd4cda0e1f
           job-name=cuda-sample1
  Containers:
   cuda-sample-container1:
    Image:      nvidia/samples:nbody
    Port:       <none>
    Host Port:  <none>
    Command:
      /tmp/nbody
    Args:
      -benchmark
      -i=10000
    Environment:
      NVIDIA_VISIBLE_DEVICES:  0
    Mounts:                    <none>
  Volumes:                     <none>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  60s   job-controller  Created pod: cuda-sample1-27srm
Name:           cuda-sample2
Namespace:      mynamesp1
Selector:       controller-uid=e68c8d5a-718e-4880-b53f-26458dc24381
Labels:         controller-uid=e68c8d5a-718e-4880-b53f-26458dc24381
                job-name=cuda-sample2
Annotations:    kubectl.kubernetes.io/last-applied-configuration:
                  {"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"cuda-sample2","namespace":"mynamesp1"},"spec":{"backoffLimit":1...
Parallelism:    1
Completions:    1
Start Time:     Wed, 03 Mar 2021 12:25:35 -0800
Pods Statuses:  1 Running / 0 Succeeded / 0 Failed
Pod Template:
  Labels:  controller-uid=e68c8d5a-718e-4880-b53f-26458dc24381
           job-name=cuda-sample2
  Containers:
   cuda-sample-container2:
    Image:      nvidia/samples:nbody
    Port:       <none>
    Host Port:  <none>
    Command:
      /tmp/nbody
    Args:
      -benchmark
      -i=10000
    Environment:
      NVIDIA_VISIBLE_DEVICES:  0
    Mounts:                    <none>
  Volumes:                     <none>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  60s   job-controller  Created pod: cuda-sample2-db9vx
PS C:\WINDOWS\system32>

Die Ausgabe gibt an, dass der Auftrag die beiden Pods erfolgreich erstellt hat.

Während beide Container die N-Körper-Simulation ausführen, überprüfen Sie die GPU-Auslastung in der NVIDIA-SMI-Ausgabe. Wechseln Sie zur PowerShell-Schnittstelle des Geräts, und führen Sie Get-HcsGpuNvidiaSmi aus.

Im Folgenden sehen Sie eine Beispielausgabe, wenn beide Container die N-Körper-Simulation ausführen:

[10.100.10.10]: PS>Get-HcsGpuNvidiaSmi
K8S-1HXQG13CL-1HXQG13:

Wed Mar  3 12:26:41 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00002C74:00:00.0 Off |                    0 |
| N/A   64C    P0    69W /  70W |    221MiB / 15109MiB |    100%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A    197976      C   /tmp/nbody                        109MiB |
|    0   N/A  N/A    198051      C   /tmp/nbody                        109MiB |
+-----------------------------------------------------------------------------+
[10.100.10.10]: PS>

Wie Sie sehen können, werden auf GPU 0 zwei Container (Typ = C) mit N-Körper-Simulation ausgeführt.

Überwachen Sie die N-Körper-Simulation. Führen Sie die get pod-Befehle aus. Hier ist eine Beispielausgabe bei laufender Simulation.

PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
NAME                 READY   STATUS    RESTARTS   AGE
cuda-sample1-27srm   1/1     Running   0          70s
cuda-sample2-db9vx   1/1     Running   0          69s
PS C:\WINDOWS\system32>

Wenn die Simulation abgeschlossen ist, wird dies in der Ausgabe angegeben. Beispielausgabe:

PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
NAME                 READY   STATUS      RESTARTS   AGE
cuda-sample1-27srm   0/1     Completed   0          2m54s
cuda-sample2-db9vx   0/1     Completed   0          2m53s
PS C:\WINDOWS\system32>

Nach Abschluss der Simulation können Sie die Protokolle und gesamte bis zum Abschluss der Simulation verstrichene Zeit einsehen. Führen Sie den folgenden Befehl aus:

kubectl logs -n <Name of the namespace> <pod name>

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl logs -n mynamesp1 cuda-sample1-27srm
Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
===========// CUT //===================// CUT //=====================  
> Windowed mode
> Simulation data stored in video memory
> Single precision floating point simulation
> 1 Devices used for simulation
GPU Device 0: "Turing" with compute capability 7.5

> Compute 7.5 CUDA device: [Tesla T4]
40960 bodies, total time for 10000 iterations: 170398.766 ms
= 98.459 billion interactions per second
= 1969.171 single-precision GFLOP/s at 20 flops per interaction
PS C:\WINDOWS\system32>

PS C:\WINDOWS\system32> kubectl logs -n mynamesp1 cuda-sample2-db9vx
Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
===========// CUT //===================// CUT //=====================
> Windowed mode
> Simulation data stored in video memory
> Single precision floating point simulation
> 1 Devices used for simulation
GPU Device 0: "Turing" with compute capability 7.5

> Compute 7.5 CUDA device: [Tesla T4]
40960 bodies, total time for 10000 iterations: 170368.859 ms
= 98.476 billion interactions per second
= 1969.517 single-precision GFLOP/s at 20 flops per interaction
PS C:\WINDOWS\system32>

Es sollten zu diesem Zeitpunkt keine Prozesse auf der GPU laufen. Sie können dies überprüfen, indem Sie die GPU-Auslastung mithilfe der NVIDIA SMI-Ausgabe anzeigen.

[10.100.10.10]: PS>Get-HcsGpuNvidiaSmi
K8S-1HXQG13CL-1HXQG13:

Wed Mar  3 12:32:52 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00002C74:00:00.0 Off |                    0 |
| N/A   38C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+
[10.100.10.10]: PS>

Sie führen den zweiten Auftrag aus, um die N-Körper-Simulation in zwei CUDA-Containern bereitzustellen, wenn die GPU-Kontextfreigabe durch den Multiprozessdienst aktiviert wurde. Aktivieren Sie zunächst den Multiprozessdienst auf dem Gerät.

Stellen Sie auf Ihrem Gerät eine Verbindung mit der PowerShell-Schnittstelle her.

Um den Multiprozessdienst auf Ihrem Gerät zu aktivieren, führen Sie den Befehl Start-HcsGpuMPS aus.

[10.100.10.10]: PS>Start-HcsGpuMPS
K8S-1HXQG13CL-1HXQG13:

Set compute mode to EXCLUSIVE_PROCESS for GPU 00002C74:00:00.0.
All done.
Created nvidia-mps.service
[10.100.10.10]: PS>

Führen Sie den Auftrag mit der gleichen yaml-Bereitstellung aus, die Sie zuvor verwendet haben. Möglicherweise müssen Sie die vorhandene Bereitstellung löschen. Weitere Informationen finden Sie unter Löschen der Bereitstellung.

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl -n mynamesp1 delete -f C:\gpu-sharing\k8-gpusharing.yaml
job.batch "cuda-sample1" deleted
job.batch "cuda-sample2" deleted
PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
No resources found.
PS C:\WINDOWS\system32> kubectl -n mynamesp1 apply -f C:\gpu-sharing\k8-gpusharing.yaml
job.batch/cuda-sample1 created
job.batch/cuda-sample2 created
PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
NAME                 READY   STATUS    RESTARTS   AGE
cuda-sample1-vcznt   1/1     Running   0          21s
cuda-sample2-zkx4w   1/1     Running   0          21s
PS C:\WINDOWS\system32> kubectl -n mynamesp1 describe job.batch/cuda-sample1;  kubectl -n mynamesp1 describe job.batch/cuda-sample2
Name:           cuda-sample1
Namespace:      mynamesp1
Selector:       controller-uid=ed06bdf0-a282-4b35-a2a0-c0d36303a35e
Labels:         controller-uid=ed06bdf0-a282-4b35-a2a0-c0d36303a35e
                job-name=cuda-sample1
Annotations:    kubectl.kubernetes.io/last-applied-configuration:
                  {"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"cuda-sample1","namespace":"mynamesp1"},"spec":{"backoffLimit":1...
Parallelism:    1
Completions:    1
Start Time:     Wed, 03 Mar 2021 21:51:51 -0800
Pods Statuses:  1 Running / 0 Succeeded / 0 Failed
Pod Template:
  Labels:  controller-uid=ed06bdf0-a282-4b35-a2a0-c0d36303a35e
           job-name=cuda-sample1
  Containers:
   cuda-sample-container1:
    Image:      nvidia/samples:nbody
    Port:       <none>
    Host Port:  <none>
    Command:
      /tmp/nbody
    Args:
      -benchmark
      -i=10000
    Environment:
      NVIDIA_VISIBLE_DEVICES:  0
    Mounts:                    <none>
  Volumes:                     <none>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  46s   job-controller  Created pod: cuda-sample1-vcznt
Name:           cuda-sample2
Namespace:      mynamesp1
Selector:       controller-uid=6282b8fa-e76d-4f45-aa85-653ee0212b29
Labels:         controller-uid=6282b8fa-e76d-4f45-aa85-653ee0212b29
                job-name=cuda-sample2
Annotations:    kubectl.kubernetes.io/last-applied-configuration:
                  {"apiVersion":"batch/v1","kind":"Job","metadata":{"annotations":{},"name":"cuda-sample2","namespace":"mynamesp1"},"spec":{"backoffLimit":1...
Parallelism:    1
Completions:    1
Start Time:     Wed, 03 Mar 2021 21:51:51 -0800
Pods Statuses:  1 Running / 0 Succeeded / 0 Failed
Pod Template:
  Labels:  controller-uid=6282b8fa-e76d-4f45-aa85-653ee0212b29
           job-name=cuda-sample2
  Containers:
   cuda-sample-container2:
    Image:      nvidia/samples:nbody
    Port:       <none>
    Host Port:  <none>
    Command:
      /tmp/nbody
    Args:
      -benchmark
      -i=10000
    Environment:
      NVIDIA_VISIBLE_DEVICES:  0
    Mounts:                    <none>
  Volumes:                     <none>
Events:
  Type    Reason            Age   From            Message
  ----    ------            ----  ----            -------
  Normal  SuccessfulCreate  47s   job-controller  Created pod: cuda-sample2-zkx4w
PS C:\WINDOWS\system32>

Während die Simulation läuft, können Sie die NVIDIA SMI-Ausgabe einsehen. Die Ausgabe zeigt Prozesse, die den CUDA-Containern (Typ M + C) mit N-Körper-Simulation und dem Multiprozessdienst (Typ C) entsprechen, als laufend an. Alle diese Prozesse nutzen GPU 0 gemeinsam.

PS>Get-HcsGpuNvidiaSmi
K8S-1HXQG13CL-1HXQG13:

Mon Mar  3 21:54:50 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 0000E00B:00:00.0 Off |                    0 |
| N/A   45C    P0    68W /  70W |    242MiB / 15109MiB |    100%   E. Process |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A    144377    M+C   /tmp/nbody                        107MiB |
|    0   N/A  N/A    144379    M+C   /tmp/nbody                        107MiB |
|    0   N/A  N/A    144443      C   nvidia-cuda-mps-server             25MiB |
+-----------------------------------------------------------------------------+

Nach Abschluss der Simulation können Sie die Protokolle und gesamte bis zum Abschluss der Simulation verstrichene Zeit einsehen. Führen Sie den folgenden Befehl aus:

    PS C:\WINDOWS\system32> kubectl get pods -n mynamesp1
    NAME                 READY   STATUS      RESTARTS   AGE
    cuda-sample1-vcznt   0/1     Completed   0          5m44s
    cuda-sample2-zkx4w   0/1     Completed   0          5m44s
    PS C:\WINDOWS\system32> kubectl logs -n mynamesp1 cuda-sample1-vcznt
    Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
    ===========// CUT //===================// CUT //=====================    
    > Windowed mode
    > Simulation data stored in video memory
    > Single precision floating point simulation
    > 1 Devices used for simulation
    GPU Device 0: "Turing" with compute capability 7.5

    > Compute 7.5 CUDA device: [Tesla T4]
    40960 bodies, total time for 10000 iterations: 154979.453 ms
    = 108.254 billion interactions per second
    = 2165.089 single-precision GFLOP/s at 20 flops per interaction


    PS C:\WINDOWS\system32> kubectl logs -n mynamesp1 cuda-sample2-zkx4w
    Run "nbody -benchmark [-numbodies=<numBodies>]" to measure performance.
    ===========// CUT //===================// CUT //=====================
    > Windowed mode
    > Simulation data stored in video memory
    > Single precision floating point simulation
    > 1 Devices used for simulation
    GPU Device 0: "Turing" with compute capability 7.5

    > Compute 7.5 CUDA device: [Tesla T4]
    40960 bodies, total time for 10000 iterations: 154986.734 ms
    = 108.249 billion interactions per second
    = 2164.987 single-precision GFLOP/s at 20 flops per interaction
    PS C:\WINDOWS\system32>

Nach Abschluss der Simulation können Sie sich die NVIDIA SMI-Ausgabe erneut ansehen. Nur der Prozess „nvidia-cuda-mps-server“ für den Multiprozessdienst wird als laufend angezeigt.

PS>Get-HcsGpuNvidiaSmi
K8S-1HXQG13CL-1HXQG13:

Mon Mar  3 21:59:55 2021
+-----------------------------------------------------------------------------+
| NVIDIA-SMI 460.32.03    Driver Version: 460.32.03    CUDA Version: 11.2     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 0000E00B:00:00.0 Off |                    0 |
| N/A   37C    P8     9W /  70W |     28MiB / 15109MiB |      0%   E. Process |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|    0   N/A  N/A    144443      C   nvidia-cuda-mps-server             25MiB |
+-----------------------------------------------------------------------------+

Löschen der Bereitstellung

Möglicherweise müssen Sie Bereitstellungen löschen, wenn Sie mit aktiviertem bzw. deaktiviertem Multiprozessdienst auf Ihrem Gerät arbeiten.

Um die Bereitstellung auf Ihrem Gerät zu löschen, führen Sie den folgenden Befehl aus:

kubectl delete -f <Path to the deployment .yaml> -n <Name of the namespace>

Beispielausgabe:

PS C:\WINDOWS\system32> kubectl delete -f 'C:\gpu-sharing\k8-gpusharing.yaml' -n mynamesp1
deployment.apps "cuda-sample1" deleted
deployment.apps "cuda-sample2" deleted
PS C:\WINDOWS\system32>

Nächste Schritte

Bereitstellen einer IoT Edge-Workload mit gemeinsamer GPU-Nutzung auf Ihrem Azure Stack Edge Pro-Gerät

Freigeben über

Bereitstellen einer Kubernetes-Workload mit gemeinsamer GPU-Nutzung auf einem Azure Stack Edge Pro-GPU-Gerät

Voraussetzungen

Überprüfen von GPU-Treiber und CUDA-Version

Auftrag ohne Kontextfreigabe

Aufträge mit Kontextfreigabe

Löschen der Bereitstellung

Nächste Schritte

Feedback

Zusätzliche Ressourcen