Konfigurieren der GPU-Überwachung mit Container Insights

Ab der Agent-Version ciprod03022019 unterstützt der integrierte Agent von Container Insights das Überwachen der GPU-Nutzung (Graphical Processing Unit) auf GPU-fähigen Kubernetes-Clusterknoten sowie das Überwachen von Pods/Containern, die GPU-Ressourcen anfordern und verwenden.

Hinweis

Gemäß der Vorankündigung von Kubernetes stellt Kubernetes die vom Kubelet gemeldeten GPU-Metriken für Kubernetes-Versionen ab Version 1.20 ein. Das bedeutet, dass Container Insights nicht mehr in der Lage ist, die folgenden Metriken standardmäßig zu erfassen:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Um weiterhin GPU-Metriken über Container Insights zu sammeln, migrieren Sie bis zum 31. Dezember 2022 zu Ihrem GPU-anbieterspezifischen Exportprogramm für Metriken und konfigurieren Sie Prometheus Scraping, um Metriken von dem bereitgestellten anbieterspezifischen Exportprogramm auszulesen.

Unterstützte GPU-Anbieter

Container Insights unterstützt die Überwachung von GPU-Clustern von folgenden GPU-Anbietern:

Container Insights beginnt automatisch mit der Überwachung der GPU-Nutzung auf Knoten sowie GPUs anfordernden Pods und Workloads, indem die folgenden Metriken in 60-Sekunden-Intervallen gesammelt und in der InsightMetrics-Tabelle gespeichert werden.

Hinweis

Stellen Sie nach dem Bereitstellen eines Clusters mit GPU-Knoten sicher, dass der GPU-Treiber installiert ist, wie von AKS für die Ausführung von GPU-Workloads erforderlich. Container Insights sammelt GPU-Metriken über GPU-Treiberpods, die auf dem Knoten ausgeführt werden.

Metrikname Metrikdimension (Tags) Beschreibung
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Der Prozentsatz der Zeit im Verlauf des letzten Beispielzeitraums (60 Sekunden), während dessen die GPU ausgelastet war/aktiv die Verarbeitung für einen Container ausgeführt hat. Der Arbeitszyklus ist eine Zahl zwischen 1 und 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName In jedem Container können Grenzwerte als eine oder mehrere GPUs angegeben werden. Es ist nicht möglich, einen Bruchteil einer GPU anzufordern oder einzuschränken.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Jeder Container kann einen oder mehrere GPUs anfordern. Es ist nicht möglich, einen Bruchteil einer GPU anzufordern oder einzuschränken.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Menge an GPU-Arbeitsspeicher in Bytes, die für einen bestimmten Container verwendet werden kann.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Menge an GPU-Arbeitsspeicher in Bytes, die für einen bestimmten Container verwendet wird.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Anzahl von GPUs in einem Knoten, die von Kubernetes verwendet werden können.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Gesamtanzahl der GPUs in einem Knoten.

* Aufgrund von Kubernetes-Upstreamänderungen werden diese Metriken nicht mehr standardmäßig erfasst. Als vorübergehender Hotfix für AKS führen Sie ein Upgrade für Ihren GPU-Knotenpool auf die neueste Version bzw. *-2022.06.08 oder höher durch. Für Kubernetes mit Arc-Unterstützung aktivieren Sie das Feature „gate DisableAcceleratorUsageMetrics=false“ in der Kubelet-Konfiguration des Knotens und starten das Kubelet neu. Sobald die Upstreamänderungen die allgemeine Verfügbarkeit (GA) erreichen, wird dieser Fix nicht mehr funktionieren. Planen Sie, bis zum 31. Dezember 2022 zur Verwendung Ihres GPU-anbieterspezifischen Exportprogramms für Metriken zu migrieren.

GPU-Leistungsdiagramme

Container Insights enthält vorkonfigurierte Diagramme für die Metriken, die weiter oben in der Tabelle als GPU-Arbeitsmappe für jeden Cluster aufgeführt sind. Unter Berichte in Azure Monitor für Container finden Sie eine Beschreibung der für Container Insights verfügbaren Arbeitsmappen.

Nächste Schritte