Delen via


GPU-bewaking configureren met Container Insights

Vanaf agentversie ciprod03022019 ondersteunt de geïntegreerde Container Insights-agent nu het bewaken van gpu-gebruik (Graphical Processing Unit) op GPU-compatibele Kubernetes-clusterknooppunten en bewaakt pods of containers die GPU-resources aanvragen en gebruiken.

Notitie

Volgens de aankondiging van De upstream van Kubernetes wordt metrische GPU-gegevens die door de kubelet worden gerapporteerd, afgeschaft voor Kubernetes versie 1.20+. Als gevolg hiervan kunnen containerinzichten de volgende metrische gegevens niet meer uit het vak verzamelen:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Als u wilt doorgaan met het verzamelen van GPU-metrische gegevens via Container Insights, migreert u naar de leverancierspecifieke leverancierexporteur van GPU op 31 december 2022. Configureer Prometheus-scraping om metrische gegevens van de geïmplementeerde leverancierspecifieke exporteur te scrapen.

Ondersteunde GPU-leveranciers

Container Insights ondersteunt het bewaken van GPU-clusters van de volgende GPU-leveranciers:

Container insights begint automatisch met het bewaken van GPU-gebruik op knooppunten en GPU die pods en workloads aanvraagt door de volgende metrische gegevens te verzamelen met intervallen van 60 seconden en deze op te slaan in de tabel InsightMetrics .

Notitie

Nadat u clusters met GPU-knooppunten hebt ingericht, moet u ervoor zorgen dat het GPU-stuurprogramma is geïnstalleerd zoals vereist door Azure Kubernetes Service (AKS) om GPU-workloads uit te voeren. Container Insights verzamelt GPU-metrische gegevens via GPU-stuurprogrammapods die in het knooppunt worden uitgevoerd.

Naam van meetwaarde Metrische dimensie (tags) Beschrijving
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Percentage van de tijd gedurende de afgelopen voorbeeldperiode (60 seconden) waarbij de GPU bezet/actief werd verwerkt voor een container. De dienstcyclus is een getal tussen 1 en 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Elke container kan limieten opgeven als een of meer GPU's. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Elke container kan een of meer GPU's aanvragen. Het is niet mogelijk om een fractie van een GPU aan te vragen of te beperken.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Hoeveelheid GPU-geheugen in bytes die beschikbaar zijn voor gebruik voor een specifieke container.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Hoeveelheid GPU-geheugen in bytes die door een specifieke container worden gebruikt.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Het aantal GPU's in een knooppunt dat kan worden gebruikt door Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Totaal aantal GPU's in een knooppunt.

* Op basis van upstreamwijzigingen in Kubernetes worden deze metrische gegevens niet meer uit het vak verzameld. Als tijdelijke hotfix moet u voor AKS uw GPU-knooppuntgroep upgraden naar de nieuwste versie of *-2022.06.08 of hoger. Schakel voor Kubernetes met Azure Arc de functiepoort DisableAcceleratorUsageMetrics=false in in de kubelet-configuratie van het knooppunt en start de kubelet opnieuw. Nadat de upstream-wijzigingen algemeen beschikbaar zijn, werkt deze oplossing niet meer. Maak plannen om met 31 december 2022 te migreren naar het gebruik van uw gpu-leverancierspecifieke metrische gegevensexporteur.

GPU-prestatiegrafieken

Containerinzichten bevatten vooraf geconfigureerde grafieken voor de metrische gegevens die eerder in de tabel zijn vermeld als een GPU-werkmap voor elk cluster. Zie Workbooks in Container Insights voor een beschrijving van de werkmappen die beschikbaar zijn voor Container Insights.

Volgende stappen