Konfigurowanie monitorowania procesora GPU przy użyciu szczegółowych informacji o kontenerze

Począwszy od wersji agenta ciprod03022019, zintegrowany agent usługi Container Insights obsługuje teraz monitorowanie użycia graficznych jednostek przetwarzania (GPU) w węzłach klastra Kubernetes obsługujących procesor GPU i monitoruje zasobniki lub kontenery, które żądają i używają zasobów procesora GPU.

Uwaga

Zgodnie z ogłoszeniem nadrzędnym platformy Kubernetes platforma Kubernetes oznacza przestarzałe metryki procesora GPU zgłaszane przez rozwiązanie kubelet dla platformy Kubernetes w wersji 1.20 lub nowszej. W związku z tym szczegółowe informacje o kontenerach nie będą już mogły zbierać następujących metryk poza polem:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Aby kontynuować zbieranie metryk procesora GPU za pomocą szczegółowych informacji o kontenerze, przeprowadź migrację do eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r. Skonfiguruj złomowanie Prometheus , aby zeskrobać metryki z wdrożonego eksportera specyficznego dla dostawcy.

Obsługiwani dostawcy procesorów GPU

Usługa Container Insights obsługuje monitorowanie klastrów procesora GPU od następujących dostawców procesora GPU:

Usługa Container Insights automatycznie uruchamia monitorowanie użycia procesora GPU w węzłach i procesorach GPU żądających zasobników i obciążeń, zbierając następujące metryki w 60-sekundowych interwałach i przechowując je w tabeli InsightMetrics .

Uwaga

Po aprowizacji klastrów z węzłami procesora GPU upewnij się, że sterownik procesora GPU jest zainstalowany zgodnie z wymaganiami Azure Kubernetes Service (AKS) do uruchamiania obciążeń procesora GPU. Szczegółowe informacje o kontenerze zbierają metryki procesora GPU za pomocą zasobników sterowników procesora GPU uruchomionych w węźle.

Nazwa metryki Wymiar metryki (tagi) Opis
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Procent czasu w poprzednim okresie próbek (60 sekund), podczas którego procesor GPU był zajęty/aktywnie przetwarzany dla kontenera. Cykl pracy jest liczbą z zakresu od 1 do 100.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Każdy kontener może określać limity jako co najmniej jeden procesor GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Każdy kontener może zażądać co najmniej jednego procesora GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Ilość pamięci procesora GPU w bajtach dostępnych do użycia dla określonego kontenera.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Ilość pamięci procesora GPU w bajtach używanych przez określony kontener.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Liczba procesorów GPU w węźle, który może być używany przez platformę Kubernetes.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Łączna liczba procesorów GPU w węźle.

* Na podstawie zmian nadrzędnych platformy Kubernetes te metryki nie są już zbierane poza polem. Jako tymczasowa poprawka dla usługi AKS uaktualnij pulę węzłów procesora GPU do najnowszej wersji lub *-2022.06.08 lub nowszej. W przypadku platformy Kubernetes z włączoną usługą Azure Arc włącz bramę DisableAcceleratorUsageMetrics=false funkcji w konfiguracji kubelet węzła i uruchom ponownie narzędzie kubelet. Gdy zmiany nadrzędne osiągną ogólną dostępność, ta poprawka nie będzie już działać. Planowanie migracji do użycia eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r.

Wykresy wydajności procesora GPU

Szczegółowe informacje o kontenerze zawierają wstępnie skonfigurowane wykresy metryk wymienionych wcześniej w tabeli jako skoroszyt procesora GPU dla każdego klastra. Aby uzyskać opis skoroszytów dostępnych dla szczegółowych informacji o kontenerze, zobacz Skoroszyty w usłudze Container Insights.

Następne kroki