Konfigurowanie monitorowania procesora GPU przy użyciu szczegółowych informacji o kontenerze

Artykuł
08/09/2023

Począwszy od wersji agenta ciprod03022019, zintegrowany agent usługi Container Insights obsługuje teraz monitorowanie użycia graficznych jednostek przetwarzania (GPU) w węzłach klastra Kubernetes obsługujących procesor GPU i monitoruje zasobniki lub kontenery, które żądają i używają zasobów procesora GPU.

Uwaga

Zgodnie z ogłoszeniem nadrzędnym platformy Kubernetes platforma Kubernetes oznacza przestarzałe metryki procesora GPU zgłaszane przez rozwiązanie kubelet dla platformy Kubernetes w wersji 1.20 lub nowszej. W związku z tym szczegółowe informacje o kontenerach nie będą już mogły zbierać następujących metryk poza polem:

containerGpuDutyCycle
containerGpumemoryTotalBytes
containerGpumemoryUsedBytes

Aby kontynuować zbieranie metryk procesora GPU za pomocą szczegółowych informacji o kontenerze, przeprowadź migrację do eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r. Skonfiguruj złomowanie Prometheus , aby zeskrobać metryki z wdrożonego eksportera specyficznego dla dostawcy.

Obsługiwani dostawcy procesorów GPU

Usługa Container Insights obsługuje monitorowanie klastrów procesora GPU od następujących dostawców procesora GPU:

NVIDIA
AMD

Usługa Container Insights automatycznie uruchamia monitorowanie użycia procesora GPU w węzłach i procesorach GPU żądających zasobników i obciążeń, zbierając następujące metryki w 60-sekundowych interwałach i przechowując je w tabeli InsightMetrics .

Uwaga

Po aprowizacji klastrów z węzłami procesora GPU upewnij się, że sterownik procesora GPU jest zainstalowany zgodnie z wymaganiami Azure Kubernetes Service (AKS) do uruchamiania obciążeń procesora GPU. Szczegółowe informacje o kontenerze zbierają metryki procesora GPU za pomocą zasobników sterowników procesora GPU uruchomionych w węźle.

Nazwa metryki	Wymiar metryki (tagi)	Opis
containerGpuDutyCycle*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Procent czasu w poprzednim okresie próbek (60 sekund), podczas którego procesor GPU był zajęty/aktywnie przetwarzany dla kontenera. Cykl pracy jest liczbą z zakresu od 1 do 100.
containerGpuLimits	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Każdy kontener może określać limity jako co najmniej jeden procesor GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpuRequests	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Każdy kontener może zażądać co najmniej jednego procesora GPU. Nie można zażądać ani ograniczyć części procesora GPU.
containerGpumemoryTotalBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Ilość pamięci procesora GPU w bajtach dostępnych do użycia dla określonego kontenera.
containerGpumemoryUsedBytes*	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor	Ilość pamięci procesora GPU w bajtach używanych przez określony kontener.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Liczba procesorów GPU w węźle, który może być używany przez platformę Kubernetes.
nodeGpuCapacity	container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor	Łączna liczba procesorów GPU w węźle.

* Na podstawie zmian nadrzędnych platformy Kubernetes te metryki nie są już zbierane poza polem. Jako tymczasowa poprawka dla usługi AKS uaktualnij pulę węzłów procesora GPU do najnowszej wersji lub *-2022.06.08 lub nowszej. W przypadku platformy Kubernetes z włączoną usługą Azure Arc włącz bramę DisableAcceleratorUsageMetrics=false funkcji w konfiguracji kubelet węzła i uruchom ponownie narzędzie kubelet. Gdy zmiany nadrzędne osiągną ogólną dostępność, ta poprawka nie będzie już działać. Planowanie migracji do użycia eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r.

Wykresy wydajności procesora GPU

Szczegółowe informacje o kontenerze zawierają wstępnie skonfigurowane wykresy metryk wymienionych wcześniej w tabeli jako skoroszyt procesora GPU dla każdego klastra. Aby uzyskać opis skoroszytów dostępnych dla szczegółowych informacji o kontenerze, zobacz Skoroszyty w usłudze Container Insights.

Następne kroki

Zobacz Use GPU for compute-intensive workloads on Azure Kubernetes Service to learn how to deploy an AKS cluster that includes GPU-enabled nodes (Używanie procesorów GPU na potrzeby obciążeń intensywnie korzystających z obliczeń w Azure Kubernetes Service, aby dowiedzieć się, jak wdrożyć klaster usługi AKS obejmujący węzły z obsługą procesora GPU.
Dowiedz się więcej o jednostkach SKU maszyn wirtualnych zoptymalizowanych pod kątem procesora GPU na platformie Azure.
Zapoznaj się z obsługą procesora GPU na platformie Kubernetes, aby dowiedzieć się więcej o eksperymentalnej obsłudze platformy Kubernetes na potrzeby zarządzania procesorami GPU w jednym lub wielu węzłach w klastrze.

Share via

Konfigurowanie monitorowania procesora GPU przy użyciu szczegółowych informacji o kontenerze

Obsługiwani dostawcy procesorów GPU

Wykresy wydajności procesora GPU

Następne kroki

Dodatkowe zasoby