Konfigurowanie monitorowania procesora GPU przy użyciu szczegółowych informacji o kontenerze
Począwszy od wersji agenta ciprod03022019, zintegrowany agent usługi Container Insights obsługuje teraz monitorowanie użycia graficznych jednostek przetwarzania (GPU) w węzłach klastra Kubernetes obsługujących procesor GPU i monitoruje zasobniki lub kontenery, które żądają i używają zasobów procesora GPU.
Uwaga
Zgodnie z ogłoszeniem nadrzędnym platformy Kubernetes platforma Kubernetes oznacza przestarzałe metryki procesora GPU zgłaszane przez rozwiązanie kubelet dla platformy Kubernetes w wersji 1.20 lub nowszej. W związku z tym szczegółowe informacje o kontenerach nie będą już mogły zbierać następujących metryk poza polem:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Aby kontynuować zbieranie metryk procesora GPU za pomocą szczegółowych informacji o kontenerze, przeprowadź migrację do eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r. Skonfiguruj złomowanie Prometheus , aby zeskrobać metryki z wdrożonego eksportera specyficznego dla dostawcy.
Obsługiwani dostawcy procesorów GPU
Usługa Container Insights obsługuje monitorowanie klastrów procesora GPU od następujących dostawców procesora GPU:
Usługa Container Insights automatycznie uruchamia monitorowanie użycia procesora GPU w węzłach i procesorach GPU żądających zasobników i obciążeń, zbierając następujące metryki w 60-sekundowych interwałach i przechowując je w tabeli InsightMetrics .
Uwaga
Po aprowizacji klastrów z węzłami procesora GPU upewnij się, że sterownik procesora GPU jest zainstalowany zgodnie z wymaganiami Azure Kubernetes Service (AKS) do uruchamiania obciążeń procesora GPU. Szczegółowe informacje o kontenerze zbierają metryki procesora GPU za pomocą zasobników sterowników procesora GPU uruchomionych w węźle.
Nazwa metryki | Wymiar metryki (tagi) | Opis |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Procent czasu w poprzednim okresie próbek (60 sekund), podczas którego procesor GPU był zajęty/aktywnie przetwarzany dla kontenera. Cykl pracy jest liczbą z zakresu od 1 do 100. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Każdy kontener może określać limity jako co najmniej jeden procesor GPU. Nie można zażądać ani ograniczyć części procesora GPU. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Każdy kontener może zażądać co najmniej jednego procesora GPU. Nie można zażądać ani ograniczyć części procesora GPU. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Ilość pamięci procesora GPU w bajtach dostępnych do użycia dla określonego kontenera. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Ilość pamięci procesora GPU w bajtach używanych przez określony kontener. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Liczba procesorów GPU w węźle, który może być używany przez platformę Kubernetes. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Łączna liczba procesorów GPU w węźle. |
* Na podstawie zmian nadrzędnych platformy Kubernetes te metryki nie są już zbierane poza polem. Jako tymczasowa poprawka dla usługi AKS uaktualnij pulę węzłów procesora GPU do najnowszej wersji lub *-2022.06.08 lub nowszej. W przypadku platformy Kubernetes z włączoną usługą Azure Arc włącz bramę DisableAcceleratorUsageMetrics=false
funkcji w konfiguracji kubelet węzła i uruchom ponownie narzędzie kubelet. Gdy zmiany nadrzędne osiągną ogólną dostępność, ta poprawka nie będzie już działać. Planowanie migracji do użycia eksportera metryk specyficznych dla dostawcy procesora GPU do 31 grudnia 2022 r.
Wykresy wydajności procesora GPU
Szczegółowe informacje o kontenerze zawierają wstępnie skonfigurowane wykresy metryk wymienionych wcześniej w tabeli jako skoroszyt procesora GPU dla każdego klastra. Aby uzyskać opis skoroszytów dostępnych dla szczegółowych informacji o kontenerze, zobacz Skoroszyty w usłudze Container Insights.
Następne kroki
- Zobacz Use GPU for compute-intensive workloads on Azure Kubernetes Service to learn how to deploy an AKS cluster that includes GPU-enabled nodes (Używanie procesorów GPU na potrzeby obciążeń intensywnie korzystających z obliczeń w Azure Kubernetes Service, aby dowiedzieć się, jak wdrożyć klaster usługi AKS obejmujący węzły z obsługą procesora GPU.
- Dowiedz się więcej o jednostkach SKU maszyn wirtualnych zoptymalizowanych pod kątem procesora GPU na platformie Azure.
- Zapoznaj się z obsługą procesora GPU na platformie Kubernetes, aby dowiedzieć się więcej o eksperymentalnej obsłudze platformy Kubernetes na potrzeby zarządzania procesorami GPU w jednym lub wielu węzłach w klastrze.