Aracılığıyla paylaş


Kapsayıcı içgörüleri ile GPU izlemeyi yapılandırma

Aracı sürümü ciprod03022019'dan başlayarak, Container Insights tümleşik aracısı artık GPU kullanan Kubernetes küme düğümlerinde grafik işlem birimi (GPU) kullanımını izlemeyi destekler ve GPU kaynaklarını isteyen ve kullanan podları veya kapsayıcıları izler.

Not

Kubernetes yukarı akış duyurusunun yanı sıra Kubernetes, Kubernetes sürüm 1.20+ için kubelet tarafından bildirilen GPU ölçümlerini kullanım dışı bırakmaktadır. Sonuç olarak, Kapsayıcı içgörüleri artık aşağıdaki ölçümleri kutudan toplayamaz:

  • containerGpuDutyCycle
  • containerGpumemoryTotalBytes
  • containerGpumemoryUsedBytes

Kapsayıcı içgörüleri aracılığıyla GPU ölçümlerini toplamaya devam etmek için 31 Aralık 2022'ye kadar GPU satıcıya özgü ölçümler dışarı aktarma işleminize geçin. Dağıtılan satıcıya özgü dışarı aktarmanın ölçümlerini kazımak için Prometheus kazımayı yapılandırın.

Desteklenen GPU satıcıları

Kapsayıcı içgörüleri aşağıdaki GPU satıcılarından GPU kümelerini izlemeyi destekler:

Kapsayıcı içgörüleri, aşağıdaki ölçümleri 60 saniyelik aralıklarla toplayarak ve InsightMetrics tablosunda depolayarak düğümlerde ve GPU isteyen podlarda ve iş yüklerinde GPU kullanımını otomatik olarak izlemeye başlar.

Not

GPU düğümleriyle kümeleri sağladıktan sonra, GPU iş yüklerini çalıştırmak için Azure Kubernetes Service (AKS) tarafından gereken şekilde GPU sürücüsünün yüklendiğinden emin olun. Kapsayıcı içgörüleri, düğümde çalışan GPU sürücü podları aracılığıyla GPU ölçümlerini toplar.

Ölçüm adı Ölçüm boyutu (etiketler) Açıklama
containerGpuDutyCycle* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor GPU'nun bir kapsayıcı için meşgul/etkin bir şekilde işlendiği geçmiş örnek dönemi (60 saniye) içindeki zaman yüzdesi. Görev döngüsü 1 ile 100 arasında bir sayıdır.
containerGpuLimits container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Her kapsayıcı sınırları bir veya daha fazla GPU olarak belirtebilir. Gpu'nun bir bölümünü istemek veya sınırlandırmak mümkün değildir.
containerGpuRequests container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Her kapsayıcı bir veya daha fazla GPU isteyebilir. Gpu'nun bir bölümünü istemek veya sınırlandırmak mümkün değildir.
containerGpumemoryTotalBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Belirli bir kapsayıcı için kullanılabilecek bayt cinsinden GPU belleği miktarı.
containerGpumemoryUsedBytes* container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor Belirli bir kapsayıcı tarafından kullanılan bayt cinsinden GPU belleği miktarı.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Kubernetes tarafından kullanılabilecek düğümdeki GPU sayısı.
nodeGpuCapacity container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor Düğümdeki toplam GPU sayısı.

* Kubernetes yukarı akış değişikliklerine bağlı olarak, bu ölçümler artık kullanıma açık bir şekilde toplanmaz. Aks için geçici bir düzeltme olarak GPU düğüm havuzunuzu en son sürüme veya *-2022.06.08 veya sonraki bir sürüme yükseltin. Azure Arc özellikli Kubernetes için düğümün kubelet yapılandırmasında özellik geçidini DisableAcceleratorUsageMetrics=false etkinleştirin ve kubelet'i yeniden başlatın. Yukarı akış değişiklikleri genel kullanıma ulaştıktan sonra bu düzeltme artık çalışmaz. 31 Aralık 2022'ye kadar GPU satıcınıza özgü ölçümler dışarı doğru geçiş planları yapın.

GPU performans grafikleri

Kapsayıcı içgörüleri, tablonun önceki bölümlerinde her küme için GPU çalışma kitabı olarak listelenen ölçümler için önceden yapılandırılmış grafikler içerir. Kapsayıcı içgörüleri için kullanılabilen çalışma kitaplarının açıklaması için bkz. Kapsayıcı içgörülerindeki çalışma kitapları.

Sonraki adımlar