Kapsayıcı içgörüleri ile GPU izlemeyi yapılandırma
Aracı sürümü ciprod03022019'dan başlayarak, Container Insights tümleşik aracısı artık GPU kullanan Kubernetes küme düğümlerinde grafik işlem birimi (GPU) kullanımını izlemeyi destekler ve GPU kaynaklarını isteyen ve kullanan podları veya kapsayıcıları izler.
Not
Kubernetes yukarı akış duyurusunun yanı sıra Kubernetes, Kubernetes sürüm 1.20+ için kubelet tarafından bildirilen GPU ölçümlerini kullanım dışı bırakmaktadır. Sonuç olarak, Kapsayıcı içgörüleri artık aşağıdaki ölçümleri kutudan toplayamaz:
- containerGpuDutyCycle
- containerGpumemoryTotalBytes
- containerGpumemoryUsedBytes
Kapsayıcı içgörüleri aracılığıyla GPU ölçümlerini toplamaya devam etmek için 31 Aralık 2022'ye kadar GPU satıcıya özgü ölçümler dışarı aktarma işleminize geçin. Dağıtılan satıcıya özgü dışarı aktarmanın ölçümlerini kazımak için Prometheus kazımayı yapılandırın.
Desteklenen GPU satıcıları
Kapsayıcı içgörüleri aşağıdaki GPU satıcılarından GPU kümelerini izlemeyi destekler:
Kapsayıcı içgörüleri, aşağıdaki ölçümleri 60 saniyelik aralıklarla toplayarak ve InsightMetrics tablosunda depolayarak düğümlerde ve GPU isteyen podlarda ve iş yüklerinde GPU kullanımını otomatik olarak izlemeye başlar.
Not
GPU düğümleriyle kümeleri sağladıktan sonra, GPU iş yüklerini çalıştırmak için Azure Kubernetes Service (AKS) tarafından gereken şekilde GPU sürücüsünün yüklendiğinden emin olun. Kapsayıcı içgörüleri, düğümde çalışan GPU sürücü podları aracılığıyla GPU ölçümlerini toplar.
Ölçüm adı | Ölçüm boyutu (etiketler) | Açıklama |
---|---|---|
containerGpuDutyCycle* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | GPU'nun bir kapsayıcı için meşgul/etkin bir şekilde işlendiği geçmiş örnek dönemi (60 saniye) içindeki zaman yüzdesi. Görev döngüsü 1 ile 100 arasında bir sayıdır. |
containerGpuLimits | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Her kapsayıcı sınırları bir veya daha fazla GPU olarak belirtebilir. Gpu'nun bir bölümünü istemek veya sınırlandırmak mümkün değildir. |
containerGpuRequests | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName | Her kapsayıcı bir veya daha fazla GPU isteyebilir. Gpu'nun bir bölümünü istemek veya sınırlandırmak mümkün değildir. |
containerGpumemoryTotalBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Belirli bir kapsayıcı için kullanılabilecek bayt cinsinden GPU belleği miktarı. |
containerGpumemoryUsedBytes* | container.azm.ms/clusterId, container.azm.ms/clusterName, containerName, gpuId, gpuModel, gpuVendor | Belirli bir kapsayıcı tarafından kullanılan bayt cinsinden GPU belleği miktarı. |
nodeGpuAllocatable | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Kubernetes tarafından kullanılabilecek düğümdeki GPU sayısı. |
nodeGpuCapacity | container.azm.ms/clusterId, container.azm.ms/clusterName, gpuVendor | Düğümdeki toplam GPU sayısı. |
* Kubernetes yukarı akış değişikliklerine bağlı olarak, bu ölçümler artık kullanıma açık bir şekilde toplanmaz. Aks için geçici bir düzeltme olarak GPU düğüm havuzunuzu en son sürüme veya *-2022.06.08 veya sonraki bir sürüme yükseltin. Azure Arc özellikli Kubernetes için düğümün kubelet yapılandırmasında özellik geçidini DisableAcceleratorUsageMetrics=false
etkinleştirin ve kubelet'i yeniden başlatın. Yukarı akış değişiklikleri genel kullanıma ulaştıktan sonra bu düzeltme artık çalışmaz. 31 Aralık 2022'ye kadar GPU satıcınıza özgü ölçümler dışarı doğru geçiş planları yapın.
GPU performans grafikleri
Kapsayıcı içgörüleri, tablonun önceki bölümlerinde her küme için GPU çalışma kitabı olarak listelenen ölçümler için önceden yapılandırılmış grafikler içerir. Kapsayıcı içgörüleri için kullanılabilen çalışma kitaplarının açıklaması için bkz. Kapsayıcı içgörülerindeki çalışma kitapları.
Sonraki adımlar
- GPU özellikli düğümler içeren bir AKS kümesini dağıtmayı öğrenmek için bkz. Azure Kubernetes Service işlem yoğunluklu iş yükleri için GPU'ları kullanma.
- Azure'da GPU için iyileştirilmiş VM SKU'ları hakkında daha fazla bilgi edinin.
- Kümedeki bir veya daha fazla düğümde GPU'ları yönetmeye yönelik kubernetes deneysel desteği hakkında daha fazla bilgi edinmek için Kubernetes'teki GPU desteği'ne bakın.
Geri Bildirim
https://aka.ms/ContentUserFeedback.
Çok yakında: 2024 boyunca, içerik için geri bildirim mekanizması olarak GitHub Sorunları’nı kullanımdan kaldıracak ve yeni bir geri bildirim sistemiyle değiştireceğiz. Daha fazla bilgi için bkz.Gönderin ve geri bildirimi görüntüleyin