Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede, Azure Yönetilen Prometheus ve Azure Yönetilen Grafana kullanarak Azure Kubernetes Service'de (AKS) NVIDIA Veri Merkezi GPU Yöneticisi (DCGM) dışa aktarıcısı tarafından toplanan GPU ölçümlerini nasıl izleyeceğinizi öğrenirsiniz.
Önkoşullar
- NVIDIA GPU özellikli düğüm havuzları içeren bir AKS kümesi ve GPU'ların zamanlanabilir olduğundan emin olun.
- Örnek bir GPU iş yükü düğüm havuzunuza dağıtıldı.
- AKS kümenizde Azure Yönetilen Prometheus ve Grafana etkinleştirildi.
- AKS kümenizle tümleştirilmiş bir Azure Container Registry (ACR).
- Kümenizde helm sürüm 3 veya üzeri yüklü.
NVIDIA DCGM Exporter'ı yükleme
NVIDIA DCGM Exporter, GPU ölçümlerini toplar ve dışarı aktarır. AKS kümenizde pod olarak çalışır ve kullanım, bellek kullanımı, sıcaklık ve güç tüketimi gibi ölçümleri toplar. Daha fazla bilgi için NVIDIA DCGM Exporter belgelerine bakın.
Önemli
Aks belgeleri ve örnekleri boyunca açık kaynak yazılımdan bahsedilmektedir. Dağıttığınız yazılımlar AKS hizmet düzeyi sözleşmelerinin, sınırlı garantinin ve Azure desteği dışında tutulur. AKS ile birlikte açık kaynak teknolojisini kullanırken, bir plan geliştirmek için ilgili toplulukların ve proje bakımcılarının sağlanan destek seçeneklerine başvurun.
Örneğin, Ray GitHub deposu yanıt süresi, amacı ve destek düzeyine göre değişen çeşitli platformları açıklar.
Microsoft, AKS'de dağıttığımız açık kaynak paketleri oluşturma sorumluluğunu üstlenir. Bu sorumluluk derleme, tarama, imzalama, doğrulama ve acil düzeltme sürecinin tam sahipliği ve konteyner görüntülerindeki ikili dosyalar üzerindeki denetimi içerir. Daha fazla bilgi için AKS için güvenlik açığı yönetimi ve AKS destek kapsamı sayfalarına bakın.
NVIDIA DCGM Exporter'ın varsayılan yapılandırmalarını güncelleştirme
NVIDIA/dcgm-exporter GitHub deposunu kopyalayın.
git clone https://github.com/NVIDIA/dcgm-exporter.git
Yeni
dcgm-exporter
dizine gidin.cd dcgm-exporter
service-monitor.yaml
açın veapiVersion
anahtarınıazmonitoring.coreos.com/v1
olarak güncelleyin. Bu değişiklik, NVIDIA DCGM ihracatçısının Azure Yönetimli Prometheus üzerinde ölçümleri göstermesini sağlar.apiVersion: azmonitoring.coreos.com/v1 ... ...
Dizine
deployment
gidin ve dosyayı açınvalues.yaml
. Bu YAML bildiriminde aşağıdaki alanları güncelleştirin:... ... serviceMonitor: apiVersion: "azmonitoring.coreos.com/v1" ... ... nodeSelector: accelerator: "nvidia" tolerations: - key: "sku" operator: "Equal" value: "gpu" effect: "NoSchedule" ... ...
NVIDIA DCGM ihracatçı Helm grafiğini Azure Container Registry'nize gönderin
Kopyalanan deponun
deployment
klasörüne gidin vehelm package
komutunu kullanarak Helm grafiğini paketleyin.helm package .
komutunu kullanarak ACR'nizle Helm'in kimliğini doğrular
helm registry login
.<acr_url>
,<user_name>
ve<password>
değerlerini ACR ayrıntılarınızla değiştirin. Daha ayrıntılı yönergeler için bkz. Azure Container Registry ile Helm kimliğini doğrulama.helm registry login <acr_url> --username <user_name> --password <password>
helm push
komutunu kullanarak Helm tablosunu ACR'nize gönderin.<dcgm_exporter_version>
öğesini,helm package
komutunun çıktısında belirtilen sürümle ve<acr_url>
öğesini ACR URL'nizle değiştirin.helm push dcgm-exporter-<dcgm_exporter_version>.tgz oci://<acr_url>/helm
helm install
komutunu kullanarak AKS kümenize Helm grafiğini GPU etkin düğüm havuzunuzla aynı ad alanında yükleyin.<acr_url>
ile ACR URL'nizi değiştirin.helm install dcgm-nvidia oci://<acr_url>/helm/dcgm-exporter -n <gpu_namespace>
komutunu kullanarak
helm list
AKS kümenizdeki yüklemeyi denetleyin.helm list -n <gpu_namespace>
NVIDIA DCGM Exporter'ın GPU düğüm havuzunuzda çalıştığını doğrulamak için
kubectl get pods
vekubectl get ds
komutlarını kullanın.kubectl get pods -n <gpu_namespace> kubectl get ds -n <gpu_namespace>
GPU Prometheus ölçümlerini dışarı aktarma ve NVIDIA Grafana panosunu yapılandırma
NVIDIA DCGM Exporter, GPU düğüm havuzunuza başarıyla dağıtıldıktan sonra, bir Kubernetes PodMonitor
kaynağı dağıtarak varsayılan etkin GPU ölçümlerini Azure Yönetilen Prometheus'a dışarı aktarmanız gerekir.
adlı
pod-monitor.yaml
bir dosya oluşturun ve bu dosyaya aşağıdaki yapılandırmayı ekleyin:apiVersion: azmonitoring.coreos.com/v1 kind: PodMonitor metadata: name: nvidia-dcgm-exporter labels: app.kubernetes.io/name: nvidia-dcgm-exporter spec: selector: matchLabels: app.kubernetes.io/name: nvidia-dcgm-exporter podMetricsEndpoints: - port: metrics interval: 30s podTargetLabels:
Uygun
kubectl apply
komutunukube-system
ad alanında kullanarak bu PodMonitor yapılandırmasını AKS kümenize uygulayın.kubectl apply -f pod-monitor.yaml -n kube-system
kubectl get podmonitor
komutunu kullanarak PodMonitor'ın başarıyla oluşturulduğunu doğrulayın.kubectl get podmonitor -n kube-system
Azure portalında Azure İzleyici çalışma alanınızın Yönetilen Prometheus>Prometheus gezgini bölümüne gidin. Kılavuz sekmesini seçin ve PromQL kutusunda örnek bir DCGM GPU ölçümü arayın. Örneğin
DCGM_FI_DEV_SM_CLOCK
:Yönetilen Grafana örneğiniz üzerinde Azure Yönetilen Grafana'da pano oluşturma bölümündeki adımları kullanarak dcgm-exporter-dashboard.json'ı içeri aktarın. JSON içeri aktarıldıktan sonra GPU ölçümlerini görüntüleyen pano Grafana örneğinizde görünür olmalıdır.
Sonraki adımlar
- AKS'de çok örnekli GPU (MIG) iş yükü dağıtın.
- Yapay zeka çıkarım ve ince ayarlama için yapay zeka araç zinciri operatör eklentisini (önizleme) keşfedin.
- AKS'de Ray kümeleri hakkında daha fazla bilgi edinin.
Azure Kubernetes Service