Azure Kubernetes Service'te (AKS) NVIDIA GPU operatörünü kullanma

NVIDIA GPU Operatörü, sürücü yüklemesi, Kubernetes için NVIDIA cihaz eklentisi, NVIDIA kapsayıcı çalışma zamanı ve daha fazlası dahil olmak üzere GPU sağlamak için gereken tüm NVIDIA yazılım bileşenlerinin yönetimini ve dağıtımını otomatikleştirir. NVIDIA GPU Operatörü bu bileşenleri işlediğinden NVIDIA cihaz eklentisini AKS kümenize ayrı olarak yüklemeniz gerekmez. Bu, AKS'de NVIDIA GPU İşleci'ni kullanmak için otomatik GPU sürücüsü yüklemesinin atlanması gerektiği anlamına da gelir.

Tip

NVIDIA GPU Operatörünün tam denetimine ihtiyacınız yoksa AKS tarafından yönetilen GPU düğüm havuzları (önizleme) NVIDIA sürücüsünü, Kubernetes cihaz eklentisini ve DCGM ölçümlerini sizin için yükler ve korur.

Önemli

AKS dokümantasyonu ve örneklerinde açık kaynaklı yazılımdan bahsedilmektedir. Dağıttığınız yazılım, AKS hizmet düzeyi anlaşmalarından, sınırlı garanti ve Azure desteğinden hariç tutulur. AKS ile birlikte açık kaynak teknolojisini kullanırken, bir plan geliştirmek için ilgili topluluklar ve proje sorumlularından mevcut olan destek seçeneklerine danışın.

Microsoft, AKS üzerinde dağıttığımız açık kaynak paketlerinin oluşturulmasından sorumluluk alır. Bu sorumluluk, yapı, tarama, imzalama, doğrulama ve hızlı düzeltme sürecinin tam sahipliğini içermenin yanı sıra, konteyner görüntülerindeki ikili dosyaların kontrolünü de kapsar. Daha fazla bilgi için AKS için güvenlik açığı yönetimi ve AKS destek kapsamı başlıklarına bakın.

Başlamadan önce

  • Bu makale, mevcut bir AKS kümeniz olduğunu varsayar. Kümeniz yoksa Azure CLI, Azure PowerShell veya Azure portalını kullanarak bir küme oluşturun.
  • Alanı ayarlamak için Azure CLI sürüm 2.72.2 veya üstünün yüklü olması gereklidir. Sürümü bulmak için az --version komutunu çalıştırın. Yüklemeniz veya yükseltmeniz gerekiyorsa bkz. Azure CLI'yı yükleme.

Uyarı

GPU özellikli VM'ler, daha yüksek fiyatlandırma ve bölge kullanılabilirliğine tabi özel donanımlar içerir. Daha fazla bilgi için fiyatlandırma aracı ve bölge kullanılabilirliği konularına bakın.

Sınırlamalar

Kümeniz için kimlik bilgilerini alın

AKS kümeniz için kimlik bilgilerini az aks get-credentials komutunu kullanarak alın. Aşağıdaki örnek komut, kaynak grubundaki myAKSCluster kümenin myResourceGroup kimlik bilgilerini alır:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Uyarı

NVIDIA GPU Operatörü, aynı AKS kümesindeki birden çok işletim sistemi sürümüyle uyumlu değildir.

  1. [az aks nodepool add][az-aks-nodepool-add] komutunu kullanarak NVIDIA GPU özellikli bir düğüm havuzu oluşturup API alanını --gpu-driver değerine noneayarlayarak otomatik GPU sürücüsü yüklemesini atlayın. Düğüm havuzu oluşturma sırasında bu API alanını none olarak ayarlamak, varsayılan GPU sürücüsü yüklemesini atlar, bkz. bu örneğe. Mevcut düğümler değiştirilmez. Düğüm havuzunu önce sıfıra, sonra yeniden yükselterek değişikliğin etkili olmasını sağlayabilirsiniz.

  2. GPU operatörünü yüklemek için NVIDIA belgelerini izleyin.

  3. GPU operatörünü başarıyla yüklediğinize göre GPU'larınızın zamanlanabilir olup olmadığını denetleyebilirsiniz ve bir GPU iş yükü çalıştırabilirsiniz.

Uyarı

NVIDIA GPU operatörünü kullanırken ve SPOT örneklerine dağıtırken dikkat edilmesi gereken ek noktalar olabilir. Lütfen https://github.com/NVIDIA/gpu-operator/issues/577'ye bakınız

Sonraki Adımlar