Udostępnij przez


Tworzenie w pełni zarządzanej puli węzłów procesora GPU w usłudze Azure Kubernetes Service (AKS) (wersja zapoznawcza)

Po uruchomieniu obciążeń procesora GPU w usłudze Azure Kubernetes Service (AKS) należy zainstalować i obsługiwać kilka składników oprogramowania, w tym sterownik procesora GPU, wtyczkę urządzenia Kubernetes i eksportera metryk procesora GPU na potrzeby telemetrii. Te składniki są niezbędne do umożliwienia planowania procesora GPU, dostępu do procesora GPU na poziomie kontenera, wglądu w użycie zasobów i prawidłowego działania węzłów z obsługą procesora GPU usługi AKS. Wcześniej operatorzy klastrów musieli zainstalować te składniki ręcznie lub użyć alternatywnych rozwiązań typu open source, takich jak operator procesora GPU firmy NVIDIA, co może powodować złożoność i obciążenie operacyjne.

Usługa AKS obsługuje teraz w pełni zarządzane węzły procesora GPU (wersja zapoznawcza) i domyślnie instaluje sterownik procesora GPU FIRMY NVIDIA, wtyczkę urządzenia i eksporter metryk programu Data Center GPU Manager (DCGM). Ta funkcja umożliwia jednoetapowe tworzenie puli węzłów procesora GPU i sprawia, że dostępność zasobów procesora GPU w usłudze AKS jest tak prosta, jak węzły procesora CPU ogólnego przeznaczenia.

Z tego artykułu dowiesz się, jak aprowizować w pełni zarządzaną pulę węzłów procesora GPU (wersja zapoznawcza) w klastrze usługi AKS, w tym domyślną instalację sterownika procesora GPU FIRMY NVIDIA, wtyczkę urządzenia i eksportera metryk.

Ważne

Funkcje usługi AKS w wersji zapoznawczej są dostępne na zasadzie samoobsługi i wymagają zapisania się. Wersje zapoznawcze są udostępniane w wersji "as is" i "jako dostępne" i są wykluczone z umów dotyczących poziomu usług i ograniczonej gwarancji. Wersje zapoznawcze usługi AKS są częściowo objęte pomocą techniczną dla klientów, świadczoną w miarę możliwości. W związku z tym te funkcje nie są przeznaczone do użytku produkcyjnego. Aby uzyskać więcej informacji, zobacz następujące artykuły pomocy technicznej:

Zanim rozpoczniesz

Ograniczenia

  • Ta funkcja obsługuje obecnie tylko rozmiary maszyn wirtualnych z obsługą procesora GPU firmy NVIDIA .
  • Aktualizowanie puli węzłów ogólnego przeznaczenia w celu dodania rozmiaru maszyny wirtualnej procesora GPU nie jest obsługiwane w usłudze AKS.
  • Pule węzłów Windows nie są obsługiwane w przypadku tej funkcji, ponieważ metryki GPU nie są obsługiwane. Podczas tworzenia pul węzłów procesora GPU systemu Windows usługa AKS automatycznie instaluje sterowniki i wtyczkę urządzenia Directx oraz zarządza nią. Zobacz dokumentację GPU w systemie Windows dla AKS , aby uzyskać więcej informacji.
  • Migrowanie istniejących pul węzłów wielo-instancjowego GPU do używania tej funkcji nie jest obsługiwane.
  • Aktualizacje bezpośrednie, aby użyć tej funkcji na istniejących węzłach z obsługą GPU, nie są obsługiwane.

Uwaga / Notatka

Maszyny wirtualne z obsługą GPU zawierają wyspecjalizowany sprzęt, który wiąże się z wyższymi cenami i dostępnością w regionach. Aby uzyskać więcej informacji, zobacz narzędzie do ustalania cen i dostępność regionów .

Zainstaluj rozszerzenie CLI aks-preview

  1. Zainstaluj rozszerzenie aks-preview interfejsu wiersza polecenia za pomocą polecenia az extension add.

    az extension add --name aks-preview
    
  2. Zaktualizuj rozszerzenie, aby upewnić się, że masz zainstalowaną najnowszą wersję przy użyciu az extension update polecenia .

    az extension update --name aks-preview
    

Zarejestruj flagę ManagedGPUExperiencePreview funkcji w swojej subskrypcji

  • Zarejestruj flagę funkcji ManagedGPUExperiencePreview w subskrypcji przy użyciu polecenia az feature register.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Pobierz poświadczenia dla klastra

  • Pobierz poświadczenia dla klastra AKS za pomocą polecenia az aks get-credentials.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Utwórz zarządzaną w AKS pulę węzłów GPU (wersja zapoznawcza)

Możesz dodać w pełni zarządzaną pulę węzłów GPU (wersja zapoznawcza) do istniejącego klastra AKS, określając SKU systemu operacyjnego i polecenie --tags EnableManagedGPUExperience=true. W takim przypadku usługa AKS automatycznie zainstaluje sterownik procesora GPU, wtyczkę urządzenia gpu i eksportera metryk.

Aby użyć domyślnej jednostki SKU systemu operacyjnego Ubuntu, należy utworzyć pulę węzłów bez określania jednostki SKU systemu operacyjnego. Pula węzłów jest skonfigurowana dla domyślnego systemu operacyjnego na podstawie wersji rozwiązania Kubernetes klastra.

  1. Dodaj pulę węzłów do klastra za pomocą polecenia az aks nodepool add i polecenia --tags EnableManagedGPUExperience=true.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Upewnij się, że zarządzane składniki oprogramowania procesora GPU firmy NVIDIA zostały pomyślnie zainstalowane:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    Dane wyjściowe powinny zawierać następujące wartości:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Migrowanie istniejących obciążeń procesora GPU do puli węzłów procesora GPU zarządzanej przez usługę AKS

Uaktualnienia lokalne ze standardowej puli węzłów procesora GPU FIRMY NVIDIA do w pełni zarządzanej puli węzłów procesora GPU FIRMY NVIDIA (wersja zapoznawcza) w klastrze usługi AKS nie są obsługiwane. Zalecamy izolowanie i opróżnianie istniejących węzłów GPU, a następnie ponowne wdrażanie obciążeń do nowej puli węzłów z obsługą GPU i włączoną odpowiednią funkcją. Aby dowiedzieć się więcej, zobacz Zmienianie rozmiaru pul węzłów w usłudze AKS .

Sterownik GPU we własnym zakresie

Jeśli chcesz kontrolować instalację sterowników NVIDIA lub użyć operatora procesora GPU FIRMY NVIDIA, możesz pominąć instalację sterownika procesora GPU podczas tworzenia puli węzłów. W takim przypadku firma Microsoft nie obsługuje ani nie zarządza konserwacją i zgodnością sterowników NVIDIA w ramach wdrożenia obrazu węzła. Aby dowiedzieć się więcej, zobacz Skip GPU driver installation for NVIDIA GPU-enabled nodes on AKS ( Pomiń instalację sterownika procesora GPU dla węzłów z obsługą procesora GPU firmy NVIDIA w usłudze AKS).

Dalsze kroki