Delen via


Een volledig beheerde GPU-knooppuntgroep maken in Azure Kubernetes Service (AKS) (preview)

Wanneer u GPU-workloads uitvoert in Azure Kubernetes Service (AKS), moet u verschillende softwareonderdelen installeren en onderhouden, waaronder het GPU-stuurprogramma, de Kubernetes-apparaatinvoegtoepassing en de gpu-exporteur voor metrische gegevens voor telemetrie. Deze onderdelen zijn essentieel voor het inschakelen van GPU-planning, GPU-toegang op containerniveau, waarneembaarheid van resourcegebruik en de juiste werking van AKS GPU-knooppunten. Voorheen moesten clusteroperators deze onderdelen handmatig installeren of opensource-alternatieven gebruiken, zoals de NVIDIA GPU-operator, die complexiteit en operationele overhead kunnen veroorzaken.

AKS ondersteunt nu volledig beheerde GPU-knooppunten (preview) en installeert standaard het NVIDIA GPU-stuurprogramma, de apparaatinvoegtoepassing en de metrische gegevensexporteur voor Data Center GPU Manager (DCGM). Deze functie maakt het maken van gpu-knooppuntgroepen in één stap mogelijk en maakt de beschikbaarheid van GPU-resources in AKS net zo eenvoudig als CPU-knooppunten voor algemeen gebruik.

In dit artikel leert u hoe u een volledig beheerde GPU-knooppuntgroep (preview) inricht in uw AKS-cluster, inclusief de standaardinstallatie van het NVIDIA GPU-stuurprogramma, de apparaatinvoegtoepassing en de exporteur van metrische gegevens.

Belangrijk

AKS preview-functies zijn beschikbaar op selfservice, opt-in basis. Previews worden geleverd 'zoals het is' en 'voor zover beschikbaar' en zijn uitgesloten van de serviceovereenkomsten en beperkte garantie. AKS-previews worden gedeeltelijk gedekt door klantondersteuning naar best vermogen. Zodoende zijn deze functies niet bedoeld voor productiegebruik. Zie de volgende ondersteuningsartikelen voor meer informatie:

Voordat u begint

Beperkingen

  • Deze functie biedt momenteel alleen ondersteuning voor VM-grootten (VIRTUELE MACHINES) met NVIDIA GPU .
  • Het bijwerken van een knooppuntgroep voor algemeen gebruik om een GPU-VM-grootte toe te voegen, wordt niet ondersteund in AKS.
  • Windows-knooppuntgroepen worden niet ondersteund met deze functie, omdat GPU-metrische gegevens niet worden ondersteund. Bij het maken van Windows GPU-knooppuntgroepen installeert en beheert AKS automatisch de stuurprogramma's en de Directx-apparaatinvoegtoepassing. Zie de documentatie voor AKS Windows GPU voor meer informatie.
  • Het migreren van uw bestaande GPU-knooppuntgroepen met meerdere exemplaren om deze functie te gebruiken, wordt niet ondersteund.
  • In-place upgrades voor het gebruik van deze functie op bestaande GPU-knooppunten worden niet ondersteund.

Opmerking

GPU-ingeschakelde virtuele machines bevatten gespecialiseerde hardware die onderhevig is aan hogere prijsstelling en beschikbaarheid per regio. Raadpleeg voor meer informatie het prijsgereedschap en de beschikbaarheid per regio.

aks-preview De CLI-extensie installeren

  1. Installeer de aks-preview CLI-extensie met behulp van de az extension add opdracht.

    az extension add --name aks-preview
    
  2. Werk de extensie bij om ervoor te zorgen dat u de nieuwste versie hebt geïnstalleerd met behulp van de az extension update opdracht.

    az extension update --name aks-preview
    

ManagedGPUExperiencePreview De functievlag registreren in uw abonnement

  • Registreer de ManagedGPUExperiencePreview functievlag in uw abonnement met behulp van de az feature register opdracht.

    az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
    

Verkrijg de inloggegevens voor uw cluster

  • Verkrijg de inloggegevens voor je AKS-cluster door de az aks get-credentials-opdracht te gebruiken.

    az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
    

Een door AKS beheerde GPU-knooppuntgroep maken (preview)

U kunt een volledig beheerde GPU-knooppuntgroep (preview) toevoegen aan een bestaand AKS-cluster door de SKU en --tags EnableManagedGPUExperience=true opdracht van het besturingssysteem op te geven. Wanneer u dit doet, installeert AKS automatisch het GPU-stuurprogramma, de GPU-apparaatinvoegtoepassing en de metrische gegevensexporteur.

Als u de standaard Ubuntu-besturingssysteem-SKU (OS) wilt gebruiken, maakt u de knooppuntgroep zonder een SKU van het besturingssysteem op te geven. De nodepool is geconfigureerd voor het standaardbesturingssysteem op basis van de Kubernetes-versie van de cluster.

  1. Voeg een knooppuntgroep toe aan uw cluster met behulp van de az aks nodepool add opdracht met de --tags EnableManagedGPUExperience=true opdracht.

    az aks nodepool add \
        --resource‐group MyResourceGroup \
        --cluster‐name MyAKSCluster \
        --name gpunp \
        --node‐count 1 \
        --node‐vm‐size Standard_NC6s_v3 \
        --node‐taints sku=gpu:NoSchedule \
        --enable‐cluster‐autoscaler \
        --min‐count 1 \
        --max‐count 3 \
        --tags EnableManagedGPUExperience=true
    
  2. Controleer of de beheerde NVIDIA GPU-softwareonderdelen zijn geïnstalleerd:

    az aks nodepool show \
        --resource-group myResourceGroup \
        --cluster-name myAKSCluster \
        --name gpunp \
    

    De uitvoer moet de volgende waarden bevatten:

    ...
    ...
    "gpuInstanceProfile": …
        "gpuProfile": {
            "driver": "Install"
        },
    ...
    ...
    

Bestaande GPU-workloads migreren naar een door AKS beheerde GPU-knooppuntgroep

In-place upgrades van een standaard NVIDIA GPU-nodegroep naar een volledig beheerde NVIDIA GPU-nodegroep (preview) op uw AKS-cluster worden niet ondersteund. We raden u aan uw bestaande GPU-knooppunten af te koppelen en leeg te maken en vervolgens uw workloads opnieuw te implementeren in een nieuwe knooppuntgroep met GPU-functionaliteit waarvoor deze functie is ingeschakeld. Zie Het formaat van knooppuntgroepen wijzigen in AKS voor meer informatie.

Bring Your Own GPU-stuurprogramma (BYO)

Als u de installatie van de NVIDIA-stuurprogramma's wilt beheren of de NVIDIA GPU-operator wilt gebruiken, kunt u de installatie van het GPU-stuurprogramma overslaan tijdens het maken van een knooppuntgroep. In dit geval biedt Microsoft geen ondersteuning voor of beheer van het onderhoud en de compatibiliteit van de NVIDIA-stuurprogramma's als onderdeel van de uitrol van de knooppuntafbeeldingen. Zie De installatie van GPU-stuurprogramma's overslaan voor knooppunten met NVIDIA GPU in AKS voor meer informatie.

Volgende stappen