Not
Åtkomst till denna sida kräver auktorisation. Du kan prova att logga in eller byta katalog.
Åtkomst till denna sida kräver auktorisation. Du kan prova att byta katalog.
När du kör GPU-arbetsbelastningar i Azure Kubernetes Service (AKS) måste du installera och underhålla flera programvarukomponenter, inklusive GPU-drivrutinen, Kubernetes-enhets-plugin-programmet och GPU-måttexportören för telemetri. Dessa komponenter är viktiga för att aktivera GPU-schemaläggning, GPU-åtkomst på containernivå, observerbarhet för resursanvändning och korrekt funktion av AKS GPU-aktiverade noder. Tidigare var klusteroperatorer tvungna att antingen installera dessa komponenter manuellt eller använda alternativ med öppen källkod som NVIDIA GPU-operatorn, vilket kan medföra komplexitet och driftsbelastning.
AKS stöder nu fullständigt hanterade GPU-noder (förhandsversion) och installerar NVIDIA GPU-drivrutinen, enhets-plugin-programmet och DCGM-måttexportören ( Data Center GPU Manager) som standard. Den här funktionen möjliggör skapande av GPU-nodpool i ett steg och gör tillgängligheten för GPU-resurser i AKS lika enkel som allmänna ändamål CPU-noder.
I den här artikeln får du lära dig hur du etablerar en fullständigt hanterad GPU-nodpool (förhandsversion) i ditt AKS-kluster, inklusive standardinstallation av NVIDIA GPU-drivrutinen, enhets-plugin-programmet och måttexportören.
Viktigt!
AKS-förhandsversionsfunktioner är tillgängliga via självbetjäning och frivillig registrering. Förhandsversioner tillhandahålls "i befintligt skick" och "i mån av tillgång," och de är undantagna från servicenivåavtal och begränsad garanti. AKS-förhandsversioner stöds delvis av kundsupport efter bästa förmåga. Därför är dessa funktioner inte avsedda för produktionsanvändning. Mer information finns i följande supportartiklar:
Innan du börjar
- Den här artikeln förutsätter att du har ett befintligt AKS-kluster. Om du inte har ett kluster skapar du ett med hjälp av Azure CLI, Azure PowerShell eller Azure Portal.
- Du behöver Azure CLI version 2.72.2 eller senare installerad. Kör
az --versionför att hitta versionen. Om du behöver installera eller uppgradera, se Installera Azure CLI. - Du måste installera och uppgradera till den
aks-previewsenaste versionen av tillägget. - Du måste registrera funktionsflaggan
ManagedGPUExperiencePreviewi din prenumeration.
Begränsningar
- Den här funktionen stöder för närvarande endast NVIDIA GPU-aktiverade virtuella maskinstorlekar (VM).
- Uppdatering av en generell nodpool för att lägga till en GPU VM-storlek stöds inte i AKS.
- Windows-nodpooler stöds inte med den här funktionen eftersom GPU-mått inte stöds. När du skapar Windows GPU-nodpooler installerar och hanterar AKS automatiskt drivrutinerna och Directx-enhets-plugin-programmet. Mer information finns i AKS Windows GPU-dokumentation .
- Det går inte att migrera befintliga GPU-nodpooler med flera instanser för att använda den här funktionen.
- Uppgraderingar på plats för att använda den här funktionen på befintliga GPU-aktiverade noder stöds inte.
Anmärkning
GPU-aktiverade virtuella maskiner innehåller specialiserad hårdvara som är föremål för högre prissättning och regionsspecifik tillgänglighet. Mer information finns i prisverktyget och regionens tillgänglighet.
Installera aks-preview CLI-tillägget
Installera
aks-previewCLI-tillägget genom att användaaz extension addkommandot.az extension add --name aks-previewUppdatera tillägget för att säkerställa att du har den senaste versionen installerad med hjälp av kommandot
az extension update.az extension update --name aks-preview
Registrera funktionsflaggan ManagedGPUExperiencePreview i din prenumeration
Registrera funktionsflaggan
ManagedGPUExperiencePreviewi din prenumeration med kommandotaz feature register.az feature register --namespace Microsoft.ContainerService --name ManagedGPUExperiencePreview
Hämta autentiseringsuppgifterna för klustret
Hämta autentiseringsuppgifterna för AKS-klustret med hjälp av
az aks get-credentialskommandot .az aks get-credentials --resource-group $RESOURCE_GROUP --name $CLUSTER_NAME
Skapa en AKS-hanterad GPU-nodpool (förhandsversion)
Du kan lägga till en fullständigt hanterad GPU-nodpool (förhandsversion) i ett befintligt AKS-kluster genom att ange OS SKU och --tags EnableManagedGPUExperience=true kommando. När du gör detta installerar AKS GPU-drivrutinen, GPU-enhetens plugin-program och måttexportören automatiskt.
Om du vill använda standard-SKU:n för Ubuntu-operativsystemet (OS) skapar du nodpoolen utan att ange en OS-SKU. Nodpoolen är konfigurerad för standardoperativsystemet baserat på Kubernetes-versionen av klustret.
Lägg till en nodpool i ditt kluster med hjälp av kommandona
az aks nodepool addoch--tags EnableManagedGPUExperience=true.az aks nodepool add \ --resource‐group MyResourceGroup \ --cluster‐name MyAKSCluster \ --name gpunp \ --node‐count 1 \ --node‐vm‐size Standard_NC6s_v3 \ --node‐taints sku=gpu:NoSchedule \ --enable‐cluster‐autoscaler \ --min‐count 1 \ --max‐count 3 \ --tags EnableManagedGPUExperience=trueKontrollera att de hanterade NVIDIA GPU-programvarukomponenterna har installerats:
az aks nodepool show \ --resource-group myResourceGroup \ --cluster-name myAKSCluster \ --name gpunp \Dina utdata bör innehålla följande värden:
... ... "gpuInstanceProfile": … "gpuProfile": { "driver": "Install" }, ... ...
Migrera befintliga GPU-arbetsbelastningar till en AKS-hanterad GPU-nodpool
Uppgraderingar på plats från en NVIDIA GPU-standardnodpool till en fullständigt hanterad NVIDIA GPU-nodpool (förhandsversion) i AKS-klustret stöds inte. Vi rekommenderar att du spärrar och tömmer befintliga GPU-noder och sedan distribuerar om dina arbetsbelastningar till en ny GPU-aktiverad nodpool med den här funktionen aktiverad. Mer information finns i Ändra storlek på nodpooler i AKS .
Ta med din egen (BYO) GPU-drivrutin
Om du vill styra installationen av NVIDIA-drivrutinerna eller använda NVIDIA GPU-operatorn kan du kringgå GPU-drivrutinsinstallationen när nodpoolen skapas. I det här fallet stöder eller hanterar Microsoft inte underhåll och kompatibilitet för NVIDIA-drivrutinerna som en del av nodbildsdistributionen. Mer information finns i Hoppa över GPU-drivrutinsinstallation för NVIDIA GPU-aktiverade noder i AKS.
Nästa steg
- Distribuera en GPU-exempelarbetsbelastning på dina AKS-hanterade GPU-aktiverade noder.
- Lär dig mer om GPU-användning och prestandamått från hanterad NVIDIA DCGM-exportör i din GPU-nodpool.
Relaterade artiklar
- Lär dig mer om GPU-hälsoövervakning med Node Problem Detector (NPD) på AKS.
- Kör distribuerad slutsatsdragning på flera AKS GPU-noder.