Poznámka
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Operátor NVIDIA GPU automatizuje správu a nasazení všech softwarových komponent NVIDIA potřebných ke zřízení gpu včetně instalace ovladače, modulu plug-in zařízení NVIDIA pro Kubernetes, modulu runtime kontejneru NVIDIA a dalších. Vzhledem k tomu, že operátor NVIDIA GPU zpracovává tyto komponenty, není nutné samostatně instalovat modul plug-in zařízení NVIDIA do clusteru AKS. To také znamená, že automatická instalace ovladače GPU by měla být vynechána, aby bylo možné použít operátor NVIDIA GPU v AKS.
Důležité
Opensourcový software je zmíněn v dokumentaci a ukázkách AKS. Software, které nasadíte, je vyloučeno z dohod o úrovni služeb AKS, omezené záruky a podpory Azure. Při používání open-source technologií spolu s AKS konzultujte dostupné možnosti podpory od příslušných komunit a správců projektů, abyste vytvořili plán.
Například úložiště Ray GitHub popisuje několik platforem, které se liší v době odezvy, účelu a úrovni podpory.
Microsoft přebírá odpovědnost za vytváření balíčků s otevřeným zdrojovým kódem, které nasazujeme na AKS. Tato odpovědnost zahrnuje plnou správu procesu sestavení, skenování, podepisování, validace a hotfixů, spolu s kontrolou nad binárními soubory v kontejnerových obrazech. Další informace najdete v tématu Řízení zranitelností pro AKS a Podpora pro AKS a rozsah pokrytí.
Než začnete
- Tento článek předpokládá, že již máte existující AKS cluster. Pokud nemáte klastr, vytvořte si ho pomocí Azure CLI, Azure PowerShell nebo portálu Azure.
- K nastavení
--gpu-driver
pole potřebujete azure CLI verze 2.72.2 nebo novější. Verzi zjistíte spuštěním příkazuaz --version
. Pokud potřebujete nainstalovat nebo upgradovat, přečtěte si téma [Instalace Azure CLI][install-azure-cli].
Poznámka:
Virtuální stroje s podporou GPU obsahují specializovaný hardware, který podléhá vyšším cenám a dostupnosti dle regionu. Další informace najdete v nástroji [pricing][azure-pricing] a [dostupnost oblastí][azure-availability].
Získejte přihlašovací údaje pro váš klastr
Získejte přihlašovací údaje pro váš AKS cluster pomocí příkazu az aks get-credentials
. Následující příklad příkazu získává přihlašovací údaje pro cluster myAKSCluster
ve skupině prostředků myResourceGroup
:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Poznámka:
Operátor NVIDIA GPU není kompatibilní s více verzemi operačního systému ve stejném clusteru AKS.
Přeskočte automatickou instalaci ovladače GPU vytvořením fondu uzlů s podporou NVIDIA GPU pomocí příkazu [
az aks nodepool add
][az-aks-nodepool-add] a nastavením pole--gpu-driver
rozhraní API na hodnotunone
. Nastavení tohoto pole rozhraní API nanone
během vytváření fondu uzlů přeskočí výchozí instalaci ovladače GPU, viz tento příklad. Jakékoli stávající uzly se nezmění. Fond uzlů můžete škálovat na nulu a pak zálohovat, aby se změna projevila.Postupujte podle dokumentace NVIDIA k instalaci GPU operátoru.
Nyní, když jste úspěšně nainstalovali GPU operátor, můžete zkontrolovat, že vaše GPU jsou rozvrhovatelná a spustit GPU úlohu.
Poznámka:
Při použití operátoru NVIDIA GPU a nasazení do spotových instancí může být potřeba vzít v úvahu další aspekty. Prosím, odkazujte se na https://github.com/NVIDIA/gpu-operator/issues/577
Další kroky
- Monitorujte metriky NVIDIA GPU pomocí spravovaného nástroje Prometheus a spravovaného nástroje Grafana v Azure.
- Přečtěte si další informace o Ray clusterech v AKS.
Azure Kubernetes Service