Poznámka:
Přístup k této stránce vyžaduje autorizaci. Můžete se zkusit přihlásit nebo změnit adresáře.
Přístup k této stránce vyžaduje autorizaci. Můžete zkusit změnit adresáře.
Operátor NVIDIA GPU automatizuje správu a nasazení všech softwarových komponent NVIDIA potřebných ke zřízení gpu včetně instalace ovladače, modulu plug-in zařízení NVIDIA pro Kubernetes, modulu runtime kontejneru NVIDIA a dalších. Vzhledem k tomu, že operátor NVIDIA GPU zpracovává tyto komponenty, není nutné samostatně instalovat modul plug-in zařízení NVIDIA do clusteru AKS. To také znamená, že automatická instalace ovladače GPU by měla být vynechána, aby bylo možné použít operátor NVIDIA GPU v AKS.
Tip
Pokud nepotřebujete úplnou kontrolu nad operátorem GPU NVIDIA, GPU uzly spravované AKS (Preview) nainstalují a udržují ovladač NVIDIA, modul plug-in zařízení Kubernetes a exportér metrik DCGM za vás.
Důležité
Opensourcový software je zmíněn v dokumentaci a ukázkách AKS. Software, které nasadíte, je vyloučeno z dohod o úrovni služeb AKS, omezené záruky a podpory Azure. Při používání open-source technologií spolu s AKS konzultujte dostupné možnosti podpory od příslušných komunit a správců projektů, abyste vytvořili plán.
Microsoft přebírá odpovědnost za vytváření balíčků s otevřeným zdrojovým kódem, které nasazujeme na AKS. Tato odpovědnost zahrnuje plnou správu procesu sestavení, skenování, podepisování, validace a hotfixů, spolu s kontrolou nad binárními soubory v kontejnerových obrazech. Další informace najdete v tématu Řízení zranitelností pro AKS a Podpora pro AKS a rozsah pokrytí.
Než začnete
- Tento článek předpokládá, že již máte existující AKS cluster. Pokud nemáte klastr, vytvořte si ho pomocí Azure CLI, Azure PowerShell nebo portálu Azure.
- K nastavení
--gpu-driverpole potřebujete azure CLI verze 2.72.2 nebo novější. Verzi zjistíte spuštěním příkazuaz --version. Pokud potřebujete instalovat nebo upgradovat, podívejte se na Install Azure CLI.
Poznámka:
Virtuální stroje s podporou GPU obsahují specializovaný hardware, který podléhá vyšším cenám a dostupnosti dle regionu. Pro více informací se podívejte na nástroj ceny a dostupnost regionů.
Omezení
- Operátor NVIDIA GPU není podporován pro následující možnosti operačního systému: Verze Windows Serveru, Flatcar Container Linux pro AKS (Preview) a Azure Linux s OS Guard pro AKS (Preview).
Získejte přihlašovací údaje pro váš klastr
Získejte přihlašovací údaje pro váš AKS cluster pomocí příkazu az aks get-credentials. Následující příklad příkazu získává přihlašovací údaje pro cluster myAKSCluster ve skupině prostředků myResourceGroup:
az aks get-credentials --resource-group myResourceGroup --name myAKSCluster
Poznámka:
Operátor NVIDIA GPU není kompatibilní s více verzemi operačního systému ve stejném clusteru AKS.
Přeskočte automatickou instalaci ovladače GPU vytvořením fondu uzlů s podporou NVIDIA GPU pomocí příkazu [
az aks nodepool add][az-aks-nodepool-add] a nastavením pole--gpu-driverrozhraní API na hodnotunone. Nastavení tohoto pole rozhraní API nanoneběhem vytváření fondu uzlů přeskočí výchozí instalaci ovladače GPU, viz tento příklad. Jakékoli stávající uzly se nezmění. Fond uzlů můžete škálovat na nulu a pak zálohovat, aby se změna projevila.Postupujte podle dokumentace NVIDIA k instalaci GPU operátoru.
Nyní, když jste úspěšně nainstalovali GPU operátor, můžete zkontrolovat, že vaše GPU jsou rozvrhovatelná a spustit GPU úlohu.
Poznámka:
Při použití operátoru NVIDIA GPU a nasazení do spotových instancí může být potřeba vzít v úvahu další aspekty. Prosím, odkazujte se na https://github.com/NVIDIA/gpu-operator/issues/577
Další kroky
- Porovnejte s fondy uzlů GPU spravovanými službou AKS (Preview), které za vás nainstalují a udržují ovladač NVIDIA, modul plug-in zařízení a exportér metrik DCGM.
- Monitorujte metriky NVIDIA GPU pomocí spravovaného nástroje Prometheus a spravovaného nástroje Grafana v Azure.
- Přečtěte si další informace o Ray clusterech v AKS.