Sdílet prostřednictvím


Použití operátoru NVIDIA GPU ve službě Azure Kubernetes Service (AKS)

Operátor NVIDIA GPU automatizuje správu a nasazení všech softwarových komponent NVIDIA potřebných ke zřízení gpu včetně instalace ovladače, modulu plug-in zařízení NVIDIA pro Kubernetes, modulu runtime kontejneru NVIDIA a dalších. Vzhledem k tomu, že operátor NVIDIA GPU zpracovává tyto komponenty, není nutné samostatně instalovat modul plug-in zařízení NVIDIA do clusteru AKS. To také znamená, že automatická instalace ovladače GPU by měla být vynechána, aby bylo možné použít operátor NVIDIA GPU v AKS.

Důležité

Opensourcový software je zmíněn v dokumentaci a ukázkách AKS. Software, které nasadíte, je vyloučeno z dohod o úrovni služeb AKS, omezené záruky a podpory Azure. Při používání open-source technologií spolu s AKS konzultujte dostupné možnosti podpory od příslušných komunit a správců projektů, abyste vytvořili plán.

Například úložiště Ray GitHub popisuje několik platforem, které se liší v době odezvy, účelu a úrovni podpory.

Microsoft přebírá odpovědnost za vytváření balíčků s otevřeným zdrojovým kódem, které nasazujeme na AKS. Tato odpovědnost zahrnuje plnou správu procesu sestavení, skenování, podepisování, validace a hotfixů, spolu s kontrolou nad binárními soubory v kontejnerových obrazech. Další informace najdete v tématu Řízení zranitelností pro AKS a Podpora pro AKS a rozsah pokrytí.

Než začnete

  • Tento článek předpokládá, že již máte existující AKS cluster. Pokud nemáte klastr, vytvořte si ho pomocí Azure CLI, Azure PowerShell nebo portálu Azure.
  • K nastavení --gpu-driver pole potřebujete azure CLI verze 2.72.2 nebo novější. Verzi zjistíte spuštěním příkazu az --version. Pokud potřebujete nainstalovat nebo upgradovat, přečtěte si téma [Instalace Azure CLI][install-azure-cli].

Poznámka:

Virtuální stroje s podporou GPU obsahují specializovaný hardware, který podléhá vyšším cenám a dostupnosti dle regionu. Další informace najdete v nástroji [pricing][azure-pricing] a [dostupnost oblastí][azure-availability].

Získejte přihlašovací údaje pro váš klastr

Získejte přihlašovací údaje pro váš AKS cluster pomocí příkazu az aks get-credentials. Následující příklad příkazu získává přihlašovací údaje pro cluster myAKSCluster ve skupině prostředků myResourceGroup:

az aks get-credentials --resource-group myResourceGroup --name myAKSCluster

Poznámka:

Operátor NVIDIA GPU není kompatibilní s více verzemi operačního systému ve stejném clusteru AKS.

  1. Přeskočte automatickou instalaci ovladače GPU vytvořením fondu uzlů s podporou NVIDIA GPU pomocí příkazu [az aks nodepool add][az-aks-nodepool-add] a nastavením pole --gpu-driver rozhraní API na hodnotu none. Nastavení tohoto pole rozhraní API na none během vytváření fondu uzlů přeskočí výchozí instalaci ovladače GPU, viz tento příklad. Jakékoli stávající uzly se nezmění. Fond uzlů můžete škálovat na nulu a pak zálohovat, aby se změna projevila.

  2. Postupujte podle dokumentace NVIDIA k instalaci GPU operátoru.

  3. Nyní, když jste úspěšně nainstalovali GPU operátor, můžete zkontrolovat, že vaše GPU jsou rozvrhovatelná a spustit GPU úlohu.

Poznámka:

Při použití operátoru NVIDIA GPU a nasazení do spotových instancí může být potřeba vzít v úvahu další aspekty. Prosím, odkazujte se na https://github.com/NVIDIA/gpu-operator/issues/577

Další kroky