Aracılığıyla paylaş


Linux çalıştıran N serisi VM'lere NVIDIA GPU sürücülerini yükleme

Dikkat

Bu makalede, Kullanım Süresi Sonu (EOL) durumuna yakın bir Linux dağıtımı olan CentOS'a başvuruda bulunur. Lütfen kullanımınızı göz önünde bulundurun ve uygun şekilde planlayın. Daha fazla bilgi için bkz . CentOS Kullanım Süresi Sonu kılavuzu.

Şunlar için geçerlidir: ✔️ Linux VM'leri

NVIDIA GPU'ları tarafından desteklenen Azure N serisi VM'lerin GPU özelliklerinden yararlanmak için NVIDIA GPU sürücülerini yüklemeniz gerekir. NVIDIA GPU Sürücü Uzantısı, N serisi bir VM'ye uygun NVIDIA CUDA veya GRID sürücülerini yükler. Azure portalını veya Azure CLI veya Azure Resource Manager şablonları gibi araçları kullanarak uzantıyı yükleyin veya yönetin. Desteklenen dağıtımlar ve dağıtım adımları için NVIDIA GPU Sürücü Uzantısı belgelerine bakın.

NVIDIA GPU sürücülerini el ile yüklemeyi seçerseniz, bu makalede desteklenen dağıtımlar, sürücüler ve yükleme ve doğrulama adımları sağlanır. Windows VM'leri için el ile sürücü kurulum bilgileri de sağlanır.

N serisi VM belirtimleri, depolama kapasiteleri ve disk ayrıntıları için bkz . GPU Linux VM boyutları.

Desteklenen dağıtımlar ve sürücüler

Dikkat

Bu makalede, Kullanım Süresi Sonu (EOL) durumuna yakın bir Linux dağıtımı olan CentOS'a başvuruda bulunur. Lütfen kullanımınızı ve buna uygun planlamayı göz önünde bulundurun.

NVIDIA CUDA sürücüleri

En son CUDA sürücüleri ve desteklenen işletim sistemleri için NVIDIA web sitesini ziyaret edin. Dağıtımınız için desteklenen en son CUDA sürücülerini yüklediğinizden veya yükseltdiğinizden emin olun.

Not

Özgün NC serisi SKU VM'leri için desteklenen en son CUDA sürücüleri şu anda 470.82.01'dir. NC'deki K80 kartlarında sonraki sürücü sürümleri desteklenmez.

Not

Azure NVads A10 v5 VM'leri yalnızca GRID 14.1 (510.73) veya üzeri sürücü sürümlerini destekler. A10 SKU'su için vGPU sürücüsü, hem grafikleri hem de işlem iş yüklerini destekleyen birleşik bir sürücüdür.

İpucu

Linux VM'sinde el ile CUDA sürücüsü yüklemesine alternatif olarak, bir Azure Veri Bilimi Sanal Makinesi görüntüsü dağıtabilirsiniz. Ubuntu 16.04 LTS veya CentOS 7.4 için DSVM sürümleri NVIDIA CUDA sürücülerini, CUDA Derin Sinir Ağı Kitaplığı'nı ve diğer araçları önceden yükler.

NVIDIA GRID sürücüleri

Microsoft, sanal iş istasyonu olarak veya sanal uygulamalar için kullanılan NV ve NVv3 serisi VM'ler için NVIDIA GRID sürücü yükleyicilerini yeniden dağıtır. Yalnızca bu GRID sürücülerini Azure NV VM'lerine, yalnızca aşağıdaki tabloda listelenen işletim sistemlerine yükleyin. Bu sürücüler Azure'da GRID Sanal GPU Yazılımı için lisanslama içerir. NVIDIA vGPU yazılım lisans sunucusu ayarlamanız gerekmez.

Azure tarafından yeniden dağıtılan GRID sürücüleri NC, NCv2, NCv3, ND ve NDv2 serisi VM'ler gibi NV serisi olmayan vm'lerin çoğunda çalışmaz, ancak NCasT4v3 serisinde çalışır.

Belirli vGPU ve sürücü dalı sürümleri hakkında daha fazla bilgi için NVIDIA web sitesini ziyaret edin.

Dağıtım Sürücü
Ubuntu 20.04 LTS, 22.04 LTS

Red Hat Enterprise Linux 7.9, 8.6, 8.8, 8.9

SUSE Linux Enterprise Server 15 SP2, 12 SP2,12 SP5

Rocky Linux 8.4
NVIDIA vGPU 16.5, sürücü dalı R535(.exe)

NVIDIA vGPU 16.3, sürücü dalı R535(.exe)

Not

Azure NVads A10 v5 VM'leri için müşterilerin her zaman en son sürücü sürümünde olmasını öneririz. En son NVIDIA ana sürücü dalı (n) yalnızca önceki ana dal (n-1) ile geriye dönük uyumluluk sağlar. Örneğin, vGPU 17.x yalnızca vGPU 16.x ile geriye dönük uyumludur. En son sürücü dalı Azure konaklarına dağıtıldığında n-2 veya daha düşük bir sürümde çalışan tüm VM'ler sürücü hataları görebilir.

NVs_v3 VM'ler yalnızca vGPU 16 veya daha düşük sürücü sürümünü destekler.

Önceki tüm Nvidia GRID sürücü bağlantılarının tam listesi için GitHub'a gidin.

Uyarı

Red Hat ürünlerine üçüncü taraf yazılım yüklenmesi Red Hat destek koşullarını etkileyebilir. Bkz. Red Hat Bilgi Bankası makalesi.

N serisi VM'lere CUDA sürücülerini yükleme

NVIDIA CUDA Araç Seti'nden CUDA sürücülerini N serisi VM'lere yükleme adımları aşağıdadır.

C ve C++ geliştiricileri isteğe bağlı olarak TAM Toolkit'i yükleyip GPU hızlandırmalı uygulamalar oluşturabilir. Daha fazla bilgi için bkz . CUDA Yükleme Kılavuzu.

CUDA sürücülerini yüklemek için her VM'ye bir SSH bağlantısı oluşturun. Sistemin CUDA özellikli bir GPU'ya sahip olduğunu doğrulamak için aşağıdaki komutu çalıştırın:

lspci | grep -i NVIDIA

Çıkış aşağıdaki örneğe benzer (NVIDIA Tesla K80 kartını gösterir):

lspci komut çıkışı

lspci, varsa InfiniBand NIC ve GPU'lar dahil olmak üzere VM'de PCIe cihazlarını listeler. lspci başarıyla döndürülmezse, LIS'i CentOS/RHEL'e yüklemeniz gerekebilir.

Ardından dağıtımınıza özgü yükleme komutlarını çalıştırın.

Ubuntu

Ubuntu, NVIDIA'ya özel sürücüleri paketler. Bu sürücüler doğrudan NVIDIA'dan gelir ve sistem tarafından otomatik olarak yönetilebilmeleri için Ubuntu tarafından paketlenir. Sürücüleri başka bir kaynaktan indirip yüklemek sistemin bozulmasına neden olabilir. Ayrıca, üçüncü taraf sürücüleri yüklemek için TrustedLaunch ve Güvenli Önyükleme'nin etkinleştirildiği VM'lerde ek adımlar gerekir. Sistemin önyüklemesi için kullanıcının yeni bir Makine Sahibi Anahtarı eklemesini gerektirir. Ubuntu sürücüleri Canonical tarafından imzalanır ve Güvenli Önyükleme ile çalışır.

  1. Yükleme ubuntu-drivers yardımcı programı:

    sudo apt update && sudo apt install -y ubuntu-drivers-common
    
  2. En son NVIDIA sürücülerini yükleyin:

    sudo ubuntu-drivers install
    

    GPU sürücüsü yüklendikten sonra VM'yi yeniden başlatın.

  3. CUDA araç setini NVIDIA'dan indirin ve yükleyin:

    Not

    Örnekte Ubuntu 22.04 LTS için CUDA paket yolu gösterilmektedir. Kullanmayı planladığınız sürüme özgü yolu değiştirin.

    Her sürüme özgü tam yol için NVIDIA İndirme Merkezi'ni veya NVIDIA CUDA Kaynakları sayfasını ziyaret edin.

    wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2204/x86_64/cuda-keyring_1.1-1_all.deb
    sudo apt install -y ./cuda-keyring_1.1-1_all.deb
    sudo apt update
    sudo apt -y install cuda-toolkit-12-3
    

    Kurulum işlem birkaç dakika sürebilir.

  4. GPU'un doğru tanındığını doğrulayın (sistem değişikliklerinin etkili olması için VM'nizi yeniden başlatmanız gerekebilir):

    nvidia-smi
    

NVIDIA sürücü güncelleştirmeleri

Dağıtımdan sonra NVIDIA sürücülerini düzenli aralıklarla güncelleştirmenizi öneririz.

sudo apt update
sudo apt full-upgrade

CentOS veya Red Hat Enterprise Linux

  1. Çekirdeği güncelleştirin (önerilir). Çekirdeği güncelleştirmemeyi seçerseniz, ve dkms sürümlerinin kernel-develçekirdeğiniz için uygun olduğundan emin olun.

    sudo yum install kernel kernel-tools kernel-headers kernel-devel
    sudo reboot
    
  2. Hyper-V ve Azure için en son Linux Tümleştirme Hizmetleri'ni yükleyin. lspci'nin sonuçlarını doğrulayarak LIS'in gerekli olup olmadığını denetleyin. Tüm GPU cihazları beklendiği gibi listeleniyorsa, LIS'i yüklemek gerekmez.

    LIS, Red Hat Enterprise Linux, CentOS ve Oracle Linux Red Hat Uyumlu Çekirdek 5.2-5.11, 6.0-6.10 ve 7.0-7.7 için geçerlidir. Daha fazla ayrıntı için Linux Integration Services belgelerine bakın. Bu sürümler için LIS artık gerekli olmadığından CentOS/RHEL 7.8 (veya üzeri sürümler) kullanmayı planlıyorsanız bu adımı atlayın.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
  3. VM'ye yeniden bağlanın ve aşağıdaki komutlarla yüklemeye devam edin:

    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum-config-manager --add-repo https://developer.download.nvidia.com/compute/cuda/repos/rhel7/x86_64/cuda-rhel7.repo
    sudo yum clean all
    sudo yum -y install nvidia-driver-latest-dkms cuda-drivers
    

    Kurulum işlem birkaç dakika sürebilir.

    Not

    Kullanmak istediğiniz CentOS veya RHEL sürümü için doğru paketi seçmek için Fedora ve Nvidia CUDA depolarını ziyaret edin.

Örneğin, CentOS 8 ve RHEL 8 için aşağıdaki adımlar gerekir.

sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-8.noarch.rpm
sudo yum install dkms

sudo wget https://developer.download.nvidia.com/compute/cuda/repos/rhel8/x86_64/cuda-rhel8.repo -O /etc/yum.repos.d/cuda-rhel8.repo

sudo yum install cuda-drivers
  1. İsteğe bağlı olarak CUDA araç setinin tamamını yüklemek için şunu yazın:

    sudo yum install cuda
    

    Not

    vulkan-filesystem gibi eksik paketlerle ilgili bir hata iletisi görürseniz /etc/yum.repos.d/rh-cloud dosyasını düzenlemeniz gerekebilir, isteğe bağlı-rpm'leri arayın ve 1 olarak ayarlayın

  2. VM'yi yeniden başlatın ve yüklemeyi doğrulamaya devam edin.

Sürücü yüklemesini doğrulama

GPU cihaz durumunu sorgulamak için VM'ye SSH gönderin ve sürücüyle birlikte yüklenen nvidia-smi komut satırı yardımcı programını çalıştırın.

Sürücü yüklüyse Nvidia SMI, VM'de bir GPU iş yükü çalıştırana kadar GPU-Util'i %0 olarak listeler. Sürücü sürümünüz ve GPU ayrıntılarınız gösterilenden farklı olabilir.

NVIDIA cihaz durumu

RDMA ağ bağlantısı

RDMA ağ bağlantısı, aynı kullanılabilirlik kümesinde veya bir sanal makine (VM) ölçek kümesindeki tek bir yerleştirme grubunda dağıtılan NC24r gibi RDMA özellikli N serisi VM'lerde etkinleştirilebilir. RDMA ağı, Intel MPI 5.x veya sonraki bir sürümle çalışan uygulamalar için İleti Geçirme Arabirimi (MPI) trafiğini destekler:

Dağıtım

N serisi VM'lerde RDMA bağlantısını destekleyen Azure Market görüntülerden birinden RDMA özellikli N serisi VM'ler dağıtın:

  • Ubuntu 16.04 LTS - VM'de RDMA sürücülerini yapılandırın ve Intel MPI'yi indirmek için Intel'e kaydolun:

    1. dapl, rdmacm, ibverbs ve mlx4 yükleme

      sudo apt-get update
      
      sudo apt-get install libdapl2 libmlx4-1
      
      
    2. /etc/waagent.conf dosyasında, aşağıdaki yapılandırma satırlarını ayırarak RDMA'yı etkinleştirin. Bu dosyayı düzenlemek için kök erişiminiz olmalıdır.

      OS.EnableRDMA=y
      
      OS.UpdateRdmaDriver=y
      
    3. /etc/security/limits.conf dosyasına KB'de aşağıdaki bellek ayarlarını ekleyin veya değiştirin. Bu dosyayı düzenlemek için kök erişiminiz olmalıdır. Test amacıyla memlock'u sınırsız olarak ayarlayabilirsiniz. Örneğin: <User or group name> hard memlock unlimited.

      <User or group name> hard    memlock <memory required for your application in KB>
      
      <User or group name> soft    memlock <memory required for your application in KB>
      
    4. Intel MPI Kitaplığı'ni yükleyin. Kitaplığı Intel'den satın alıp indirin veya ücretsiz değerlendirme sürümünü indirin.

      wget http://registrationcenter-download.intel.com/akdlm/irc_nas/tec/9278/l_mpi_p_5.1.3.223.tgz
      

      Yalnızca Intel MPI 5.x çalışma zamanları desteklenir.

      Yükleme adımları için bkz . Intel MPI Kitaplığı Yükleme Kılavuzu.

    5. Kök olmayan hata ayıklayıcı olmayan işlemler için ptrace'i etkinleştirin (Intel MPI'nin en son sürümleri için gereklidir).

      echo 0 | sudo tee /proc/sys/kernel/yama/ptrace_scope
      
  • CentOS tabanlı 7.4 HPC - RDMA sürücüleri ve Intel MPI 5.1 VM'ye yüklenir.

  • CentOS tabanlı HPC - CentOS-HPC 7.6 ve üzeri (InfiniBand'in SR-IOV üzerinden desteklendiği SKU'lar için). Bu görüntülerde Mellanox OFED ve MPI kitaplıkları önceden yüklenmiştir.

Not

CX3-Pro kartları yalnızca Mellanox OFED'in LTS sürümleri aracılığıyla desteklenir. Bağlan X3-Pro kartlara sahip N serisi VM'lerde LTS Mellanox OFED sürümünü (4.9-0.1.7.0) kullanın. Daha fazla bilgi için bkz . Linux Sürücüleri.

Ayrıca, en son Azure Market HPC görüntülerinden bazıları, Bağlan X3-Pro kartları desteklemeyen Mellanox OFED 5.1 ve sonraki sürümlerine sahiptir. Bağlan X3-Pro kartlara sahip VM'lerde kullanmadan önce HPC görüntüsündeki Mellanox OFED sürümünü denetleyin.

Aşağıdaki görüntüler, Bağlan X3-Pro kartlarını destekleyen en son CentOS-HPC görüntüleridir:

  • OpenLogic:CentOS-HPC:7.6:7.6.2020062900
  • OpenLogic:CentOS-HPC:7_6gen2:7.6.2020062901
  • OpenLogic:CentOS-HPC:7.7:7.7.2020062600
  • OpenLogic:CentOS-HPC:7_7-gen2:7.7.2020062601
  • OpenLogic:CentOS-HPC:8_1:8.1.2020062400
  • OpenLogic:CentOS-HPC:8_1-gen2:8.1.2020062401

NV veya NVv3 serisi VM'lere GRID sürücüleri yükleme

NV veya NVv3 serisi VM'lere NVIDIA GRID sürücülerini yüklemek için her vm'ye bir SSH bağlantısı oluşturun ve Linux dağıtımınıza yönelik adımları izleyin.

Ubuntu

  1. lspci komutunu çalıştırın. NVIDIA M60 kartının veya kartlarının PCI cihazları olarak göründüğünden emin olun.

  2. Güncelleştirmeleri yükleyin.

    sudo apt-get update
    sudo apt-get upgrade -y
    sudo apt-get dist-upgrade -y
    sudo apt-get install build-essential ubuntu-desktop -y
    sudo apt-get install linux-azure -y
    
  3. NVIDIA sürücüsüyle uyumlu olmayan Nouveau çekirdek sürücüsünü devre dışı bırakın. (NVIDIA sürücüsünü yalnızca NV veya NVv2 VM'lerinde kullanın.) Sürücüyü devre dışı bırakmak için, içinde /etc/modprobe.d aşağıdaki içeriklere sahip bir nouveau.conf dosya oluşturun:

    blacklist nouveau
    blacklist lbm-nouveau
    
  4. VM'yi yeniden başlatın ve yeniden bağlanın. X sunucusundan çık:

    sudo systemctl stop lightdm.service
    
  5. GRID sürücüsünü indirin ve yükleyin:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. X yapılandırma dosyanızı güncelleştirmek için nvidia-xconfig yardımcı programını çalıştırmak isteyip istemediğiniz sorulduğunda Evet'i seçin.

  7. Yükleme tamamlandıktan sonra /etc/nvidia/gridd.conf.template dosyasını /etc/nvidia/ konumundaki gridd.conf dosyasına kopyalayın

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. aşağıdakini ekleyin /etc/nvidia/gridd.conf:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Varsa aşağıdakini kaldırın /etc/nvidia/gridd.conf :

    FeatureType=0
    
  10. VM'yi yeniden başlatın ve yüklemeyi doğrulamaya devam edin.

Güvenli Önyükleme etkin olarak Ubuntu'ya GRID sürücüsü yükleme

GRID sürücüsü yükleme işlemi, çekirdek modülü derlemesini ve yüklemesini atlamak ve imzalı çekirdek modüllerinin farklı bir kaynağını seçmek için herhangi bir seçenek sunmaz, bu nedenle imzalı çekirdek modüllerini yükledikten sonra Linux VM'lerinde güvenli önyüklemenin GRID ile kullanılabilmesi için devre dışı bırakılması gerekir.

CentOS veya Red Hat Enterprise Linux

  1. Çekirdeği ve DKMS'yi güncelleştirin (önerilir). Çekirdeği güncelleştirmemeyi seçerseniz ve dkms sürümlerinin kernel-devel çekirdeğiniz için uygun olduğundan emin olun.

    sudo yum update
    sudo yum install kernel-devel
    sudo rpm -Uvh https://dl.fedoraproject.org/pub/epel/epel-release-latest-7.noarch.rpm
    sudo yum install dkms
    sudo yum install hyperv-daemons
    
  2. NVIDIA sürücüsüyle uyumlu olmayan Nouveau çekirdek sürücüsünü devre dışı bırakın. (NVIDIA sürücüsünü yalnızca NV veya NV3 VM'lerinde kullanın.) Bunu yapmak için içinde aşağıdaki içeriklere sahip bir nouveau.conf dosya /etc/modprobe.d oluşturun:

    blacklist nouveau
    blacklist lbm-nouveau
    
  3. VM'yi yeniden başlatın, yeniden bağlanın ve Hyper-V ve Azure için en son Linux Integration Services'ı yükleyin. lspci'nin sonuçlarını doğrulayarak LIS'in gerekli olup olmadığını denetleyin. Tüm GPU cihazları beklendiği gibi listeleniyorsa, LIS'i yüklemek gerekmez.

    Bu sürümler için LIS artık gerekli olmadığından CentOS/RHEL 7.8 (veya üzeri sürümler) kullanmayı planlıyorsanız bu adımı atlayın.

    wget https://aka.ms/lis
    tar xvzf lis
    cd LISISO
    
    sudo ./install.sh
    sudo reboot
    
    
  4. VM'ye yeniden bağlanın lspci ve komutunu çalıştırın. NVIDIA M60 kartının veya kartlarının PCI cihazları olarak göründüğünden emin olun.

  5. GRID sürücüsünü indirin ve yükleyin:

    wget -O NVIDIA-Linux-x86_64-grid.run https://go.microsoft.com/fwlink/?linkid=874272
    chmod +x NVIDIA-Linux-x86_64-grid.run
    
    sudo ./NVIDIA-Linux-x86_64-grid.run
    
  6. X yapılandırma dosyanızı güncelleştirmek için nvidia-xconfig yardımcı programını çalıştırmak isteyip istemediğiniz sorulduğunda Evet'i seçin.

  7. Yükleme tamamlandıktan sonra /etc/nvidia/gridd.conf.template dosyasını /etc/nvidia/ konumundaki gridd.conf dosyasına kopyalayın

    sudo cp /etc/nvidia/gridd.conf.template /etc/nvidia/gridd.conf
    
  8. içine /etc/nvidia/gridd.confiki satır ekleyin:

    IgnoreSP=FALSE
    EnableUI=FALSE
    
  9. Varsa bir satırı kaldır /etc/nvidia/gridd.conf :

    FeatureType=0
    
  10. VM'yi yeniden başlatın ve yüklemeyi doğrulamaya devam edin.

Sürücü yüklemesini doğrulama

GPU cihaz durumunu sorgulamak için VM'ye SSH gönderin ve sürücüyle birlikte yüklenen nvidia-smi komut satırı yardımcı programını çalıştırın.

Sürücü yüklüyse Nvidia SMI, VM'de bir GPU iş yükü çalıştırana kadar GPU-Util'i %0 olarak listeler. Sürücü sürümünüz ve GPU ayrıntılarınız gösterilenden farklı olabilir.

GPU cihaz durumu sorgulandığında çıkışı gösteren ekran görüntüsü.

X11 sunucusu

NV veya NVv2 VM'sine uzak bağlantılar için bir X11 sunucusuna ihtiyacınız varsa, grafiklerin donanım hızlandırmasına izin verdiğinden x11vnc önerilir. M60 cihazının BusID'sinin X11 yapılandırma dosyasına el ile eklenmesi gerekir (genellikle, etc/X11/xorg.conf). Aşağıdakine benzer bir "Device" bölüm ekleyin:

Section "Device"
    Identifier     "Device0"
    Driver         "nvidia"
    VendorName     "NVIDIA Corporation"
    BoardName      "Tesla M60"
    BusID          "PCI:0@your-BusID:0:0"
EndSection

Ayrıca bu cihazı kullanmak için bölümünüzü güncelleştirin "Screen" .

Ondalık BusID, çalıştırılarak bulunabilir

nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'

BusID, bir VM yeniden tahsis edildiğinde veya yeniden başlatıldığında değişebilir. Bu nedenle, bir VM yeniden başlatıldığında X11 yapılandırmasında BusID'yi güncelleştirmek için bir betik oluşturmak isteyebilirsiniz. Örneğin, aşağıdakine benzer içeriklerle adlı busidupdate.sh bir betik (veya seçtiğiniz başka bir ad) oluşturun:

#!/bin/bash
XCONFIG="/etc/X11/xorg.conf"
OLDBUSID=`awk '/BusID/{gsub(/"/, "", $2); print $2}' ${XCONFIG}`
NEWBUSID=`nvidia-xconfig --query-gpu-info | awk '/PCI BusID/{print $4}'`

if [[ "${OLDBUSID}" == "${NEWBUSID}" ]] ; then
        echo "NVIDIA BUSID not changed - nothing to do"
else
        echo "NVIDIA BUSID changed from \"${OLDBUSID}\" to \"${NEWBUSID}\": Updating ${XCONFIG}"
        sed -e 's|BusID.*|BusID          '\"${NEWBUSID}\"'|' -i ${XCONFIG}
fi

Ardından, içinde güncelleştirme betiğiniz için bir girdi oluşturun, böylece betik /etc/rc.d/rc3.d önyüklemede kök olarak çağrılır.

Sorun giderme

  • Kullanarak kalıcılık modunu nvidia-smi ayarlayarak kartları sorgulamanız gerektiğinde komutun çıkışının daha hızlı olmasını sağlayabilirsiniz. Kalıcılık modunu ayarlamak için komutunu yürütür.nvidia-smi -pm 1 VM yeniden başlatılırsa mod ayarının kaybolduğunu unutmayın. Başlatma sırasında yürütülecek mod ayarını istediğiniz zaman betik olarak yazabilirsiniz.
  • NVIDIA CUDA sürücülerini en son sürüme güncelleştirdiyseniz ve RDMA bağlantısının artık çalışmadığını fark ederseniz, bağlantıyı yeniden kurmak için RDMA sürücülerini yeniden yükleyin.
  • LIS yüklemesi sırasında, LIS için belirli bir CentOS/RHEL işletim sistemi sürümü (veya çekirdeği) desteklenmiyorsa, "Desteklenmeyen çekirdek sürümü" hatası oluşturulur. Lütfen bu hatayı işletim sistemi ve çekirdek sürümleriyle birlikte bildirin.
  • İşler GPU'da ECC hataları nedeniyle kesintiye uğrarsa (düzeltilebilir veya düzeltilemez), önce GPU'nun ECC hataları için Nvidia'nın RMA ölçütlerinden herhangi birini karşılayıp karşılamadığı kontrol edin. GPU RMA için uygunsa, hizmet alma konusunda lütfen desteğe başvurun; aksi takdirde, GPU'nuzu burada açıklandığı gibi yeniden eklemek için VM'nizi yeniden başlatın. Gibi nvidia-smi -r daha az invaziv yöntemler Azure'da dağıtılan sanallaştırma çözümüyle çalışmaz.

Sonraki adımlar

  • Yüklü NVIDIA sürücülerinizle bir Linux VM görüntüsü yakalamak için bkz . Linux sanal makinesini genelleştirme ve yakalama.