Bagikan melalui


Konfigurasi dan optimalkan VM

Berlaku untuk: ✔️ Mesin virtual Linux ✔️ Mesin virtual Windows ✔️ Set skala fleksibel ✔️ Set skala seragam

Artikel ini membagikan beberapa panduan tentang mengonfigurasi dan mengoptimalkan VM seri HB dan seri N dengan dukungan InfiniBand untuk HPC.

Gambar VM

Pada VM yang diaktifkan InfiniBand (IB), driver IB yang sesuai diperlukan untuk mengaktifkan RDMA.

  • Gambar VM Ubuntu-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
  • Gambar VM AlmaLinux-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.

Gambar VM ini didasarkan pada gambar VM marketplace Ubuntu dan AlmaLinux dasar. Skrip yang digunakan dalam pembuatan gambar VM ini dari gambar marketplace dasar mereka ada di repositori azhpc-images.

Pada VM Seri N yang diaktifkan GPU, driver GPU yang sesuai juga diperlukan. Ini dapat tersedia dengan metode berikut:

  • Gunakan gambar VM Ubuntu-HPC atau gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
  • Tambahkan driver GPU melalui ekstensi komputer virtual.
  • Instal driver GPU secara manual.
  • Beberapa gambar VM lainnya di Marketplace juga telah diinstal sebelumnya dengan driver GPU NVIDIA, termasuk beberapa gambar VM dari NVIDIA.

Tergantung pada kebutuhan distro dan versi Linux beban kerja, gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC di Marketplace adalah cara term mudah untuk memulai beban kerja HPC dan AI di Azure. Disarankan juga untuk membuat gambar VM kustom dengan kustomisasi dan konfigurasi khusus beban kerja untuk digunakan kembali.

Ukuran VM yang didukung oleh gambar VM HPC

Dukungan InfiniBand OFED

Gambar marketplace Azure HPC terbaru hadir dengan Mellanox OFED 5.1 dan yang lebih baru, yang tidak mendukung kartu ConnectX3-Pro InfiniBand. Kartu ConnectX-3 Pro InfiniBand memerlukan versi MOFED 4.9 LTS. Gambar VM ini hanya mendukung ConnextX-5 dan kartu InfiniBand yang lebih baru. Ukuran VM berikut mendukung matriks untuk InfiniBand OFED dalam gambar HPC VM ini:

  • Seri HB: HB, HC, HBv2, HBv3, HBv4
  • Seri-N: NDv2, NDv4

Dukungan driver GPU

Saat ini hanya gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).

Matriks dukungan ukuran VM untuk driver GPU dalam gambar HPC VM yang didukung adalah sebagai berikut:

  • Seri N: Ukuran VM NDv2, NDv4 didukung dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
  • Ukuran VM 'NC' dan 'ND' lainnya dalam seri N didukung dengan driver GPU NVIDIA.

Semua ukuran mesin virtual di seri N mendukung mesin virtual Gen 2, meskipun beberapa yang lebih tua juga mendukung mesin virtual Gen 1. Dukungan "Gen 2" juga ditunjukkan dengan "01" di akhir versi atau URN VMI.

VM yang diaktifkan SR-IOV

Gambar VM Ubuntu-HPC

Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM Ubuntu-HPC versi 18.04, 20.04, dan 22.04 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.

  • Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.

    "publisher": "Microsoft-DSVM",
    "offer": "Ubuntu-HPC",
    
  • Skrip yang digunakan dalam pembuatan gambar VM Ubuntu-HPC dari gambar dasar Ubuntu Marketplace ada di azhpc-images repo.

Gambar VM AlmaLinux-HPC

Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM AlmaLinux-HPC versi 8.5, 8.6, dan 8.7 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.

  • Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.

    "publisher": "AlmaLinux",
    "offer": "AlmaLinux-HPC",
    
  • Skrip yang digunakan dalam pembuatan gambar VM AlmaLinux-HPC dari gambar Marketplace AlmaLinux dasar ada di repositori azhpc-images.

Selain itu, detail selengkapnya tentang apa yang disertakan dalam gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC, dan cara menyebarkannya ada di gambar Azure HPC VM.

Gambar RHEL VM

Gambar VM non-HPC berbasis RHEL dasar di Marketplace dapat dikonfigurasi untuk digunakan pada VM berkemampuan RDMA berkemampuan SR-IOV. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.

Gambar Ubuntu VM

Gambar VM Ubuntu Server 20.04 LTS dan 22.04 LTS dasar di Marketplace didukung untuk VM berkemampuan SR-IOV dan non-SR-IOV RDMA. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.

Catatan

Mellanox OFED 5.1 ke atas tidak mendukung kartu ConnectX3-Pro InfiniBand pada ukuran VM seri N yang diaktifkan SR-IOV dengan FDR InfiniBand (misalnya NCv3). Harap gunakan LTS Mellanox OFED versi 4.9-0.1.7.0 atau lebih lama pada VM seri-N dengan kartu ConnectX3-Pro. Untuk informasi lebih lanjut, lihat Driver Linux InfiniBand.

Gambar SUSE Linux Enterprise Server VM

Gambar SLES 12 SP3 untuk HPC, SLES 12 SP3 untuk HPC (Premium), SLES 12 SP1 untuk HPC, SLES 12 SP1 untuk HPC (Premium), SLES 12 SP4 dan SLES 15 VM di Marketplace didukung. Gambar VM ini telah dimuat sebelumnya dengan driver Network Direct untuk RDMA (pada ukuran VM non-SR-IOV) dan Intel MPI versi 5.1. Pelajari selengkapnya tentang menyiapkan MPI di VM.

Mengoptimalkan VM

Berikut ini adalah beberapa pengaturan pengoptimalan opsional untuk meningkatkan performa pada VM.

Memperbarui LIS

Jika perlu untuk fungsionalitas atau performa, driver Linux Integration Services (LIS) dapat diinstal atau diperbarui pada distro OS yang didukung, terutama menyebarkan menggunakan gambar kustom atau versi OS yang lebih lama seperti RHEL 6.x atau versi 7.x yang lebih lama.

wget https://aka.ms/lis
tar xzf lis
pushd LISISO
sudo ./upgrade.sh

Mengeklaim kembali memori

Tingkatkan performa dengan mendapatkan mengeklaim kembali memori secara otomatis untuk menghindari akses memori jarak jauh.

sudo echo 1 >/proc/sys/vm/zone_reclaim_mode

Tetap rekam ulang mode memori persisten setelah reboot VM:

sudo echo "vm.zone_reclaim_mode = 1" >> /etc/sysctl.conf sysctl -p

Nonaktifkan firewall dan SELinux

sudo systemctl stop iptables.service
sudo systemctl disable iptables.service
sudo systemctl mask firewalld
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
sudo iptables -nL
sudo sed -i -e's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config

Nonaktifkan cpupower

sudo service cpupower status

Jika diaktifkan, nonaktifkan:

sudo service cpupower stop
sudo systemctl disable cpupower

Konfigurasi WALinuxAgent

sudo sed -i -e 's/# OS.EnableRDMA=y/OS.EnableRDMA=y/g' /etc/waagent.conf

Secara opsional, WALinuxAgent dapat dinonaktifkan sebelum menjalankan pekerjaan lalu diaktifkan pasca-pekerjaan untuk ketersediaan sumber daya VM maksimum ke beban kerja HPC.

Langkah berikutnya