Konfigurasi dan optimalkan VM
Berlaku untuk: ✔️ Mesin virtual Linux ✔️ Mesin virtual Windows ✔️ Set skala fleksibel ✔️ Set skala seragam
Artikel ini membagikan beberapa panduan tentang mengonfigurasi dan mengoptimalkan VM seri HB dan seri N dengan dukungan InfiniBand untuk HPC.
Gambar VM
Pada VM yang diaktifkan InfiniBand (IB), driver IB yang sesuai diperlukan untuk mengaktifkan RDMA.
- Gambar VM Ubuntu-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
- Gambar VM AlmaLinux-HPC di Marketplace telah dikonfigurasi sebelumnya dengan driver NVIDIA IB dan driver GPU yang sesuai.
Gambar VM ini didasarkan pada gambar VM marketplace Ubuntu dan AlmaLinux dasar. Skrip yang digunakan dalam pembuatan gambar VM ini dari gambar marketplace dasar mereka ada di repositori azhpc-images.
Pada VM Seri N yang diaktifkan GPU, driver GPU yang sesuai juga diperlukan. Ini dapat tersedia dengan metode berikut:
- Gunakan gambar VM Ubuntu-HPC atau gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
- Tambahkan driver GPU melalui ekstensi komputer virtual.
- Instal driver GPU secara manual.
- Beberapa gambar VM lainnya di Marketplace juga telah diinstal sebelumnya dengan driver GPU NVIDIA, termasuk beberapa gambar VM dari NVIDIA.
Tergantung pada kebutuhan distro dan versi Linux beban kerja, gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC di Marketplace adalah cara term mudah untuk memulai beban kerja HPC dan AI di Azure. Disarankan juga untuk membuat gambar VM kustom dengan kustomisasi dan konfigurasi khusus beban kerja untuk digunakan kembali.
Ukuran VM yang didukung oleh gambar VM HPC
Dukungan InfiniBand OFED
Gambar marketplace Azure HPC terbaru hadir dengan Mellanox OFED 5.1 dan yang lebih baru, yang tidak mendukung kartu ConnectX3-Pro InfiniBand. Kartu ConnectX-3 Pro InfiniBand memerlukan versi MOFED 4.9 LTS. Gambar VM ini hanya mendukung ConnextX-5 dan kartu InfiniBand yang lebih baru. Ukuran VM berikut mendukung matriks untuk InfiniBand OFED dalam gambar HPC VM ini:
Dukungan driver GPU
Saat ini hanya gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC yang telah dikonfigurasi sebelumnya dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
Matriks dukungan ukuran VM untuk driver GPU dalam gambar HPC VM yang didukung adalah sebagai berikut:
- Seri N: Ukuran VM NDv2, NDv4 didukung dengan driver GPU NVIDIA dan tumpukan perangkat lunak komputasi GPU (CUDA, NCCL).
- Ukuran VM 'NC' dan 'ND' lainnya dalam seri N didukung dengan driver GPU NVIDIA.
Semua ukuran mesin virtual di seri N mendukung mesin virtual Gen 2, meskipun beberapa yang lebih tua juga mendukung mesin virtual Gen 1. Dukungan "Gen 2" juga ditunjukkan dengan "01" di akhir versi atau URN VMI.
VM yang diaktifkan SR-IOV
Gambar VM Ubuntu-HPC
Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM Ubuntu-HPC versi 18.04, 20.04, dan 22.04 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.
Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.
"publisher": "Microsoft-DSVM", "offer": "Ubuntu-HPC",
Skrip yang digunakan dalam pembuatan gambar VM Ubuntu-HPC dari gambar dasar Ubuntu Marketplace ada di azhpc-images repo.
Gambar VM AlmaLinux-HPC
Untuk VM berkemampuan RDMA berkemampuan SR-IOV, gambar VM AlmaLinux-HPC versi 8.5, 8.6, dan 8.7 cocok. Gambar VM ini telah dikonfigurasi sebelumnya dengan driver Mellanox OFED untuk driver RDMA, GPU NVIDIA, tumpukan perangkat lunak komputasi GPU (CUDA, NCCL), dan pustaka MPI yang umum digunakan dan paket komputasi ilmiah. Lihat matriks dukungan ukuran VM.
Versi gambar VM yang tersedia atau terbaru dapat dicantumkan dengan informasi berikut menggunakan CLI atau Marketplace.
"publisher": "AlmaLinux", "offer": "AlmaLinux-HPC",
Skrip yang digunakan dalam pembuatan gambar VM AlmaLinux-HPC dari gambar Marketplace AlmaLinux dasar ada di repositori azhpc-images.
Selain itu, detail selengkapnya tentang apa yang disertakan dalam gambar VM Ubuntu-HPC dan gambar VM AlmaLinux-HPC, dan cara menyebarkannya ada di gambar Azure HPC VM.
Gambar RHEL VM
Gambar VM non-HPC berbasis RHEL dasar di Marketplace dapat dikonfigurasi untuk digunakan pada VM berkemampuan RDMA berkemampuan SR-IOV. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.
Gambar Ubuntu VM
Gambar VM Ubuntu Server 20.04 LTS dan 22.04 LTS dasar di Marketplace didukung untuk VM berkemampuan SR-IOV dan non-SR-IOV RDMA. Pelajari lebih lanjut tentang mengaktifkan InfiniBand dan menyiapkan MPI di VM.
- Petunjuk untuk mengaktifkan InfiniBand pada gambar VM Ubuntu ada di artikel TechCommunity.
Catatan
Mellanox OFED 5.1 ke atas tidak mendukung kartu ConnectX3-Pro InfiniBand pada ukuran VM seri N yang diaktifkan SR-IOV dengan FDR InfiniBand (misalnya NCv3). Harap gunakan LTS Mellanox OFED versi 4.9-0.1.7.0 atau lebih lama pada VM seri-N dengan kartu ConnectX3-Pro. Untuk informasi lebih lanjut, lihat Driver Linux InfiniBand.
Gambar SUSE Linux Enterprise Server VM
Gambar SLES 12 SP3 untuk HPC, SLES 12 SP3 untuk HPC (Premium), SLES 12 SP1 untuk HPC, SLES 12 SP1 untuk HPC (Premium), SLES 12 SP4 dan SLES 15 VM di Marketplace didukung. Gambar VM ini telah dimuat sebelumnya dengan driver Network Direct untuk RDMA (pada ukuran VM non-SR-IOV) dan Intel MPI versi 5.1. Pelajari selengkapnya tentang menyiapkan MPI di VM.
Mengoptimalkan VM
Berikut ini adalah beberapa pengaturan pengoptimalan opsional untuk meningkatkan performa pada VM.
Memperbarui LIS
Jika perlu untuk fungsionalitas atau performa, driver Linux Integration Services (LIS) dapat diinstal atau diperbarui pada distro OS yang didukung, terutama menyebarkan menggunakan gambar kustom atau versi OS yang lebih lama seperti RHEL 6.x atau versi 7.x yang lebih lama.
wget https://aka.ms/lis
tar xzf lis
pushd LISISO
sudo ./upgrade.sh
Mengeklaim kembali memori
Tingkatkan performa dengan mendapatkan mengeklaim kembali memori secara otomatis untuk menghindari akses memori jarak jauh.
sudo echo 1 >/proc/sys/vm/zone_reclaim_mode
Tetap rekam ulang mode memori persisten setelah reboot VM:
sudo echo "vm.zone_reclaim_mode = 1" >> /etc/sysctl.conf sysctl -p
Nonaktifkan firewall dan SELinux
sudo systemctl stop iptables.service
sudo systemctl disable iptables.service
sudo systemctl mask firewalld
sudo systemctl stop firewalld.service
sudo systemctl disable firewalld.service
sudo iptables -nL
sudo sed -i -e's/SELINUX=enforcing/SELINUX=disabled/g' /etc/selinux/config
Nonaktifkan cpupower
sudo service cpupower status
Jika diaktifkan, nonaktifkan:
sudo service cpupower stop
sudo systemctl disable cpupower
Konfigurasi WALinuxAgent
sudo sed -i -e 's/# OS.EnableRDMA=y/OS.EnableRDMA=y/g' /etc/waagent.conf
Secara opsional, WALinuxAgent dapat dinonaktifkan sebelum menjalankan pekerjaan lalu diaktifkan pasca-pekerjaan untuk ketersediaan sumber daya VM maksimum ke beban kerja HPC.
Langkah berikutnya
- Pelajari selengkapnya tentang mengaktifkan InfiniBand pada VM seri HB dan seri N dengan dukungan InfiniBand.
- Pelajari lebih lanjut menginstal dan menjalankan berbagai pustaka MPI yang didukung pada VM.
- Tinjau gambaran umum seri-HBv3 dan gambaran umum seri-HC.
- Membaca tentang pengumuman terbaru, contoh beban kerja HPC, dan hasil performa di Blog Komunitas Teknologi Azure Compute.
- Untuk tampilan arsitektur tingkat yang lebih tinggi dari beban kerja HPC yang berjalan, lihat Komputasi Kinerja Tinggi (HPC) pada Azure.