Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Artikel ini memperkenalkan tolok ukur HPC- AI di Azure. Ini dirancang untuk arsitek, insinyur, dan pembuat keputusan yang perlu:
- Mengevaluasi infrastruktur Azure untuk beban kerja baru atau yang sudah ada
- Menetapkan garis besar performa
- Membandingkan keluarga VM menggunakan data objektif
- Mengoptimalkan performa dan efisiensi biaya
Mengapa benchmarking penting
Tolok ukur memberikan wawasan berbasis bukti yang mendukung keputusan teknis dan bisnis. Ini melayani beberapa tujuan penting untuk beban kerja HPC dan AI:
- Pilih infrastruktur yang tepat: Cocokkan karakteristik beban kerja dengan keluarga Azure VM yang paling cocok.
- Memvalidasi performa: Konfirmasikan bahwa sistem yang disebarkan memenuhi target throughput dan latensi yang diharapkan.
- Optimalkan konfigurasi: Identifikasi hambatan di seluruh komputasi, memori, penyimpanan, dan jaringan.
- Menganalisis efisiensi biaya: Membandingkan rasio harga–performa di seluruh opsi VM.
- Mendukung keputusan pengadaan: Berikan data performa yang dapat diulang dan dipertanggungjawabkan kepada pemangku kepentingan.
Metrik Performa Utama
Memahami metrik inti yang digunakan untuk mengukur performa sistem HPC sangat penting untuk evaluasi dan perbandingan sistem yang bermakna. Mereka memberikan pengukuran objektif untuk perbandingan, mengidentifikasi hambatan sistem sehingga memungkinkan penyetelan performa dan membantu memprediksi performa aplikasi. Metrik bervariasi menurut jenis beban kerja, tetapi umumnya termasuk dalam empat kategori.
- Performa komputasi
- Kinerja memori
- Performa jaringan
- Metrik khusus AI
Metrik performa komputasi menjelaskan kemampuan pemrosesan mentah sistem dan seberapa efektif kemampuan tersebut diwujudkan dalam praktiknya. FLOPS (operasi floating-point per detik) umumnya digunakan untuk mengukur throughput komputasi dan sering dilaporkan oleh standar pengujian seperti HPL (LINPACK). Meskipun performa puncak mewakili kemampuan maksimum teoritis perangkat keras, performa berkelanjutan mencerminkan aplikasi apa yang sebenarnya dicapai di bawah beban kerja nyata dan oleh karena itu merupakan indikator yang lebih bermakna untuk sebagian besar evaluasi.
Keluarga Azure VM untuk HPC dan AI
Azure menyediakan keluarga VM khusus yang disetel untuk pola beban kerja yang berbeda.
HPC berbasis CPU (seri HB)
VM seri HB dioptimalkan untuk bandwidth memori dan jaringan latensi rendah, membuatnya sangat cocok untuk beban kerja HPC tradisional seperti:
- Dinamika fluida komputasi (CFD)
- Pemodelan cuaca dan iklim
- Analisis elemen terbatas
Karakteristik utama meliputi:
- Prosesor AMD EPYC dengan jumlah inti tinggi
- Bandwidth memori yang besar (termasuk HBM dalam generasi lebih baru)
- Jaringan InfiniBand berkecepatan tinggi
AI berbasis GPU (seri ND)
VM seri ND dirancang untuk beban kerja yang dipercepat GPU, termasuk:
- Pelatihan pembelajaran mendalam
- Inferensi model bahasa besar (LLM)
- Penelitian dan eksperimen AI
Fitur VM ini:
- GPU pusat data NVIDIA (H100, H200, Blackwell)
- Kapasitas memori GPU besar
- Interkoneksi berkecepatan tinggi GPU-ke-GPU dan GPU-ke-jaringan
Kategori tolok ukur
Tolok ukur yang berbeda menjawab pertanyaan yang berbeda. Pilih tolok ukur berdasarkan aspek performa yang ingin Anda evaluasi.
Tolok ukur sintetis
Tolok ukur sintetis mengisolasi komponen sistem tertentu dan berguna untuk validasi dasar:
- STREAM – Mengukur bandwidth memori berkesinambungan
- HPL (LINPACK) – Mengukur performa komputasi titik pecahan puncak
- HPCG – Mengevaluasi performa untuk aljabar linier yang jarang, lebih dekat ke beban kerja HPC dunia nyata
- OSU Micro-Benchmarks – Memeriksa latensi dan bandwidth MPI
- Pengujian NCCL – Mengukur performa komunikasi kolektif GPU
Tolok ukur aplikasi
Tolok ukur aplikasi mencerminkan perilaku dunia nyata dan seringkali lebih representatif:
- ANSYS Fluent – Kinerja pemecah CFD
- WRF – Pemodelan cuaca dan atmosfer
- Throughput GROMACS / NAMD – Dinamika molekuler
- Pelatihan MLPerf – Performa pelatihan AI end-to-end
- Inferensi MLPerf – Model yang melayani throughput dan latensi
Memulai Langkah Pertama
Ikuti jalur yang direkomendasikan ini untuk mulai melakukan tolok ukur di Azure:
1. Set up infrastructure
└── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
2. Run baseline benchmarks
├── Running Your First Benchmark: STREAM (CPU/memory)
└── Running NCCL Benchmarks (GPU communication)
3. Compare VM options
├── CPU HPC VMs Comparison
└── GPU AI VMs Comparison
4. Optimize for your workload
└── Optimizing NCCL for Azure (AI training)
Praktik terbaik
Berikut adalah beberapa panduan untuk tolok ukur yang andal dan dapat direproduksi:
Sebelum Anda membuat tolok ukur
- Menggunakan gambar yang dioptimalkan HPC/AI: Mulailah dengan gambar Azure HPC (AlmaLinux-HPC, Ubuntu-HPC) yang menyertakan driver dan pustaka yang telah dikonfigurasi sebelumnya
- Verifikasi versi driver: Pastikan driver GPU, driver InfiniBand, dan versi NCCL saat ini
- Periksa topologi: Mengonfirmasi konfigurasi NUMA dan afinitas GPU-ke-NIC
Selama pengujian pembandingan
- Eksekusi pemanasan: Buang eksekusi awal untuk memungkinkan cache stabil
- Beberapa iterasi: Jalankan setidaknya 5 iterasi dan laporkan median atau rata-rata
- Kondisi yang konsisten: Menjaga OS, driver, dan konfigurasi identik di seluruh perbandingan
- Dokumentasikan semuanya: Merekam versi perangkat lunak, variabel lingkungan, dan parameter baris perintah
Perangkap umum untuk dihindari
- Periode pemanasan yang tidak mencukupi
- Membandingkan versi perangkat lunak yang berbeda
- Mengabaikan topologi NUMA
- Menggunakan konfigurasi default tanpa pengoptimalan
- Ukuran sampel yang tidak memadai