High-Performance Gambaran Umum Performa dan Tolok Ukur Komputasi (HPC)

Artikel ini memperkenalkan tolok ukur HPC- AI di Azure. Ini dirancang untuk arsitek, insinyur, dan pembuat keputusan yang perlu:

Mengevaluasi infrastruktur Azure untuk beban kerja baru atau yang sudah ada
Menetapkan garis besar performa
Membandingkan keluarga VM menggunakan data objektif
Mengoptimalkan performa dan efisiensi biaya

Mengapa benchmarking penting

Tolok ukur memberikan wawasan berbasis bukti yang mendukung keputusan teknis dan bisnis. Ini melayani beberapa tujuan penting untuk beban kerja HPC dan AI:

Pilih infrastruktur yang tepat: Cocokkan karakteristik beban kerja dengan keluarga Azure VM yang paling cocok.
Memvalidasi performa: Konfirmasikan bahwa sistem yang disebarkan memenuhi target throughput dan latensi yang diharapkan.
Optimalkan konfigurasi: Identifikasi hambatan di seluruh komputasi, memori, penyimpanan, dan jaringan.
Menganalisis efisiensi biaya: Membandingkan rasio harga–performa di seluruh opsi VM.
Mendukung keputusan pengadaan: Berikan data performa yang dapat diulang dan dipertanggungjawabkan kepada pemangku kepentingan.

Metrik Performa Utama

Memahami metrik inti yang digunakan untuk mengukur performa sistem HPC sangat penting untuk evaluasi dan perbandingan sistem yang bermakna. Mereka memberikan pengukuran objektif untuk perbandingan, mengidentifikasi hambatan sistem sehingga memungkinkan penyetelan performa dan membantu memprediksi performa aplikasi. Metrik bervariasi menurut jenis beban kerja, tetapi umumnya termasuk dalam empat kategori.

Metrik performa komputasi menjelaskan kemampuan pemrosesan mentah sistem dan seberapa efektif kemampuan tersebut diwujudkan dalam praktiknya. FLOPS (operasi floating-point per detik) umumnya digunakan untuk mengukur throughput komputasi dan sering dilaporkan oleh standar pengujian seperti HPL (LINPACK). Meskipun performa puncak mewakili kemampuan maksimum teoritis perangkat keras, performa berkelanjutan mencerminkan aplikasi apa yang sebenarnya dicapai di bawah beban kerja nyata dan oleh karena itu merupakan indikator yang lebih bermakna untuk sebagian besar evaluasi.

Keluarga Azure VM untuk HPC dan AI

Azure menyediakan keluarga VM khusus yang disetel untuk pola beban kerja yang berbeda.

HPC berbasis CPU (seri HB)

VM seri HB dioptimalkan untuk bandwidth memori dan jaringan latensi rendah, membuatnya sangat cocok untuk beban kerja HPC tradisional seperti:

Dinamika fluida komputasi (CFD)
Pemodelan cuaca dan iklim
Analisis elemen terbatas

Karakteristik utama meliputi:

Prosesor AMD EPYC dengan jumlah inti tinggi
Bandwidth memori yang besar (termasuk HBM dalam generasi lebih baru)
Jaringan InfiniBand berkecepatan tinggi

AI berbasis GPU (seri ND)

VM seri ND dirancang untuk beban kerja yang dipercepat GPU, termasuk:

Pelatihan pembelajaran mendalam
Inferensi model bahasa besar (LLM)
Penelitian dan eksperimen AI

Fitur VM ini:

GPU pusat data NVIDIA (H100, H200, Blackwell)
Kapasitas memori GPU besar
Interkoneksi berkecepatan tinggi GPU-ke-GPU dan GPU-ke-jaringan

Kategori tolok ukur

Tolok ukur yang berbeda menjawab pertanyaan yang berbeda. Pilih tolok ukur berdasarkan aspek performa yang ingin Anda evaluasi.

Tolok ukur sintetis

Tolok ukur sintetis mengisolasi komponen sistem tertentu dan berguna untuk validasi dasar:

STREAM – Mengukur bandwidth memori berkesinambungan
HPL (LINPACK) – Mengukur performa komputasi titik pecahan puncak
HPCG – Mengevaluasi performa untuk aljabar linier yang jarang, lebih dekat ke beban kerja HPC dunia nyata
OSU Micro-Benchmarks – Memeriksa latensi dan bandwidth MPI
Pengujian NCCL – Mengukur performa komunikasi kolektif GPU

Tolok ukur aplikasi

Tolok ukur aplikasi mencerminkan perilaku dunia nyata dan seringkali lebih representatif:

ANSYS Fluent – Kinerja pemecah CFD
WRF – Pemodelan cuaca dan atmosfer
Throughput GROMACS / NAMD – Dinamika molekuler
Pelatihan MLPerf – Performa pelatihan AI end-to-end
Inferensi MLPerf – Model yang melayani throughput dan latensi

Memulai Langkah Pertama

Ikuti jalur yang direkomendasikan ini untuk mulai melakukan tolok ukur di Azure:

1. Set up infrastructure
   └── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
   
2. Run baseline benchmarks
   ├── Running Your First Benchmark: STREAM (CPU/memory)
   └── Running NCCL Benchmarks (GPU communication)
   
3. Compare VM options
   ├── CPU HPC VMs Comparison
   └── GPU AI VMs Comparison
   
4. Optimize for your workload
   └── Optimizing NCCL for Azure (AI training)

Praktik terbaik

Berikut adalah beberapa panduan untuk tolok ukur yang andal dan dapat direproduksi:

Sebelum Anda membuat tolok ukur

Menggunakan gambar yang dioptimalkan HPC/AI: Mulailah dengan gambar Azure HPC (AlmaLinux-HPC, Ubuntu-HPC) yang menyertakan driver dan pustaka yang telah dikonfigurasi sebelumnya
Verifikasi versi driver: Pastikan driver GPU, driver InfiniBand, dan versi NCCL saat ini
Periksa topologi: Mengonfirmasi konfigurasi NUMA dan afinitas GPU-ke-NIC

Selama pengujian pembandingan

Eksekusi pemanasan: Buang eksekusi awal untuk memungkinkan cache stabil
Beberapa iterasi: Jalankan setidaknya 5 iterasi dan laporkan median atau rata-rata
Kondisi yang konsisten: Menjaga OS, driver, dan konfigurasi identik di seluruh perbandingan
Dokumentasikan semuanya: Merekam versi perangkat lunak, variabel lingkungan, dan parameter baris perintah

Perangkap umum untuk dihindari

Periode pemanasan yang tidak mencukupi
Membandingkan versi perangkat lunak yang berbeda
Mengabaikan topologi NUMA
Menggunakan konfigurasi default tanpa pengoptimalan
Ukuran sampel yang tidak memadai

Saran dan Komentar

Apakah halaman ini membantu?

Last updated on 2026-02-25