High-Performance Bilgi İşlem (HPC) Performansına ve Karşılaştırmaya Genel Bakış

Bu makalede Azure'da HPC- AI karşılaştırması tanıtlanmaktadır. Mimarlar, mühendisler ve karar almaları gereken kişiler için tasarlanmıştır:

Azure altyapısını yeni veya mevcut iş yükleri için değerlendirme
Performans temelleri oluşturma
Hedef verileri kullanarak VM ailelerini karşılaştırma
Performansı ve maliyet verimliliğini iyileştirme

Kıyaslama neden önemlidir?

Karşılaştırma, hem teknik hem de iş kararlarını destekleyen kanıta dayalı içgörüler sağlar. HPC ve yapay zeka iş yükleri için çeşitli kritik amaçlara hizmet eder:

Doğru altyapıyı seçin: İş yükü özelliklerini en uygun Azure VM ailesi ile eşleştirin.
Performansı doğrulama: Dağıtılan sistemlerin beklenen aktarım hızı ve gecikme süresi hedeflerine uygun olduğunu onaylayın.
Yapılandırmaları iyileştirme: İşlem, bellek, depolama ve ağ genelindeki performans sorunlarını belirleyin.
Maliyet verimliliğini analiz etme: VM seçenekleri arasında fiyat-performans oranlarını karşılaştırın.
Tedarik kararlarını destekleme: Paydaşlara yinelenebilir, savunulabilir performans verileri sağlayın.

Önemli Performans Ölçümleri

HPC sistem performansını ölçmek için kullanılan temel ölçümleri anlamak, anlamlı sistem değerlendirmesi ve karşılaştırması için önemlidir. Karşılaştırma için nesnel ölçümler sağlar, sistem performans sorunlarını belirler, böylece performans ayarlamasını etkinleştirir ve uygulama performansını tahmin etmenize yardımcı olur. Ölçümler iş yükü türüne göre farklılık gösterir ancak genellikle dört kategoriye ayrılır.

İşlem performansı ölçümleri, bir sistemin ham işleme özelliğini ve bu özelliğin uygulamada ne kadar etkili bir şekilde gerçekleştirildiğini açıklar. FLOPS (saniye başına kayan nokta işlemleri) genellikle hesaplama aktarım hızını ölçmek için kullanılır ve genellikle HPL (LINPACK) gibi karşılaştırmalar tarafından raporlanır. En yüksek performans, donanımın teorik maksimum özelliğini temsil ederken, sürekli performans uygulamaların gerçek iş yükleri altında gerçekte elde ettiği başarıyı yansıtır ve bu nedenle çoğu değerlendirme için daha anlamlı bir göstergedir.

HPC ve AI için Azure VM aileleri

Azure, farklı iş yükü desenleri için ayarlanmış özel VM aileleri sağlar.

CPU tabanlı HPC (HB serisi)

HB serisi VM'ler bellek bant genişliği ve düşük gecikme süreli ağ iletişimi için iyileştirildiğinden, şunlar gibi geleneksel HPC iş yükleri için çok uygundur:

Hesaplama sıvısı dinamiği (CFD)
Hava durumu ve iklim modellemesi
Sonlu öğe analizi

Temel özellikler şunlardır:

Yüksek çekirdek sayısına sahip AMD EPYC işlemciler
Büyük bellek bant genişliği (yeni nesillerde HBM dahil)
Yüksek hızlı InfiniBand ağı

GPU tabanlı yapay zeka (ND serisi)

ND serisi VM'ler gpu hızlandırmalı iş yükleri için tasarlanmıştır, örneğin:

Derin öğrenme eğitimi
Büyük dil modeli (LLM) çıkarımı
Yapay zeka araştırması ve denemesi

Bu VM'lerin özellikleri:

NVIDIA veri merkezi GPU'ları (H100, H200, Blackwell)
Büyük GPU bellek kapasitesi
Yüksek bant genişliğine sahip GPU'dan GPU'ya ve GPU'dan ağa bağlantıları

Karşılaştırma kategorileri

Farklı karşılaştırmalar farklı soruları yanıtlar. Değerlendirmek istediğiniz performansın yönüne göre karşılaştırmalar seçin.

Yapay karşılaştırmalar

Yapay karşılaştırmalar belirli sistem bileşenlerini yalıtmak ve temel doğrulama için yararlıdır:

STREAM – Sürdürülebilir bellek bant genişliğini ölçer
HPL (LINPACK) – En yüksek kayan nokta işlem performansını ölçer
HPCG – Seyrek doğrusal cebir için performansı değerlendirir ve gerçek dünya HPC iş yüklerine daha yakın
OSU Micro-Benchmarks – MPI gecikme süresini ve bant genişliğini doğrular
NCCL testleri – GPU kolektif iletişim performansını ölçer

Uygulama karşılaştırmaları

Uygulama karşılaştırmaları gerçek dünya davranışını yansıtır ve genellikle daha temsilidir:

ANSYS Fluent – CFD çözücü performansı
WRF – Hava durumu ve atmosferik modelleme
GROMACS / NAMD – Moleküler dinamik aktarım hızı
MLPerf Eğitimi – Uçtan uca yapay zeka eğitim performansı
MLPerf Çıkarımı – Aktarım hızı ve gecikme süresi sunan model

Başlangıç Yapmak

Azure'da karşılaştırmaya başlamak için şu önerilen yolu izleyin:

1. Set up infrastructure
   └── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
   
2. Run baseline benchmarks
   ├── Running Your First Benchmark: STREAM (CPU/memory)
   └── Running NCCL Benchmarks (GPU communication)
   
3. Compare VM options
   ├── CPU HPC VMs Comparison
   └── GPU AI VMs Comparison
   
4. Optimize for your workload
   └── Optimizing NCCL for Azure (AI training)

En iyi yöntemler

Güvenilir ve yeniden üretilebilir karşılaştırmalar için bazı yönergeler aşağıdadır:

Karşılaştırmadan önce

HPC/AI için iyileştirilmiş görüntüleri kullanma: Önceden yapılandırılmış sürücüleri ve kitaplıkları içeren Azure HPC görüntüleriyle (AlmaLinux-HPC, Ubuntu-HPC) başlayın
Sürücü sürümlerini doğrulama: GPU sürücülerinin, InfiniBand sürücülerinin ve NCCL sürümlerinin güncel olduğundan emin olun
Topolojiyi denetleme: NUMA yapılandırmasını ve GPU-NIC benzitesini onaylayın

Karşılaştırma sırasında

Isınma çalıştırmaları: Önbelleklerin stabil hale gelmesi için ilk çalıştırmaları atın
Birden çok yineleme: En az 5 yineleme yapın ve ortancayı veya ortalamayı rapor edin
Tutarlı koşullar: karşılaştırmalar arasında işletim sistemi, sürücü ve yapılandırmaları aynı tutun
Her şeyi belgeleyin: Yazılım sürümlerini, ortam değişkenlerini ve komut satırı parametrelerini kaydetme

Kaçınılması gereken yaygın tuzaklar

Yetersiz ısınma dönemleri
Farklı yazılım sürümlerini karşılaştırma
NUMA topolojisini göz ardı etme
İyileştirme olmadan varsayılan yapılandırmaları kullanma
Yetersiz örnek boyutları

HPC iş yükü en iyi yöntemleri kılavuzu
hpc sistemi ve büyük işlem çözümleri

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-02-25