Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede Azure'da HPC- AI karşılaştırması tanıtlanmaktadır. Mimarlar, mühendisler ve karar almaları gereken kişiler için tasarlanmıştır:
- Azure altyapısını yeni veya mevcut iş yükleri için değerlendirme
- Performans temelleri oluşturma
- Hedef verileri kullanarak VM ailelerini karşılaştırma
- Performansı ve maliyet verimliliğini iyileştirme
Kıyaslama neden önemlidir?
Karşılaştırma, hem teknik hem de iş kararlarını destekleyen kanıta dayalı içgörüler sağlar. HPC ve yapay zeka iş yükleri için çeşitli kritik amaçlara hizmet eder:
- Doğru altyapıyı seçin: İş yükü özelliklerini en uygun Azure VM ailesi ile eşleştirin.
- Performansı doğrulama: Dağıtılan sistemlerin beklenen aktarım hızı ve gecikme süresi hedeflerine uygun olduğunu onaylayın.
- Yapılandırmaları iyileştirme: İşlem, bellek, depolama ve ağ genelindeki performans sorunlarını belirleyin.
- Maliyet verimliliğini analiz etme: VM seçenekleri arasında fiyat-performans oranlarını karşılaştırın.
- Tedarik kararlarını destekleme: Paydaşlara yinelenebilir, savunulabilir performans verileri sağlayın.
Önemli Performans Ölçümleri
HPC sistem performansını ölçmek için kullanılan temel ölçümleri anlamak, anlamlı sistem değerlendirmesi ve karşılaştırması için önemlidir. Karşılaştırma için nesnel ölçümler sağlar, sistem performans sorunlarını belirler, böylece performans ayarlamasını etkinleştirir ve uygulama performansını tahmin etmenize yardımcı olur. Ölçümler iş yükü türüne göre farklılık gösterir ancak genellikle dört kategoriye ayrılır.
İşlem performansı ölçümleri, bir sistemin ham işleme özelliğini ve bu özelliğin uygulamada ne kadar etkili bir şekilde gerçekleştirildiğini açıklar. FLOPS (saniye başına kayan nokta işlemleri) genellikle hesaplama aktarım hızını ölçmek için kullanılır ve genellikle HPL (LINPACK) gibi karşılaştırmalar tarafından raporlanır. En yüksek performans, donanımın teorik maksimum özelliğini temsil ederken, sürekli performans uygulamaların gerçek iş yükleri altında gerçekte elde ettiği başarıyı yansıtır ve bu nedenle çoğu değerlendirme için daha anlamlı bir göstergedir.
HPC ve AI için Azure VM aileleri
Azure, farklı iş yükü desenleri için ayarlanmış özel VM aileleri sağlar.
CPU tabanlı HPC (HB serisi)
HB serisi VM'ler bellek bant genişliği ve düşük gecikme süreli ağ iletişimi için iyileştirildiğinden, şunlar gibi geleneksel HPC iş yükleri için çok uygundur:
- Hesaplama sıvısı dinamiği (CFD)
- Hava durumu ve iklim modellemesi
- Sonlu öğe analizi
Temel özellikler şunlardır:
- Yüksek çekirdek sayısına sahip AMD EPYC işlemciler
- Büyük bellek bant genişliği (yeni nesillerde HBM dahil)
- Yüksek hızlı InfiniBand ağı
GPU tabanlı yapay zeka (ND serisi)
ND serisi VM'ler gpu hızlandırmalı iş yükleri için tasarlanmıştır, örneğin:
- Derin öğrenme eğitimi
- Büyük dil modeli (LLM) çıkarımı
- Yapay zeka araştırması ve denemesi
Bu VM'lerin özellikleri:
- NVIDIA veri merkezi GPU'ları (H100, H200, Blackwell)
- Büyük GPU bellek kapasitesi
- Yüksek bant genişliğine sahip GPU'dan GPU'ya ve GPU'dan ağa bağlantıları
Karşılaştırma kategorileri
Farklı karşılaştırmalar farklı soruları yanıtlar. Değerlendirmek istediğiniz performansın yönüne göre karşılaştırmalar seçin.
Yapay karşılaştırmalar
Yapay karşılaştırmalar belirli sistem bileşenlerini yalıtmak ve temel doğrulama için yararlıdır:
- STREAM – Sürdürülebilir bellek bant genişliğini ölçer
- HPL (LINPACK) – En yüksek kayan nokta işlem performansını ölçer
- HPCG – Seyrek doğrusal cebir için performansı değerlendirir ve gerçek dünya HPC iş yüklerine daha yakın
- OSU Micro-Benchmarks – MPI gecikme süresini ve bant genişliğini doğrular
- NCCL testleri – GPU kolektif iletişim performansını ölçer
Uygulama karşılaştırmaları
Uygulama karşılaştırmaları gerçek dünya davranışını yansıtır ve genellikle daha temsilidir:
- ANSYS Fluent – CFD çözücü performansı
- WRF – Hava durumu ve atmosferik modelleme
- GROMACS / NAMD – Moleküler dinamik aktarım hızı
- MLPerf Eğitimi – Uçtan uca yapay zeka eğitim performansı
- MLPerf Çıkarımı – Aktarım hızı ve gecikme süresi sunan model
Başlangıç Yapmak
Azure'da karşılaştırmaya başlamak için şu önerilen yolu izleyin:
1. Set up infrastructure
└── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
2. Run baseline benchmarks
├── Running Your First Benchmark: STREAM (CPU/memory)
└── Running NCCL Benchmarks (GPU communication)
3. Compare VM options
├── CPU HPC VMs Comparison
└── GPU AI VMs Comparison
4. Optimize for your workload
└── Optimizing NCCL for Azure (AI training)
En iyi yöntemler
Güvenilir ve yeniden üretilebilir karşılaştırmalar için bazı yönergeler aşağıdadır:
Karşılaştırmadan önce
- HPC/AI için iyileştirilmiş görüntüleri kullanma: Önceden yapılandırılmış sürücüleri ve kitaplıkları içeren Azure HPC görüntüleriyle (AlmaLinux-HPC, Ubuntu-HPC) başlayın
- Sürücü sürümlerini doğrulama: GPU sürücülerinin, InfiniBand sürücülerinin ve NCCL sürümlerinin güncel olduğundan emin olun
- Topolojiyi denetleme: NUMA yapılandırmasını ve GPU-NIC benzitesini onaylayın
Karşılaştırma sırasında
- Isınma çalıştırmaları: Önbelleklerin stabil hale gelmesi için ilk çalıştırmaları atın
- Birden çok yineleme: En az 5 yineleme yapın ve ortancayı veya ortalamayı rapor edin
- Tutarlı koşullar: karşılaştırmalar arasında işletim sistemi, sürücü ve yapılandırmaları aynı tutun
- Her şeyi belgeleyin: Yazılım sürümlerini, ortam değişkenlerini ve komut satırı parametrelerini kaydetme
Kaçınılması gereken yaygın tuzaklar
- Yetersiz ısınma dönemleri
- Farklı yazılım sürümlerini karşılaştırma
- NUMA topolojisini göz ardı etme
- İyileştirme olmadan varsayılan yapılandırmaları kullanma
- Yetersiz örnek boyutları
İlgili kaynaklar
- HPC iş yükü en iyi yöntemleri kılavuzu
- hpc sistemi ve büyük işlem çözümleri