Aracılığıyla paylaş


High-Performance Bilgi İşlem (HPC) Performansına ve Karşılaştırmaya Genel Bakış

Bu makalede Azure'da HPC- AI karşılaştırması tanıtlanmaktadır. Mimarlar, mühendisler ve karar almaları gereken kişiler için tasarlanmıştır:

  • Azure altyapısını yeni veya mevcut iş yükleri için değerlendirme
  • Performans temelleri oluşturma
  • Hedef verileri kullanarak VM ailelerini karşılaştırma
  • Performansı ve maliyet verimliliğini iyileştirme

Kıyaslama neden önemlidir?

Karşılaştırma, hem teknik hem de iş kararlarını destekleyen kanıta dayalı içgörüler sağlar. HPC ve yapay zeka iş yükleri için çeşitli kritik amaçlara hizmet eder:

  • Doğru altyapıyı seçin: İş yükü özelliklerini en uygun Azure VM ailesi ile eşleştirin.
  • Performansı doğrulama: Dağıtılan sistemlerin beklenen aktarım hızı ve gecikme süresi hedeflerine uygun olduğunu onaylayın.
  • Yapılandırmaları iyileştirme: İşlem, bellek, depolama ve ağ genelindeki performans sorunlarını belirleyin.
  • Maliyet verimliliğini analiz etme: VM seçenekleri arasında fiyat-performans oranlarını karşılaştırın.
  • Tedarik kararlarını destekleme: Paydaşlara yinelenebilir, savunulabilir performans verileri sağlayın.

Önemli Performans Ölçümleri

HPC sistem performansını ölçmek için kullanılan temel ölçümleri anlamak, anlamlı sistem değerlendirmesi ve karşılaştırması için önemlidir. Karşılaştırma için nesnel ölçümler sağlar, sistem performans sorunlarını belirler, böylece performans ayarlamasını etkinleştirir ve uygulama performansını tahmin etmenize yardımcı olur. Ölçümler iş yükü türüne göre farklılık gösterir ancak genellikle dört kategoriye ayrılır.

İşlem performansı ölçümleri, bir sistemin ham işleme özelliğini ve bu özelliğin uygulamada ne kadar etkili bir şekilde gerçekleştirildiğini açıklar. FLOPS (saniye başına kayan nokta işlemleri) genellikle hesaplama aktarım hızını ölçmek için kullanılır ve genellikle HPL (LINPACK) gibi karşılaştırmalar tarafından raporlanır. En yüksek performans, donanımın teorik maksimum özelliğini temsil ederken, sürekli performans uygulamaların gerçek iş yükleri altında gerçekte elde ettiği başarıyı yansıtır ve bu nedenle çoğu değerlendirme için daha anlamlı bir göstergedir.

HPC ve AI için Azure VM aileleri

Azure, farklı iş yükü desenleri için ayarlanmış özel VM aileleri sağlar.

CPU tabanlı HPC (HB serisi)

HB serisi VM'ler bellek bant genişliği ve düşük gecikme süreli ağ iletişimi için iyileştirildiğinden, şunlar gibi geleneksel HPC iş yükleri için çok uygundur:

  • Hesaplama sıvısı dinamiği (CFD)
  • Hava durumu ve iklim modellemesi
  • Sonlu öğe analizi

Temel özellikler şunlardır:

  • Yüksek çekirdek sayısına sahip AMD EPYC işlemciler
  • Büyük bellek bant genişliği (yeni nesillerde HBM dahil)
  • Yüksek hızlı InfiniBand ağı

GPU tabanlı yapay zeka (ND serisi)

ND serisi VM'ler gpu hızlandırmalı iş yükleri için tasarlanmıştır, örneğin:

  • Derin öğrenme eğitimi
  • Büyük dil modeli (LLM) çıkarımı
  • Yapay zeka araştırması ve denemesi

Bu VM'lerin özellikleri:

  • NVIDIA veri merkezi GPU'ları (H100, H200, Blackwell)
  • Büyük GPU bellek kapasitesi
  • Yüksek bant genişliğine sahip GPU'dan GPU'ya ve GPU'dan ağa bağlantıları

Karşılaştırma kategorileri

Farklı karşılaştırmalar farklı soruları yanıtlar. Değerlendirmek istediğiniz performansın yönüne göre karşılaştırmalar seçin.

Yapay karşılaştırmalar

Yapay karşılaştırmalar belirli sistem bileşenlerini yalıtmak ve temel doğrulama için yararlıdır:

  • STREAM – Sürdürülebilir bellek bant genişliğini ölçer
  • HPL (LINPACK) – En yüksek kayan nokta işlem performansını ölçer
  • HPCG – Seyrek doğrusal cebir için performansı değerlendirir ve gerçek dünya HPC iş yüklerine daha yakın
  • OSU Micro-Benchmarks – MPI gecikme süresini ve bant genişliğini doğrular
  • NCCL testleri – GPU kolektif iletişim performansını ölçer

Uygulama karşılaştırmaları

Uygulama karşılaştırmaları gerçek dünya davranışını yansıtır ve genellikle daha temsilidir:

  • ANSYS Fluent – CFD çözücü performansı
  • WRF – Hava durumu ve atmosferik modelleme
  • GROMACS / NAMD – Moleküler dinamik aktarım hızı
  • MLPerf Eğitimi – Uçtan uca yapay zeka eğitim performansı
  • MLPerf Çıkarımı – Aktarım hızı ve gecikme süresi sunan model

Başlangıç Yapmak

Azure'da karşılaştırmaya başlamak için şu önerilen yolu izleyin:

1. Set up infrastructure
   └── Setting Up Your First HPC Cluster (CycleCloud + Slurm)
   
2. Run baseline benchmarks
   ├── Running Your First Benchmark: STREAM (CPU/memory)
   └── Running NCCL Benchmarks (GPU communication)
   
3. Compare VM options
   ├── CPU HPC VMs Comparison
   └── GPU AI VMs Comparison
   
4. Optimize for your workload
   └── Optimizing NCCL for Azure (AI training)

En iyi yöntemler

Güvenilir ve yeniden üretilebilir karşılaştırmalar için bazı yönergeler aşağıdadır:

Karşılaştırmadan önce

  • HPC/AI için iyileştirilmiş görüntüleri kullanma: Önceden yapılandırılmış sürücüleri ve kitaplıkları içeren Azure HPC görüntüleriyle (AlmaLinux-HPC, Ubuntu-HPC) başlayın
  • Sürücü sürümlerini doğrulama: GPU sürücülerinin, InfiniBand sürücülerinin ve NCCL sürümlerinin güncel olduğundan emin olun
  • Topolojiyi denetleme: NUMA yapılandırmasını ve GPU-NIC benzitesini onaylayın

Karşılaştırma sırasında

  • Isınma çalıştırmaları: Önbelleklerin stabil hale gelmesi için ilk çalıştırmaları atın
  • Birden çok yineleme: En az 5 yineleme yapın ve ortancayı veya ortalamayı rapor edin
  • Tutarlı koşullar: karşılaştırmalar arasında işletim sistemi, sürücü ve yapılandırmaları aynı tutun
  • Her şeyi belgeleyin: Yazılım sürümlerini, ortam değişkenlerini ve komut satırı parametrelerini kaydetme

Kaçınılması gereken yaygın tuzaklar

  • Yetersiz ısınma dönemleri
  • Farklı yazılım sürümlerini karşılaştırma
  • NUMA topolojisini göz ardı etme
  • İyileştirme olmadan varsayılan yapılandırmaları kullanma
  • Yetersiz örnek boyutları