Share via


Azure'da GPU İşlem İş Yükleri için Geçiş Kılavuzu

Markette ve Microsoft Azure veri merkezlerinde daha güçlü GPU'lar kullanıma sunulduktan sonra iş yüklerinizin performansını yeniden değerlendirmenizi ve daha yeni GPU'lara geçiş yapmayı göz önünde bulundurmanızı öneririz.

Aynı nedenle Azure, yüksek kaliteli ve güvenilir bir hizmet teklifini korumak için de eski VM boyutlarını destekleyen donanımı düzenli aralıklarla kullanımdan kaldırmaya devam eder. Azure'da kullanımdan kaldırılacak ilk GPU ürünleri, sırasıyla NVIDIA Tesla K80, P100 ve P40 veri merkezi GPU hızlandırıcıları tarafından desteklenen özgün NC, NC v2 ve ND serisi VM'lerdir. Bu ürünler 31 Ağustos 2023'te kullanımdan kaldırılacak ve bu serideki en eski VM'ler 2016'da kullanıma sunulacaktır.

O zamandan beri GPU'lar derin öğrenme ve HPC sektörünün tamamıyla birlikte inanılmaz adımlar atarak nesiller arasında performansta iki katına çıkmaktadır. NVIDIA K80, P40 ve P100 GPU'larının kullanıma sunulmasından bu yana Azure, NVIDIA'nın T4, V100 ve A100 GPU'ları temelinde GPU hızlandırmalı işlem ve AI'de dişli ve InfiniBand tabanlı ara bağlantı dokuları gibi isteğe bağlı özelliklerle ayırt edilen birden fazla yeni nesil ve VM ürünü kategorisi gönderdi. Tüm seçenekler, müşterilerin geçiş yolları olarak keşfetmelerini öneririz.

Çoğu durumda, daha yeni GPU nesilleri tarafından sunulan performans artışı, gpu saati başına maliyetler farklılık gösterse de iş süresini kısaltarak veya ani işlerde işlem kaynaklarına yönelik sabit boyutlu talebi karşılamak için gereken genel GPU özellikli VM'lerin miktarını azaltarak genel TCO'yu düşürür. Müşteriler bu avantajlara ek olarak, daha yüksek performanslı VM'ler aracılığıyla Çözüme Erişim Süresini geliştirebilir ve daha yeni yazılım, CUDA çalışma zamanı ve sürücü sürümlerini benimseyerek çözümlerinin sistem durumunu ve desteklenebilirliğini geliştirebilir.

Geçiş ve İyileştirme karşılaştırması

Azure, müşterilerin GPU mimari konuları, bağlantılar, TCO, Çözüm Süresi ve uyumluluk yerelliği veya gecikme süresi gereksinimlerine göre bölgesel kullanılabilirlik gibi belirli bir GPU VM ürününün seçilmesini zorunlu tutabilecek çok sayıda gereksinime sahip olduğunu ve hatta bunların bazılarının zaman içinde değiştiğini fark eder.

Aynı zamanda GPU hızlandırma yeni ve hızla gelişen bir alandır.

Bu nedenle, bu ürün alanı için her şeye uyan gerçek bir kılavuz yoktur ve geçiş, kümelenmiş dağıtım modelinden tek bir büyük 8 GPU'lu VM'ye (veya tam tersi) geçiş, azaltılmış duyarlıklı veri türlerinden yararlanma, Çok Örnekli GPU gibi özellikleri benimseme ve çok daha fazlası gibi bir iş yükündeki önemli olabilecek değişiklikleri yeniden değerlendirmek için mükemmel bir zamandır.

Bu tür önemli noktalar: TensorCore'ların eklenmesi gibi bir özelliğin performansı bir büyüklük sırasına göre artırabileceği, zaten nesil başına gpu performansındaki artışların bağlamı oldukça fazla iş yüküne özgü hale getirildiğinde.

Geçişin uygulama yeniden mimarisiyle birleştirilmesi, maliyet ve çözüm süresinde büyük değer ve iyileştirme sağlayabilir.

Ancak bu tür iyileştirmeler, kullanımdan kaldırılan mevcut VM ailelerine gpu başına hem fiyat hem de performans açısından en benzer VM seçeneklerini belirlemek amacıyla bugün müşteriler tarafından çalıştırılabilecek genelleştirilmiş iş yükleri için doğrudan denklik sınıflarına odaklanmayı amaçlayan bu belgenin kapsamının dışındadır.

Bu nedenle, bu belgede kullanıcının gerekli VM örneklerinin sayısı, GPU'lar, ara bağlantılar ve daha fazlası gibi iş yüküne özgü özellikler üzerinde herhangi bir içgörü veya denetime sahip olmadığı varsayılır.

NVIDIA K80 GPU'ları içeren NC-Series VM'ler

NC (v1)Serisi VM'ler, Intel Xeon E5-2690 v3 (Haswell) işlemcilerle eşleştirilmiş 1 ile 4 NVIDIA Tesla K80 veri merkezi GPU hızlandırıcısı tarafından desteklenen, Azure'ın en eski GPU hızlandırmalı işlem VM'leri türüdür. Zorlu yapay zeka, ML ve HPC uygulamaları için önemli bir VM türü olduktan sonra, GPU'lar üzerinde gpu saati başına yüksek aktarım hızına sahip çok düşük bir mutlak maliyete sahip olmaya değer kullanıcılar için ürün yaşam döngüsünde (özellikle NC serisi tanıtım fiyatlandırması aracılığıyla) popüler bir tercih olmaya devam etti.

Bugün, eskiyen NVIDIA K80 GPU platformunun nispeten düşük işlem performansı göz önüne alındığında, daha yeni GPU'ları içeren VM serisine kıyasla, NC serisi için popüler bir kullanım örneği gerçek zamanlı çıkarım ve analiz iş yükleridir ve hızlandırılmış bir VM'nin uygulamalardan gelen isteklere hizmet vermek için kararlı bir durumda kullanılabilir olması gerekir. Böyle durumlarda, isteklerin hacmi veya toplu iş boyutu daha yüksek performanslı GPU'lardan yararlanmak için yetersiz olabilir. NC VM'leri, üretim düzeylerinde performans göstermeleri gerekmeyen, üzerinde yineleme yapılması gereken uygun maliyetli bir bulut tabanlı CUDA dağıtım hedefine ihtiyaç duyan, GPU hızlandırma hakkında bilgi edinen, geliştiren veya gpu hızlandırma ile deneme yapan geliştiriciler ve öğrenciler için de popülerdir.

Genel olarak NC-Series müşteriler, NVIDIA Tesla T4 GPU'ları tarafından desteklenen hafif iş yükleri için Azure'ın yeni GPU hızlandırılmış platformu olan NC boyutlarından NC T4 v3 boyutlarına doğrudan geçmeyi düşünmelidir.

Geçerli VM Boyutu Hedef VM Boyutu Belirtim Farkı
Standard_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
veya
Standard_NC8as_T4
CPU: Intel Haswell ile AMD Rome karşılaştırması
GPU sayısı: 1 (aynı)
GPU oluşturma: NVIDIA Keppler ve Turing (+2 nesil, yaklaşık 2x FP32 FLOP)
GPU belleği (GPU başına GiB): 16 (+4)
vCPU: 4 (-2) veya 8 (+2)
Bellek GiB: 16 (-40) veya 56 (aynı)
Geçici Depolama (SSD) GiB: 180 (-160) veya 360 (+20)
Maksimum veri diski: 8 (-4) veya 16 (+4)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell ile AMD Rome karşılaştırması
GPU sayısı: 1 (-1)
GPU oluşturma: NVIDIA Keppler ve Turing (+2 nesil, yaklaşık 2x FP32 FLOP)
GPU belleği (GPU başına GiB): 16 (+4)
vCPU: 16 (+4)
Bellek GiB: 110 (-2)
Geçici Depolama (SSD) GiB: 360 (-320)
Maksimum veri diski: 48 (+16)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell ile AMD Rome karşılaştırması
GPU sayısı: 4 (aynı)
GPU oluşturma: NVIDIA Keppler ve Turing (+2 nesil, yaklaşık 2x FP32 FLOP)
GPU belleği (GPU başına GiB): 16 (+4)
vCPU: 64 (+40)
Bellek GiB: 440 (+216)
Geçici Depolama (SSD) GiB: 2880 (+1440)
Maksimum veri diskleri: 32 (-32)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell ile AMD Rome karşılaştırması
GPU sayısı: 4 (aynı)
GPU oluşturma: NVIDIA Keppler ve Turing (+2 nesil, yaklaşık 2x FP32 FLOP)
GPU belleği (GPU başına GiB): 16 (+4)
vCPU: 64 (+40)
Bellek GiB: 440 (+216)
Geçici Depolama (SSD) GiB: 2880 (+1440)
Maksimum veri diskleri: 32 (-32)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
InfiniBand bağlantısı: Hayır

NVIDIA Tesla P100 GPU'ları içeren NC v2 Serisi VM'ler

NC v2 serisi sanal makineler, başlangıçta yapay zeka ve Derin Öğrenme iş yükleri için tasarlanmış bir amiral gemisi platformu. Gpu başına performans başlangıçtaki NC-Series yaklaşık 2 kat fazla olan Ve NVIDIA Tesla P100 GPU'ları ve Intel Xeon E5-2690 v4 (Broadwell) CPU'ları ile Derin Öğrenme eğitimi için mükemmel performans sundular. NC ve ND -Series gibi NC v2 Serisi de ikincil düşük gecikme süresi, RDMA aracılığıyla yüksek aktarım hızına sahip ağ ve InfiniBand bağlantısı ile bir yapılandırma sunar, böylece birçok GPU'yu kapsayan büyük ölçekli eğitim işlerini çalıştırabilirsiniz.

Genel olarak, NCv2-Series müşteriler doğrudan NVIDIA Ampere A100 PCIe GPU'ları tarafından desteklenen Yeni GPU hızlandırılmış platformu olan NC A100 v4 boyutlarına geçmeyi düşünmelidir.

Geçerli VM Boyutu Hedef VM Boyutu Belirtim Farkı
Standard_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell ile AMD Milan karşılaştırması
GPU sayısı: 1 (aynı)
GPU oluşturma: NVIDIA Pascal ve Amper (+2 nesil)
GPU belleği (GPU başına GiB): 80 (+64)
vCPU: 24 (+18)
Bellek GiB: 220 (+108)
Geçici Depolama (SSD) GiB: 1123 (+387)
En fazla veri diski: 12 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell ile AMD Milan karşılaştırması
GPU sayısı: 2 (aynı)
GPU oluşturma: NVIDIA Pascal ile Amper (+2 nesil) karşılaştırması
GPU belleği (GPU başına GiB): 80 (+64)
vCPU: 48 (+36)
Bellek GiB: 440 (+216)
Geçici Depolama (SSD) GiB: 2246 (+772)
En fazla veri diski: 24 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell ile AMD Milan karşılaştırması
GPU sayısı: 4 (aynı)
GPU oluşturma: NVIDIA Pascal ile Amper (+2 nesil) karşılaştırması
GPU belleği (GPU başına GiB): 80 (+64)
vCPU: 96 (+72)
Bellek GiB: 880 (+432)
Geçici Depolama (SSD) GiB: 4492 (+1544)
En fazla veri diski: 32 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell ile AMD Milan karşılaştırması
GPU sayısı: 4 (Aynı)
GPU oluşturma: NVIDIA Pascal ile Amper (+2 nesil) karşılaştırması
GPU belleği (GPU başına GiB): 80 (+64)
vCPU: 96 (+72)
Bellek GiB: 880 (+432)
Geçici Depolama (SSD) GiB: 4492 (+1544)
En fazla veri diski: 32 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
InfiniBand bağlantısı: Hayır (-)

NVIDIA Tesla P40 GPU'ları içeren ND-Series VM'ler

ND serisi sanal makineler, başlangıçta yapay zeka ve Derin Öğrenme iş yükleri için tasarlanmış bir orta ölçekli platformlardır. Öncülleri üzerinden geliştirilmiş tek duyarlıklı kayan nokta işlemleri aracılığıyla toplu çıkarım için mükemmel performans sundular ve NVIDIA Tesla P40 GPU'ları ve Intel Xeon E5-2690 v4 (Broadwell) CPU'ları tarafından destekleniyor. NC ve NC v2 Serisi gibi ND-Series de birçok GPU'yu kapsayan büyük ölçekli eğitim işlerini çalıştırabilmeniz için ikincil düşük gecikme süreli, RDMA üzerinden yüksek aktarım hızına sahip ağ ve InfiniBand bağlantısına sahip bir yapılandırma sunar.

Geçerli VM Boyutu Hedef VM Boyutu Belirtim Farkı
Standard_ND6 Standard_NC4as_T4_v3
veya
Standard_NC8as_T4_v3
CPU: Intel Broadwell ile AMD Rome karşılaştırması
GPU sayısı: 1 (aynı)
GPU oluşturma: NVIDIA Pascal ve Turing (+1 nesil)
GPU belleği (GPU başına GiB): 16 (-8)
vCPU: 4 (-2) veya 8 (+2)
Bellek GiB: 16 (-40) veya 56 (-56)
Geçici Depolama (SSD) GiB: 180 (-552) veya 360 (-372)
Maksimum veri diski: 8 (-4) veya 16 (+4)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell ile AMD Rome karşılaştırması
GPU sayısı: 1 (-1)
GPU oluşturma: NVIDIA Pascal ile Turing karşılaştırması (+1 nesil)
GPU belleği (GPU başına GiB): 16 (-8)
vCPU: 16 (+4)
Bellek GiB: 110 (-114)
Geçici Depolama (SSD) GiB: 360 (-1,114)
Maksimum veri diski: 48 (+16)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell ile AMD Rome karşılaştırması
GPU sayısı: 4 (aynı)
GPU oluşturma: NVIDIA Pascal ile Turing karşılaştırması (+1 nesil)
GPU belleği (GPU başına GiB): 16 (-8)
vCPU: 64 (+40)
Bellek GiB: 440 (aynı)
Geçici Depolama (SSD) GiB: 2880 (aynı)
En fazla veri diski: 32 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell ile AMD Rome karşılaştırması
GPU sayısı: 8 (+4)
GPU oluşturma: NVIDIA Pascal ve Amper (+2 nesil)
GPU belleği (GPU başına GiB): 80 (+56)
vCPU: 96 (+72)
Bellek GiB: 1900 (+1452)
Geçici Depolama (SSD) GiB: 6400 (+3452)
En fazla veri diski: 32 (aynı)
Hızlandırılmış Ağ: Evet (+)
Premium Depolama: Evet (+)
InfiniBand bağlantısı: Evet (Aynı)

Geçiş Adımları

Genel Değişiklikler

  1. Geçiş için bir seri ve boyut seçin. Daha fazla içgörü için fiyatlandırma hesaplayıcıdan yararlanın.

  2. Hedef VM serisi için kota alma

  3. Geçerli N* serisi VM boyutunu hedef boyuta yeniden boyutlandırın. Bu, Sanal Makine görüntünüz tarafından kullanılan işletim sistemini güncelleştirmek veya başlangıç noktanız olarak sürücülerin önceden yüklü olduğu HPC görüntülerinden birini benimsemek için de uygun bir zaman olabilir.

    Önemli

    VM görüntünüz CUDA çalışma zamanının eski bir sürümü, NVIDIA sürücüsü ve (varsa, yalnızca RDMA özellikli boyutlar için) Mellanox OFED sürücüleri yeni GPU VM serinizin gerektirdiğinden daha eski bir sürümle üretilmiş olabilir. Bu sürücüler Azure Belgeleri'ndeki yönergeler izlenerek güncelleştirilebilir.

Hataya Neden Olan Değişiklikler

Geçiş için hedef boyutu seçme

Geçerli kullanımınızı değerlendirdikten sonra ihtiyacınız olan GPU VM türüne karar verin. İş yükü gereksinimlerine bağlı olarak birkaç farklı seçeneğiniz vardır.

Not

En iyi yöntem, hem maliyet hem de performansa göre bir VM boyutu seçmektir. Bu kılavuzdaki öneriler, performans ölçümlerinin genel amaçlı, bire bir karşılaştırmasını ve başka bir VM serisindeki en yakın eşleşmeyi temel alır. Doğru boyuta karar vermeden önce Azure Fiyatlandırma Hesaplayıcısı'nı kullanarak maliyet karşılaştırması alın.

Önemli

Tüm eski NC, NC v2 ve ND-Series boyutları, ölçek genişletme için InfiniBand bağlantısı olan ve olmayan 4 GPU boyutları, tek bir 4 GPU'lu VM'den daha fazla işlem gücü gerektiren sıkı bir şekilde bağlanmış iş yükleri ya da sırasıyla tek bir K80, P40 veya P100 GPU sağlanabilir. Yukarıdaki öneriler basit bir yol sunsa da, bu boyutlardaki kullanıcılar performans hedeflerine ulaşmak için NC v3 Serisi ve ND v2 serisi gibi daha güçlü NVIDIA V100 GPU tabanlı VM serisine ulaşmayı düşünmelidir; bu da genellikle çok GPU ve çok düğümlü yapılandırmalar gerekmeden önce GPU başına ve VM başına önemli ölçüde daha yüksek performans sağlayarak daha düşük maliyetlerle ve geliştirilmiş yönetilebilirlikle aynı düzeyde iş yükü performansı sağlar, Sıra -sıyla.

Hedef VM ailesi için kota alma

VM ailesine göre vCPU kotasında artış istemek için kılavuzu izleyin. Geçiş için seçtiğiniz hedef VM boyutunu seçin.

Geçerli sanal makineyi yeniden boyutlandırma

Sanal makineyi yeniden boyutlandırabilirsiniz.

Sonraki adımlar

GPU özellikli sanal makine boyutlarının tam listesi için bkz. GPU - hızlandırılmış işlem genel bakışı