Panduan Migrasi untuk Beban Kerja Komputasi GPU di Azure

Karena GPU yang lebih kuat menjadi tersedia di marketplace dan di pusat data Microsoft Azure, kami sarankan untuk menilai kembali performa beban kerja Anda dan mempertimbangkan untuk bermigrasi ke GPU yang lebih baru.

Untuk alasan yang sama, serta untuk mempertahankan penawaran layanan berkualitas tinggi dan andal, Azure secara berkala memensiunkan perangkat keras yang menguatkan ukuran VM yang lebih tua. Kelompok pertama dari produk GPU yang akan pensiun di Azure adalah VM seri NC, NC v2 dan ND asli, yang masing-masing oleh akselerator GPU pusat data NVIDIA Tesla K80, P100, dan P40. Produk-produk ini akan dipensiunkan pada 31 Agustus 2023, dan VM tertua dalam seri ini diluncurkan pada 2016.

Sejak itu, GPU telah membuat langkah luar biasa bersama dengan seluruh industri pembelajaran mendalam dan HPC, biasanya melebihi dua kali lipat dalam performa antar generasi. Sejak peluncuran GPU NVIDIA K80, P40, dan P100, Azure telah mengirimkan beberapa generasi dan kategori produk VM yang lebih baru yang diarahkan pada komputasi dan AI GPU terakselerasi, berdasarkan GPU NVIDIA T4, V100, dan A100, dan dibedakan oleh fitur opsional seperti fabrik interkoneksi berbasis InfiniBand. Ini semua adalah opsi yang kami dorong untuk dijelajahi para pelanggan sebagai jalur migrasi.

Dalam kebanyakan kasus, peningkatan dramatis dalam performa yang ditawarkan oleh generasi baru GPU menurunkan TCO secara keseluruhan dengan mengurangi durasi pekerjaan, untuk pekerjaan yang burstable - atau mengurangi kuantitas keseluruhan VM yang didukung GPU yang diperlukan untuk memenuhi permintaan ukuran tetap untuk sumber daya komputasi, meskipun biaya per jam GPU bisa berbeda-beda. Selain manfaat ini, pelanggan dapat meningkatkan Waktu-ke-Solusi melalui VM performa lebih tinggi, dan meningkatkan kesehatan dan kemampuan dukungan solusi mereka dengan mengadopsi perangkat lunak, runtime CUDA, dan versi driver yang lebih baru.

Migrasi vs. Optimasi

Azure memahami bahwa pelanggan memiliki banyaknya persyaratan yang dapat mendikte pemilihan produk GPU VM tertentu, termasuk pertimbangan arsitektural GPU, interkoneksi, TCO, Waktu untuk Solusi, dan ketersediaan regional berdasarkan lokalitas kepatuhan atau persyaratan latensi- dan beberapa di antaranya bahkan berubah dari waktu ke waktu.

Pada saat yang sama, akselerasi GPU adalah area baru dan berkembang pesat.

Dengan demikian, tidak ada panduan satu ukuran pas untuk semua untuk area produk ini, dan migrasi adalah waktu yang tepat untuk mengevaluasi kembali perubahan yang berpotensi dramatis pada beban kerja- seperti bergerak dari model penyebaran berkluster ke VM 8-GPU besar tunggal atau sebaliknya, memanfaatkan jenis data presisi yang berkurang, mengadopsi fitur, seperti GPU Multi Instans, dan lebih banyak lagi.

Pertimbangan semacam ini - ketika dibuat konteks peningkatan performa GPU per generasi yang sudah dramatis, di mana fitur seperti penambahan TensorCores, dapat meningkatkan performa dengan urutan besaran, sangat spesifik untuk tiap beban kerja.

Menggabungkan migrasi dengan re-arsitektur aplikasi dapat menghasilkan nilai dan peningkatan yang sangat besar secara biaya dan waktu-ke-solusi.

Namun, perbaikan semacam ini berada di luar lingkup dokumen ini, yang bertujuan untuk fokus pada kelas ekuivalensi langsung untuk beban kerja umum yang dapat dijalankan oleh pelanggan hari ini, untuk mengidentifikasi opsi VM yang paling serupa baik dalam harga dan performa per GPU untuk keluarga VM yang ada yang sedang menuju masa pensiun.

Dengan demikian, dokumen ini mengasumsikan bahwa pengguna tidak dapat memiliki wawasan atau kontrol apa pun atas properti spesifik beban kerja, seperti jumlah instans VM yang diperlukan, GPU, interkoneksi, dan lainnya.

VM seri NC dengan GPU NVIDIA K80

VM Seri NC (v1) adalah tipe VM komputasi GPU terakselerasi tertua di Azure, didukung oleh 1 hingga 4 akselerator GPU pusat data NVIDIA Tesla K80 yang dipasangkan dengan prosesor Intel Xeon E5-2690 v3 (Haswell). Setelah tipe VM unggulan untuk meminta aplikasi AI, ML, dan HPC, mereka tetap menjadi pilihan populer di akhir siklus hidup produk (terutama melalui harga promosi seri NC) bagi pengguna yang menghargai memiliki biaya absolut yang sangat rendah per jam GPU dengan throughput per dolar yang lebih tinggi.

Hari ini, mengingat performa komputasi yang relatif rendah dari platform GPU NVIDIA K80 yang menua, dibandingkan dengan seri VM dengan GPU yang lebih baru, kasus penggunaan populer untuk seri NC adalah inferensi real time dan beban kerja analitik, di mana VM terakselerasi harus tersedia dalam kondisi stabil untuk melayani permintaan dari aplikasi saat mereka tiba. Dalam kasus ini volume atau ukuran batch permintaan bisa tidak memadai untuk mendapatkan keuntungan dari GPU yang lebih berkinerja tinggi. VM NC juga populer bagi pengembang dan siswa yang belajar tentang, mengembangkan, atau bereksperimen dengan akselerasi GPU, yang membutuhkan target penyebaran CUDA berbasis cloud yang tidak mahal untuk iterasi yang tidak perlu dilakukan ke tingkat produksi.

Secara umum, pelanggan NC-Series harus mempertimbangkan untuk berpindah langsung dari ukuran NC ke ukuran NC T4 v3 , platform baru Yang dipercepat GPU Azure untuk beban kerja ringan yang didukung oleh GPU NVIDIA Tesla T4.

Ukuran VM Saat Ini Ukuran VM Target Perbedaan dalam Spesifikasi
Standar_NC6
Standard_NC6_Promo
Standard_NC4as_T4_v3
atau
Standard_NC8as_T4
CPU: Intel Haswell versus AMD Roma
Jumlah GPU: 1 (sama)
Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs)
Memori GPU (GiB per GPU): 16 (+4)
vCPU: 4 (-2) atau 8 (+2)
Memori GiB: 16 (-40) atau 56 (sama)
Penyimpanan sementara (SSD) GiB: 180 (-160) atau 360 (+20)
Disk data maksimum: 8 (-4) atau 16 (+4)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standar_NC12
Standard_NC12_Promo
Standard_NC16as_T4_v3 CPU: Intel Haswell versus AMD Roma
Jumlah GPU: 1 (-1)
Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs)
Memori GPU (GiB per GPU): 16 (+4)
vCPU: 16 (+4)
Memori: GiB 110 (-2)
Penyimpanan Sementara (SSD) GiB: 360 (-320)
Disk data maksimum: 48 (+16)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standar_NC24
Standard_NC24_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell versus AMD Roma
Jumlah GPU: 4 (sama)
Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs)
Memori GPU (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Memori GiB: 440 (+216)
Penyimpanan Sementara (SSD) GiB: 2880 (+1440)
Disk data maksimum: 32 (-32)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standard_NC24r
Standard_NC24r_Promo
Standard_NC64as_T4_v3* CPU: Intel Haswell versus AMD Roma
Jumlah GPU: 4 (sama)
Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs)
Memori GPU (GiB per GPU): 16 (+4)
vCPU: 64 (+40)
Memori GiB: 440 (+216)
Penyimpanan Sementara (SSD) GiB: 2880 (+1440)
Disk data maksimum: 32 (-32)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Interkoneksi InfiniBand: Tidak

VM seri NC v2 dengan GPU NVIDIA Tesla P100

Mesin virtual seri NC v2 adalah platform unggulan yang didesain orisinal untuk AI, dan beban kerja Pembelajaran Mendalam. Mereka menawarkan performa yang unggul untuk pelatihan Pembelajaran Mendalam, dengan performa per-GPU kurang lebih 2x dari seri NC orisinal dan didukung oleh GPU NVIDIA Tesla P100 dan CPU Intel Xeon E5-2690 v4 (Broadwell). Seperti seri NC dan ND, Seri NC v2 menawarkan konfigurasi dengan latensi rendah sekunder, jaringan throughput tinggi melalui RDMA, dan konektivitas InfiniBand sehingga Anda dapat menjalankan pekerjaan pelatihan skala besar yang mencakup banyak GPU.

Secara umum, NCv2-Series pelanggan harus mempertimbangkan untuk berpindah langsung ke ukuran NC A100 v4 , platform akselerasi GPU baru Azure yang didukung oleh GPU PCIe NVIDIA Ampere A100.

Ukuran VM Saat Ini Ukuran VM Target Perbedaan dalam Spesifikasi
Standar_NC6s_v2 Standard_NC24ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Jumlah GPU: 1 (sama)
Generasi GPU: NVIDIA Pascal vs. Ampere (generasi+2)
Memori GPU (GiB per GPU): 80 (+64)
vCPU: 24 (+18)
Memori GiB: 220 (+108)
Penyimpanan Sementara (SSD) GiB: 1123 (+387)
Disk data maksimum: 12 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standar_NC12s_v2 Standard_NC48ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Jumlah GPU: 2 (sama)
Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi)
Memori GPU (GiB per GPU): 80 (+64)
vCPU: 48 (+36)
Memori GiB: 440 (+216)
Penyimpanan Sementara (SSD) GiB: 2246 (+772)
Disk data maksimum: 24 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standar_NC24s_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Jumlah GPU: 4 (sama)
Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi)
Memori GPU (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Memori GiB: 880 (+432)
Penyimpanan Sementara (SSD) GiB: 4492 (+1544)
Disk data maksimum: 32 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standard_NC24rs_v2 Standard_NC96ads_A100_v4 CPU: Intel Broadwell vs AMD Milan
Jumlah GPU: 4 (Sama)
Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi)
Memori GPU (GiB per GPU): 80 (+64)
vCPU: 96 (+72)
Memori GiB: 880 (+432)
Penyimpanan Sementara (SSD) GiB: 4492 (+1544)
Disk data maksimum: 32 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Interkoneksi InfiniBand: Tidak (-)

VM seri ND dengan GPU NVIDIA Tesla P40

Mesin virtual seri ND adalah platform menengah yang didesain orisinal untuk AI, dan beban kerja Pembelajaran Mendalam. Mereka menawarkan performa yang baik sekali untuk inferensi batch melalui peningkatan operasi poin mengambang presisi tunggal atas pendahulunya dan didukung oleh GPU NVIDIA Tesla P40 dan CPU Intel Xeon E5-2690 v4 (Broadwell). Seperti seri NC dan NC v2, seri ND menawarkan konfigurasi dengan latensi rendah sekunder, jaringan throughput tinggi melalui RDMA, dan konektivitas InfiniBand sehingga Anda dapat menjalankan pekerjaan pelatihan skala besar yang mencakup banyak GPU.

Ukuran VM Saat Ini Ukuran VM Target Perbedaan dalam Spesifikasi
Standard_ND6 Standard_NC4as_T4_v3
atau
Standard_NC8as_T4_v3
CPU: Intel Broadwell versus AMD Roma
Jumlah GPU: 1 (sama)
Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi)
Memori GPU (GiB per GPU): 16 (-8)
vCPU: 4 (-2) atau 8 (+2)
Memori GiB: 16 (-40) atau 56 (-56)
Penyimpanan Sementara (SSD) GiB: 180 (-552) atau 360 (-372)
Disk data maksimum: 8 (-4) atau 16 (+4)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standard_ND12 Standard_NC16as_T4_v3 CPU: Intel Broadwell versus AMD Roma
Jumlah GPU: 1 (-1)
Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi)
Memori GPU (GiB per GPU): 16 (-8)
vCPU: 16 (+4)
Memori GiB: 110 (-114)
Penyimpanan Sementara (SSD) GiB: 360 (-1,114)
Disk data maksimum: 48 (+16)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standard_ND24 Standard_NC64as_T4_v3* CPU: Intel Broadwell versus AMD Roma
Jumlah GPU: 4 (sama)
Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi)
Memori GPU (GiB per GPU): 16 (-8)
vCPU: 64 (+40)
Memori GiB: 440 (sama)
Penyimpanan Sementara (SSD) GiB: 2880 (sama)
Disk data maksimum: 32 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Standard_ND24r Standard_ND96amsr_A100_v4 CPU: Intel Broadwell versus AMD Roma
Jumlah GPU: 8 (+4)
Generasi GPU: NVIDIA Pascal vs. Ampere (generasi+2)
Memori GPU (GiB per GPU): 80 (+56)
vCPU: 96 (+72)
Memori GiB: 1900 (+1452)
Penyimpanan Sementara (SSD) GiB: 6400 (+3452)
Disk data maksimum: 32 (sama)
Jaringan Terakselerasi: Ya (+)
Penyimpanan Premium: Ya (+)
Interkoneksi InfiniBand: Ya (Sama)

Langkah migrasi

Perubahan Umum

  1. Pilih seri dan ukuran untuk migrasi. Memanfaatkan kalkulator harga untuk wawasan lebih lanjut.

  2. Mendapatkan kuota untuk seri VM target

  3. Mengubah ukuran VM seri N* saat ini ke ukuran target. Ini mungkin juga saat yang tepat untuk perbarui sistem operasi yang digunakan oleh citra Mesin Virtual Anda, atau adopsi salah satu citra HPC dengan driver pra-instal sebagai titik awal Anda.

    Penting

    Citra VM Anda mungkin telah diproduksi dengan versi yang lebih lama dari runtime CUDA, driver NVIDIA, dan (jika dapat diterapkan, hanya untuk ukuran RDMA yang didukung) driver Mellanox OFED daripada yang dibutuhkan seri VM GPU baru Anda, yang dapat diperbarui dengan mengikuti instruksi berikut dalam Dokumentasi Azure.

Memecahkan Perubahan

Memilih ukuran target untuk migrasi

Setelah menilai penggunaan Anda saat ini, putuskan jenis VM GPU apa yang Anda butuhkan. Tergantung pada persyaratan beban kerja Anda memiliki beberapa pilihan yang berbeda.

Catatan

Praktik terbaik adalah memilih ukuran VM berdasarkan pertimbangan biaya dan performa. Rekomendasi dalam panduan ini didasarkan pada tujuan umum, metrik performa satu banding satu dan kecocokan terdekat dalam seri VM lain. Sebelum memutuskan ukuran yang tepat, dapatkan perbandingan biaya menggunakan Kalkulator Harga Azure.

Penting

Semua ukuran seri NC, NC v2 dan ND warisan tersedia dalam ukuran multi-GPU, termasuk ukuran 4-GPU dengan dan tanpa interkoneksi InfiniBand untuk peluasan skala, beban kerja yang digabungkan erat yang menuntut lebih banyak daya komputasi daripada VM 4-GPU tunggal, atau GPU K80 tunggal, P40, atau P100 tunggal yang masing-masing dapat memasoknya. Meskipun rekomendasi di atas menawarkan jalur langsung ke depan, pengguna ukuran ini harus mempertimbangkan untuk mencapai tujuan performa mereka dengan seri VM berbasis GPU NVIDIA V100 yang lebih kuat seperti NC Seri v3 dan ND seri v2, yang biasanya memungkinkan tingkat performa beban kerja yang sama dengan biaya lebih rendah dan dengan peningkatan pengelolaan yang memberikan performa yang jauh lebih besar per GPU dan per VM sebelum konfigurasi multi-GPU dan multi-node diperlukan.

Mendapatkan kuota untuk keluarga VM target

Ikuti panduan untuk meminta penambahan kuota vCPU oleh keluarga VM. Pilih ukuran VM target yang telah Anda pilih untuk migrasi.

Mengubah ukuran mesin virtual saat ini

Anda dapat mengubah ukuran komputer virtual.

Langkah berikutnya

Untuk daftar lengkap ukuran mesin virtual yang diaktifkan GPU, lihat GPU - gambaran umum komputasi yang dipercepat