Panduan Migrasi untuk Beban Kerja Komputasi GPU di Azure
Karena GPU yang lebih kuat menjadi tersedia di marketplace dan di pusat data Microsoft Azure, kami sarankan untuk menilai kembali performa beban kerja Anda dan mempertimbangkan untuk bermigrasi ke GPU yang lebih baru.
Untuk alasan yang sama, serta untuk mempertahankan penawaran layanan berkualitas tinggi dan andal, Azure secara berkala memensiunkan perangkat keras yang menguatkan ukuran VM yang lebih tua. Kelompok pertama dari produk GPU yang akan pensiun di Azure adalah VM seri NC, NC v2 dan ND asli, yang masing-masing oleh akselerator GPU pusat data NVIDIA Tesla K80, P100, dan P40. Produk-produk ini akan dipensiunkan pada 31 Agustus 2023, dan VM tertua dalam seri ini diluncurkan pada 2016.
Sejak itu, GPU telah membuat langkah luar biasa bersama dengan seluruh industri pembelajaran mendalam dan HPC, biasanya melebihi dua kali lipat dalam performa antar generasi. Sejak peluncuran GPU NVIDIA K80, P40, dan P100, Azure telah mengirimkan beberapa generasi dan kategori produk VM yang lebih baru yang diarahkan pada komputasi dan AI GPU terakselerasi, berdasarkan GPU NVIDIA T4, V100, dan A100, dan dibedakan oleh fitur opsional seperti fabrik interkoneksi berbasis InfiniBand. Ini semua adalah opsi yang kami dorong untuk dijelajahi para pelanggan sebagai jalur migrasi.
Dalam kebanyakan kasus, peningkatan dramatis dalam performa yang ditawarkan oleh generasi baru GPU menurunkan TCO secara keseluruhan dengan mengurangi durasi pekerjaan, untuk pekerjaan yang burstable - atau mengurangi kuantitas keseluruhan VM yang didukung GPU yang diperlukan untuk memenuhi permintaan ukuran tetap untuk sumber daya komputasi, meskipun biaya per jam GPU bisa berbeda-beda. Selain manfaat ini, pelanggan dapat meningkatkan Waktu-ke-Solusi melalui VM performa lebih tinggi, dan meningkatkan kesehatan dan kemampuan dukungan solusi mereka dengan mengadopsi perangkat lunak, runtime CUDA, dan versi driver yang lebih baru.
Migrasi vs. Optimasi
Azure memahami bahwa pelanggan memiliki banyaknya persyaratan yang dapat mendikte pemilihan produk GPU VM tertentu, termasuk pertimbangan arsitektural GPU, interkoneksi, TCO, Waktu untuk Solusi, dan ketersediaan regional berdasarkan lokalitas kepatuhan atau persyaratan latensi- dan beberapa di antaranya bahkan berubah dari waktu ke waktu.
Pada saat yang sama, akselerasi GPU adalah area baru dan berkembang pesat.
Dengan demikian, tidak ada panduan satu ukuran pas untuk semua untuk area produk ini, dan migrasi adalah waktu yang tepat untuk mengevaluasi kembali perubahan yang berpotensi dramatis pada beban kerja- seperti bergerak dari model penyebaran berkluster ke VM 8-GPU besar tunggal atau sebaliknya, memanfaatkan jenis data presisi yang berkurang, mengadopsi fitur, seperti GPU Multi Instans, dan lebih banyak lagi.
Pertimbangan semacam ini - ketika dibuat konteks peningkatan performa GPU per generasi yang sudah dramatis, di mana fitur seperti penambahan TensorCores, dapat meningkatkan performa dengan urutan besaran, sangat spesifik untuk tiap beban kerja.
Menggabungkan migrasi dengan re-arsitektur aplikasi dapat menghasilkan nilai dan peningkatan yang sangat besar secara biaya dan waktu-ke-solusi.
Namun, perbaikan semacam ini berada di luar lingkup dokumen ini, yang bertujuan untuk fokus pada kelas ekuivalensi langsung untuk beban kerja umum yang dapat dijalankan oleh pelanggan hari ini, untuk mengidentifikasi opsi VM yang paling serupa baik dalam harga dan performa per GPU untuk keluarga VM yang ada yang sedang menuju masa pensiun.
Dengan demikian, dokumen ini mengasumsikan bahwa pengguna tidak dapat memiliki wawasan atau kontrol apa pun atas properti spesifik beban kerja, seperti jumlah instans VM yang diperlukan, GPU, interkoneksi, dan lainnya.
Jalur Peningkatan yang Direkomendasikan
VM seri NC dengan GPU NVIDIA K80
VM Seri NC (v1) adalah tipe VM komputasi GPU terakselerasi tertua di Azure, didukung oleh 1 hingga 4 akselerator GPU pusat data NVIDIA Tesla K80 yang dipasangkan dengan prosesor Intel Xeon E5-2690 v3 (Haswell). Setelah tipe VM unggulan untuk meminta aplikasi AI, ML, dan HPC, mereka tetap menjadi pilihan populer di akhir siklus hidup produk (terutama melalui harga promosi seri NC) bagi pengguna yang menghargai memiliki biaya absolut yang sangat rendah per jam GPU dengan throughput per dolar yang lebih tinggi.
Hari ini, mengingat performa komputasi yang relatif rendah dari platform GPU NVIDIA K80 yang menua, dibandingkan dengan seri VM dengan GPU yang lebih baru, kasus penggunaan populer untuk seri NC adalah inferensi real time dan beban kerja analitik, di mana VM terakselerasi harus tersedia dalam kondisi stabil untuk melayani permintaan dari aplikasi saat mereka tiba. Dalam kasus ini volume atau ukuran batch permintaan bisa tidak memadai untuk mendapatkan keuntungan dari GPU yang lebih berkinerja tinggi. VM NC juga populer bagi pengembang dan siswa yang belajar tentang, mengembangkan, atau bereksperimen dengan akselerasi GPU, yang membutuhkan target penyebaran CUDA berbasis cloud yang tidak mahal untuk iterasi yang tidak perlu dilakukan ke tingkat produksi.
Secara umum, pelanggan Seri NC harus mempertimbangkan untuk bergerak langsung dari ukuran NC ke ukuran NC T4 v3 , platform baru Yang dipercepat GPU Azure untuk beban kerja ringan yang didukung oleh GPU NVIDIA Tesla T4.
Ukuran VM Saat Ini | Ukuran Mesin Virtual Target | Perbedaan dalam Spesifikasi |
---|---|---|
Standard_NC6 Standard_NC6_Promo |
Standard_NC4as_T4_v3 or Standard_NC8as_T4 |
CPU: Intel Haswell versus AMD Roma Jumlah GPU: 1 (sama) Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs) Memori GPU (GiB per GPU): 16 (+4) vCPU: 4 (-2) atau 8 (+2) Memori GiB: 16 (-40) atau 56 (sama) Penyimpanan sementara (SSD) GiB: 180 (-160) atau 360 (+20) Disk data maksimum: 8 (-4) atau 16 (+4) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standar_NC12 Standard_NC12_Promo |
Standard_NC16as_T4_v3 | CPU: Intel Haswell versus AMD Roma Jumlah GPU: 1 (-1) Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs) Memori GPU (GiB per GPU): 16 (+4) vCPU: 16 (+4) Memori: GiB 110 (-2) Penyimpanan Sementara (SSD) GiB: 360 (-320) Disk data maksimum: 48 (+16) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_NC24 Standard_NC24_Promo |
Standard_NC64as_T4_v3* | CPU: Intel Haswell versus AMD Roma Jumlah GPU: 4 (sama) Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs) Memori GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) Memori GiB: 440 (+216) Penyimpanan Sementara (SSD) GiB: 2880 (+1440) Disk data maksimum: 32 (-32) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_NC24r Standard_NC24r_Promo |
Standard_NC64as_T4_v3* | CPU: Intel Haswell versus AMD Roma Jumlah GPU: 4 (sama) Generasi GPU: NVIDIA Keppler vs. Turing (generasi +2, ~2x FP32 FLOPs) Memori GPU (GiB per GPU): 16 (+4) vCPU: 64 (+40) Memori GiB: 440 (+216) Penyimpanan Sementara (SSD) GiB: 2880 (+1440) Disk data maksimum: 32 (-32) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) Interkoneksi InfiniBand: Tidak |
VM seri NC v2 dengan GPU NVIDIA Tesla P100
Mesin virtual seri NC v2 adalah platform unggulan yang didesain orisinal untuk AI, dan beban kerja Pembelajaran Mendalam. Mereka menawarkan performa yang unggul untuk pelatihan Pembelajaran Mendalam, dengan performa per-GPU kurang lebih 2x dari seri NC orisinal dan didukung oleh GPU NVIDIA Tesla P100 dan CPU Intel Xeon E5-2690 v4 (Broadwell). Seperti seri NC dan ND, Seri NC v2 menawarkan konfigurasi dengan latensi rendah sekunder, jaringan throughput tinggi melalui RDMA, dan konektivitas InfiniBand sehingga Anda dapat menjalankan pekerjaan pelatihan skala besar yang mencakup banyak GPU.
Secara umum, pelanggan NCv2-Series harus mempertimbangkan untuk berpindah langsung ke ukuran NC A100 v4 , platform akselerasi GPU baru Azure yang didukung oleh GPU PCIe NVIDIA Ampere A100.
Ukuran VM Saat Ini | Ukuran Mesin Virtual Target | Perbedaan dalam Spesifikasi |
---|---|---|
Standar_NC6s_v2 | Standard_NC24ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Jumlah GPU: 1 (sama) Generasi GPU: NVIDIA Pascal vs. Ampere (generasi+2) Memori GPU (GiB per GPU): 80 (+64) vCPU: 24 (+18) Memori GiB: 220 (+108) Penyimpanan Sementara (SSD) GiB: 1123 (+387) Disk data maksimum: 12 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_NC12s_v2 | Standard_NC48ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Jumlah GPU: 2 (sama) Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi) Memori GPU (GiB per GPU): 80 (+64) vCPU: 48 (+36) Memori GiB: 440 (+216) Penyimpanan Sementara (SSD) GiB: 2246 (+772) Disk data maksimum: 24 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standar_NC24s_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Jumlah GPU: 4 (sama) Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi) Memori GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) Memori GiB: 880 (+432) Penyimpanan Sementara (SSD) GiB: 4492 (+1544) Disk data maksimum: 32 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_NC24rs_v2 | Standard_NC96ads_A100_v4 | CPU: Intel Broadwell vs AMD Milan Jumlah GPU: 4 (Sama) Generasi GPU: NVIDIA Pascal vs. Ampere (+2 generasi) Memori GPU (GiB per GPU): 80 (+64) vCPU: 96 (+72) Memori GiB: 880 (+432) Penyimpanan Sementara (SSD) GiB: 4492 (+1544) Disk data maksimum: 32 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) Interkoneksi InfiniBand: Tidak (-) |
VM seri ND dengan GPU NVIDIA Tesla P40
Mesin virtual seri ND adalah platform menengah yang didesain orisinal untuk AI, dan beban kerja Pembelajaran Mendalam. Mereka menawarkan performa yang baik sekali untuk inferensi batch melalui peningkatan operasi poin mengambang presisi tunggal atas pendahulunya dan didukung oleh GPU NVIDIA Tesla P40 dan CPU Intel Xeon E5-2690 v4 (Broadwell). Seperti seri NC dan NC v2, seri ND menawarkan konfigurasi dengan latensi rendah sekunder, jaringan throughput tinggi melalui RDMA, dan konektivitas InfiniBand sehingga Anda dapat menjalankan pekerjaan pelatihan skala besar yang mencakup banyak GPU.
Ukuran VM Saat Ini | Ukuran Mesin Virtual Target | Perbedaan dalam Spesifikasi |
---|---|---|
Standard_ND6 | Standard_NC4as_T4_v3 or Standard_NC8as_T4_v3 |
CPU: Intel Broadwell versus AMD Roma Jumlah GPU: 1 (sama) Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi) Memori GPU (GiB per GPU): 16 (-8) vCPU: 4 (-2) atau 8 (+2) Memori GiB: 16 (-40) atau 56 (-56) Penyimpanan Sementara (SSD) GiB: 180 (-552) atau 360 (-372) Disk data maksimum: 8 (-4) atau 16 (+4) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_ND12 | Standard_NC16as_T4_v3 | CPU: Intel Broadwell versus AMD Roma Jumlah GPU: 1 (-1) Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi) Memori GPU (GiB per GPU): 16 (-8) vCPU: 16 (+4) Memori GiB: 110 (-114) Penyimpanan Sementara (SSD) GiB: 360 (-1,114) Disk data maksimum: 48 (+16) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_ND24 | Standard_NC64as_T4_v3* | CPU: Intel Broadwell versus AMD Roma Jumlah GPU: 4 (sama) Generasi GPU: NVIDIA Pascal versus Turing (+1 generasi) Memori GPU (GiB per GPU): 16 (-8) vCPU: 64 (+40) Memori GiB: 440 (sama) Penyimpanan Sementara (SSD) GiB: 2880 (sama) Disk data maksimum: 32 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) |
Standard_ND24r | Standard_ND96amsr_A100_v4 | CPU: Intel Broadwell versus AMD Roma Jumlah GPU: 8 (+4) Generasi GPU: NVIDIA Pascal vs. Ampere (generasi+2) Memori GPU (GiB per GPU): 80 (+56) vCPU: 96 (+72) Memori GiB: 1900 (+1452) Penyimpanan Sementara (SSD) GiB: 6400 (+3452) Disk data maksimum: 32 (sama) Jaringan Terakselerasi: Ya (+) Penyimpanan Premium: Ya (+) Interkoneksi InfiniBand: Ya (Sama) |
Langkah migrasi
Perubahan Umum
Pilih seri dan ukuran untuk migrasi. Memanfaatkan kalkulator harga untuk wawasan lebih lanjut.
Mendapatkan kuota untuk seri mesin virtual target
Mengubah ukuran VM seri N* saat ini ke ukuran target. Ini mungkin juga saat yang tepat untuk perbarui sistem operasi yang digunakan oleh citra Mesin Virtual Anda, atau adopsi salah satu citra HPC dengan driver pra-instal sebagai titik awal Anda.
Penting
Citra VM Anda mungkin telah diproduksi dengan versi yang lebih lama dari runtime CUDA, driver NVIDIA, dan (jika dapat diterapkan, hanya untuk ukuran RDMA yang didukung) driver Mellanox OFED daripada yang dibutuhkan seri VM GPU baru Anda, yang dapat diperbarui dengan mengikuti instruksi berikut dalam Dokumentasi Azure.
Memecahkan Perubahan
Memilih ukuran target untuk migrasi
Setelah menilai penggunaan Anda saat ini, putuskan jenis VM GPU apa yang Anda butuhkan. Tergantung pada persyaratan beban kerja Anda memiliki beberapa pilihan yang berbeda.
Catatan
Praktik terbaik adalah memilih ukuran VM berdasarkan pertimbangan biaya dan performa. Rekomendasi dalam panduan ini didasarkan pada tujuan umum, metrik performa satu banding satu dan kecocokan terdekat dalam seri VM lain. Sebelum memutuskan ukuran yang tepat, dapatkan perbandingan biaya menggunakan Kalkulator Harga Azure.
Penting
Semua ukuran seri NC, NC v2 dan ND warisan tersedia dalam ukuran multi-GPU, termasuk ukuran 4-GPU dengan dan tanpa interkoneksi InfiniBand untuk peluasan skala, beban kerja yang digabungkan erat yang menuntut lebih banyak daya komputasi daripada VM 4-GPU tunggal, atau GPU K80 tunggal, P40, atau P100 tunggal yang masing-masing dapat memasoknya. Meskipun rekomendasi di atas menawarkan jalur langsung ke depan, pengguna ukuran ini harus mempertimbangkan untuk mencapai tujuan performa mereka dengan seri VM berbasis GPU NVIDIA V100 yang lebih kuat seperti NC Seri v3 dan ND seri v2, yang biasanya memungkinkan tingkat performa beban kerja yang sama dengan biaya lebih rendah dan dengan peningkatan pengelolaan yang memberikan performa yang jauh lebih besar per GPU dan per VM sebelum konfigurasi multi-GPU dan multi-node diperlukan.
Mendapatkan kuota untuk keluarga mesin virtual target
Ikuti panduan untuk meminta penambahan kuota vCPU oleh keluarga VM. Pilih ukuran VM target yang telah Anda pilih untuk migrasi.
Mengubah ukuran mesin virtual saat ini
Anda dapat mengubah ukuran komputer virtual.
Langkah berikutnya
Untuk daftar lengkap ukuran mesin virtual yang diaktifkan GPU, lihat GPU - gambaran umum komputasi yang dipercepat