Apa target komputasi dalam Azure Machine Learning?

Target komputasi adalah sumber daya atau lingkungan komputasi yang ditetapkan, di mana Anda menjalankan skrip pelatihan atau memfasilitasi penyebaran layanan. Lokasinya mungkin merupakan komputer lokal Anda atau suatu sumber daya komputasi berbasis cloud. Dengan menggunakan target komputasi, Anda dapat dengan mudah mengubah lingkungan komputasi Anda nanti tanpa mengubah kode Anda.

Azure Machine Learning mendukung target komputasi yang berbeda. Dalam siklus hidup pengembangan model yang khas, Anda bisa:

  1. Memulai dengan mengembangkan dan bereksperimen pada sejumlah kecil data. Pada tahap ini, gunakan lingkungan lokal Anda, seperti komputer lokal atau komputer virtual (Virtual Machine/VM) berbasis cloud, sebagai target komputasi Anda.
  2. Skalakan ke data yang lebih besar, atau lakukan pelatihan terdistribusi dengan menggunakan salah satu target komputasi pelatihan ini.
  3. Setelah model Anda siap, sebarkan ke lingkungan hosting web dengan menggunakan salah satu target komputasi penyebaran ini.

Lampirkan sumber daya komputasi yang Anda gunakan untuk target komputasi Anda ke ruang kerja. Pengguna ruang kerja berbagi sumber daya komputasi selain komputer lokal.

Target komputasi untuk pelatihan

Saat Anda meningkatkan pelatihan Anda pada himpunan data yang lebih besar atau melakukan pelatihan distribusi, gunakan komputasi Azure Machine Learning untuk membuat kluster simpul tunggal atau multinode yang secara otomatis menskalakan setiap kali Anda mengirimkan pekerjaan. Anda juga dapat melampirkan sumber daya komputasi Anda sendiri, meskipun dengan dukungan yang berbeda-beda untuk setiap skenarionya.

Anda dapat menggunakan kembali target komputasi dari satu pekerjaan pelatihan ke pekerjaan berikutnya. Misalnya, setelah Anda melampirkan VM jarak jauh ke ruang kerja Anda, Anda dapat menggunakannya kembali untuk beberapa pekerjaan.

Untuk pipeline pembelajaran mesin, gunakan langkah pipeline yang sesuai untuk setiap target komputasi.

Anda dapat menggunakan salah satu sumber daya berikut untuk target komputasi pelatihan untuk sebagian besar pekerjaan. Tidak semua sumber daya dapat digunakan untuk pembelajaran mesin otomatis, alur pembelajaran mesin, atau perancang. Azure Databricks dapat digunakan sebagai sumber daya pelatihan untuk eksekusi lokal dan alur pembelajaran mesin, tetapi bukan sebagai target jarak jauh untuk pelatihan lain.

Target pelatihan Pembelajaran mesin otomatis Jalur pembelajaran mesin Perancang Azure Machine Learning
Azure Machine Learning komputasi kluster Ya Ya Ya
Azure Machine Learning komputasi tanpa server Ya Ya Ya
Azure Machine Learning instance komputasi Ya (melalui SDK) Ya Ya
Azure Machine Learning Kubernetes Ya Ya
Komputer virtual jarak jauh Ya Ya  
Kolam Spark Apache (versi pratinjau) Ya (hanya mode lokal SDK) Ya  
Azure Databricks Ya (hanya mode lokal SDK) Ya  
Azure Data Lake Analytics   Ya  
Azure HDInsight   Ya  
Azure Batch   Ya  
Target pelatihan Pembelajaran mesin otomatis Jalur pembelajaran mesin Perancang Azure Machine Learning
Komputer lokal Ya    
Azure Machine Learning komputasi kluster Ya Ya Ya
Azure Machine Learning instance komputasi Ya (melalui SDK) Ya Ya
Azure Machine Learning Kubernetes Ya Ya
Komputer virtual jarak jauh Ya Ya  
Kolam Spark Apache (versi pratinjau) Ya (hanya mode lokal SDK) Ya  
Azure Databricks Ya (hanya mode lokal SDK) Ya  
Azure HDInsight   Ya  
Azure Batch   Ya  

Petunjuk / Saran

Instans komputasi memiliki disk OS 120 GB. Jika Anda kehabisan ruang disk, gunakan terminal untuk mengosongkan setidaknya 1-2 GB sebelum Anda menghentikan atau memulai ulang instance komputasi.

Sasaran pemrosesan untuk inferensi

Saat Anda melakukan inferensi, Azure Machine Learning membuat kontainer Docker yang menghosting model dan sumber daya terkait yang diperlukan untuk menggunakannya. Anda menggunakan kontainer ini dalam target komputasi.

Target komputasi yang Anda gunakan untuk menghosting model Anda memengaruhi biaya dan ketersediaan titik akhir yang Anda sebarkan. Gunakan tabel ini untuk memilih target komputasi yang sesuai.

Target komputasi Digunakan untuk Dukungan GPU Deskripsi
titik akhir Azure Machine Learning Inferensi real time

Inferensi batch
Ya Komputasi yang dikelola sepenuhnya untuk real-time (titik akhir online terkelola) dan penilaian batch (titik akhir batch) pada komputasi tanpa server.
Azure Machine Learning Kubernetes Inferensi real time

Inferensi batch
Ya Jalankan beban kerja inferensi pada kluster Kubernetes lokal, cloud, dan tepi.
Target komputasi Digunakan untuk Dukungan GPU Deskripsi
Layanan web lokal Pengujian/pencarian masalah   Gunakan untuk pengujian dan pemecahan masalah terbatas. Akselerasi perangkat keras tergantung pada penggunaan pustaka di sistem lokal.
Azure Machine Learning Kubernetes Inferensi waktu nyata Ya Jalankan beban kerja inferensi di cloud.
Azure Container Instances Inferensi real time

Direkomendasikan untuk tujuan pengembangan/pengujian saja.
  Gunakan untuk beban kerja berbasis CPU skala rendah yang membutuhkan RAM kurang dari 48 GB. Anda tidak perlu mengelola kluster.

Hanya cocok untuk model berukuran kurang dari 1 GB.

Didukung di perancang.

Catatan

Saat memilih SKU kluster, pertama-tama tingkatkan dan kemudian peluasan skala. Mulailah dengan komputer yang memiliki 150% RAM yang diperlukan model Anda, profilkan hasilnya, dan temukan mesin yang memiliki performa yang Anda butuhkan. Setelah Anda mempelajarinya, tingkatkan jumlah mesin agar sesuai dengan kebutuhan Anda akan inferensi bersamaan.

Menyebarkan dan menilai model pembelajaran mesin menggunakan titik akhir online.

Menyebarluaskan model pembelajaran mesin ke Azure.

komputasi Azure Machine Learning (terkelola)

Azure Machine Learning membuat dan mengelola sumber daya komputasi terkelola. Jenis komputasi ini dioptimalkan untuk beban kerja pembelajaran mesin. Azure Machine Learning kluster komputasi, komputasi tanpa server, dan instans komputasi adalah satu-satunya komputasi terkelola.

Anda tidak perlu membuat komputasi tanpa server. Anda dapat membuat instans komputasi Azure Machine Learning atau kluster komputasi dari:

Catatan

Alih-alih membuat kluster komputasi, gunakan komputasi tanpa server untuk membongkar manajemen siklus hidup komputasi untuk Azure Machine Learning.

Saat Anda membuat sumber daya komputasi ini, sumber daya tersebut secara otomatis menjadi bagian dari ruang kerja Anda, tidak seperti jenis target komputasi lainnya.

Kemampuan Kluster komputasi Komputasi Instance
Kluster satu simpul atau multisimpu Kluster node tunggal
Menskalakan secara otomatis setiap kali Anda mengirimkan tugas.
Manajemen kluster dan penjadwalan pekerjaan otomatis
Dukungan untuk sumber daya CPU dan GPU

Catatan

Untuk menghindari biaya saat komputasi diam:

  • Untuk kluster komputasi, pastikan jumlah minimum simpul diatur ke 0, atau gunakan komputasi tanpa server.
  • Untuk instans komputasi, aktifkan penutupan otomatis ketika tidak aktif. Saat menghentikan instans komputasi menghentikan penagihan untuk jam komputasi, Anda masih membayar disk, IP publik, dan load balancer standar.

Seri dan ukuran VM yang didukung

Penting

Jika instans komputasi atau kluster komputasi Anda didasarkan pada salah satu seri ini, buat ulang dengan ukuran VM lain.

Seri ini dihentikan pada 31 Agustus 2023:

Seri ini dihentikan pada 31 Agustus 2024:

Seri ini dihentikan pada 30 September 2025:

Saat Anda memilih ukuran simpul untuk sumber daya komputasi terkelola di Azure Machine Learning, Anda dapat memilih dari ukuran VM tertentu yang tersedia di Azure. Azure menawarkan berbagai ukuran untuk Linux dan Windows untuk beban kerja yang berbeda. Untuk informasi selengkapnya, lihat Jenis dan ukuran VM.

Beberapa pengecualian dan batasan berlaku saat Anda memilih ukuran VM:

  • Azure Machine Learning tidak mendukung beberapa seri VM.
  • Beberapa seri VM, seperti GPU dan SKU khusus lainnya, mungkin awalnya tidak muncul dalam daftar VM yang tersedia. Namun, Anda masih dapat menggunakannya setelah meminta perubahan kuota. Untuk informasi selengkapnya tentang meminta kuota, lihat Meminta penambahan kuota dan batas.

Untuk mempelajari selengkapnya tentang seri yang didukung, lihat tabel berikut ini.

Seri VM yang didukung Kategori Didukung oleh
Av2 Tujuan umum Kluster Komputasi dan Instans
DDSv4 Tujuan umum Kluster Komputasi dan Instans
Dv2 Tujuan umum Kluster Komputasi dan Instans
Dv3 Tujuan umum Kluster Komputasi dan Instans
DSv2 Tujuan umum Kluster Komputasi dan Instans
DSv3 Tujuan umum Kluster Komputasi dan Instans
EAv4 Memori Dioptimalkan Kluster Komputasi dan Instans
Ev3 Memori Dioptimalkan Kluster Komputasi dan Instans
ESv3 Memori Dioptimalkan Kluster Komputasi dan Instans
FSv2 Dioptimalkan untuk komputasi Kluster Komputasi dan Instans
FX Dioptimalkan untuk komputasi Kluster komputasi
H Komputasi performa tinggi Kluster Komputasi dan Instans
HB Komputasi performa tinggi Kluster Komputasi dan Instans
HBv2 Komputasi performa tinggi Kluster Komputasi dan Instans
HBv3 Komputasi performa tinggi Kluster Komputasi dan Instans
HC Komputasi performa tinggi Kluster Komputasi dan Instans
LSv2 Penyimpanan dioptimalkan Kluster Komputasi dan Instans
M Memori Dioptimalkan Kluster Komputasi dan Instans
NC GPU (K80) Kluster Komputasi dan Instans
NC Promo GPU (K80) Kluster Komputasi dan Instans
NCv2 GPU (P100) Kluster Komputasi dan Instans
NCv3 GPU (V100) Kluster Komputasi dan Instans
ND GPU (P40) Kluster Komputasi dan Instans
NDv2 GPU (V100) Kluster Komputasi dan Instans
NV GPU (M60) Kluster Komputasi dan Instans
NVv3 GPU (M60) Kluster Komputasi dan Instans
NCasT4_v3 GPU (T4) Kluster Komputasi dan Instans
NCads_A100_v4 GPU (A100) Kluster Komputasi dan Instans
NDasrA100_v4 GPU (A100) Kluster Komputasi dan Instans
NCads_H100_v5 GPU (H100) Kluster Komputasi dan Instans
ND-H100-v5 GPU (H100) Kluster Komputasi dan Instans
ND-H200-v5 GPU (H200) Kluster Komputasi dan Instans

Meskipun Azure Machine Learning mendukung seri VM ini, seri tersebut mungkin tidak tersedia di semua wilayah Azure. Untuk memeriksa apakah seri VM tersedia, lihat ketersediaan Produk sesuai wilayah.

Catatan

Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia, gunakan metode berikut:

Catatan

Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia yang didukung oleh jenis komputer virtual komputasi tertentu, gunakan salah satu metode berikut:

Jika Anda menggunakan target komputasi berkemampuan GPU, pastikan lingkungan pelatihan telah menginstal driver CUDA yang benar. Lihat tabel berikut untuk menentukan penggunaan versi CUDA yang benar:

Arsitektur GPU Seri Azure VM Versi CUDA yang didukung
Hopper NCadsH100_v5, ND-H100-v5, ND-H200-v5 12.0+
Ampere NDA100_v4, NCA100_v4 11.0+
Turing NCT4_v3 10.0+
Volta NCv3, NDv2 9.0+
Pascal NCv2, ND 9.0+
Maxwell NV, NVv3 9.0+
Kepler NC, NC Promosi 9.0+

Selain memastikan versi CUDA dan perangkat keras kompatibel, pastikan juga bahwa versi CUDA kompatibel dengan versi kerangka kerja pembelajaran mesin yang Anda gunakan:

Isolasi komputasi

Komputasi Azure Machine Learning menyediakan ukuran VM yang diisolasi ke jenis perangkat keras tertentu dan didedikasikan untuk satu pelanggan. Ukuran VM terisolasi berfungsi paling baik untuk beban kerja yang memerlukan isolasi tingkat tinggi dari beban kerja pelanggan lain, seperti ketika Anda perlu memenuhi persyaratan kepatuhan dan peraturan. Saat Anda menggunakan ukuran terisolasi, VM Anda adalah satu-satunya yang berjalan pada instans server tertentu.

Penawaran VM yang terisolasi saat ini meliputi:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3 (mampu RDMA)

Untuk informasi selengkapnya tentang isolasi, lihat Isolasi di cloud publik Azure.

Komputasi tidak terkelola

Azure Machine Learning tidak mengelola target komputasi unmanaged. Anda membuat jenis target komputasi ini di luar Azure Machine Learning lalu melampirkannya ke ruang kerja Anda. Anda mungkin perlu mengambil langkah tambahan untuk mempertahankan sumber daya komputasi yang tidak dikelola atau untuk meningkatkan performa beban kerja pembelajaran mesin.

Azure Machine Learning mendukung jenis komputasi tidak terkelola berikut:

  • Mesin virtual jarak jauh
  • Azure HDInsight
  • Azure Databricks
  • Azure Data Lake Analytics

Untuk informasi selengkapnya, lihat Mengelola sumber daya komputasi.