Apa target komputasi di Azure Machine Learning?

Target komputasi adalah sumber daya komputasi atau lingkungan yang ditetapkan, tempat skrip pelatihan atau hosting penyebaran layanan Anda dijalankan. Lokasinya mungkin merupakan komputer lokal Anda atau suatu sumber daya komputasi berbasis cloud. Penggunakan target komputasi akan memudahkan Anda nantinya untuk mengubah lingkungan komputasi tanpa harus mengubah kode Anda.

Dalam siklus hidup pengembangan model yang khas, Anda bisa:

  1. Memulai dengan mengembangkan dan bereksperimen pada sejumlah kecil data. Pada tahap ini, gunakan lingkungan lokal Anda, seperti komputer lokal atau komputer virtual (Virtual Machine/VM) berbasis cloud, sebagai target komputasi Anda.
  2. Skalakan ke data yang lebih besar, atau lakukan pelatihan terdistribusi dengan menggunakan salah satu target komputasi pelatihan ini.
  3. Setelah model Anda siap, sebarkan ke lingkungan hosting web menggunakan salah satu target komputasi penyebaran ini.

Sumber daya komputasi yang digunakan untuk target komputasi Anda dilampirkan ke sebuah ruang kerja. Sumber daya komputasi selain komputer lokal dibagikan oleh pengguna ruang kerja.

Target komputasi pelatihan

Azure Machine Learning memiliki berbagai dukungan pada berbagai target komputasi. Siklus hidup pengembangan model yang khas dimulai dengan pengembangan atau eksperimen pada sejumlah kecil data. Pada tahap ini, gunakan lingkungan lokal seperti komputer lokal Anda atau VM berbasis cloud. Saat Anda meningkatkan pelatihan Anda pada kumpulan data yang lebih besar atau melakukan pelatihan terdistribusi, gunakan komputasi Azure Machine Learning untuk membuat kluster tunggal atau multi-node yang melakukan penskalaan otomatis setiap kali Anda mengirimkan pekerjaan. Anda juga dapat melampirkan sumber daya komputasi Anda sendiri, meskipun dengan dukungan yang berbeda-beda untuk setiap skenarionya.

Target komputasi dapat digunakan kembali dari satu tugas pelatihan ke tugas berikutnya. Misalnya, setelah Anda melampirkan VM jarak jauh ke ruang kerja Anda, Anda dapat menggunakannya kembali untuk beberapa pekerjaan. Untuk pipeline machine learning, gunakan langkah pipeline yang sesuai untuk setiap target komputasi.

Anda dapat menggunakan salah satu sumber daya berikut untuk target komputasi pelatihan untuk sebagian besar pekerjaan. Tidak semua resource dapat digunakan untuk machine learning otomatis, pipeline machine learning, atau desainer. Azure Databricks dapat digunakan sebagai sumber pelatihan untuk jalur lokal dan pembelajaran mesin, tetapi tidak sebagai target jarak jauh untuk pelatihan lainnya.

Target pelatihan Pembelajaran mesin otomatis Jalur pembelajaran mesin Desainer Pembelajaran Mesin Azure
Komputer lokal Ya    
Kluster komputasi Pembelajaran Mesin Azure Ya Ya Ya
Instans komputasi Azure Machine Learning Ya (melalui SDK) Ya Ya
Azure Machine Learning Kubernetes Ya Ya Ya
VM Jarak Jauh Ya Ya  
Kolam Apache Spark (pratinjau) Ya (hanya mode lokal SDK) Ya  
Azure Databricks Ya (hanya mode lokal SDK) Ya  
Azure Data Lake Analytics   Ya  
Azure HDInsight   Ya  
Azure Batch   Ya  

Tip

Instans komputasi memiliki disk OS 120GB. Jika Anda kehabisan ruang disk, gunakan terminal untuk mengosongkan setidaknya 1-2 GB sebelum Anda menghentikan atau memulai ulang instance komputasi.

Komputasi target untuk inferensi

Saat melakukan inferensi, Azure Machine Learning membuat kontainer Docker yang hosting model serta sumber daya terkait yang diperlukan untuk penggunaannya. Kontainer ini kemudian digunakan dalam target komputasi.

Target komputasi yang Anda gunakan untuk menghosting model Anda akan memengaruhi biaya dan ketersediaan titik akhir yang disebarkan. Gunakan tabel ini untuk memilih target komputasi yang sesuai.

Hitung target Digunakan untuk Dukungan GPU Deskripsi
Layanan web lokal Pengujian/debug   Gunakan untuk pengujian dan pemecahan masalah terbatas. Akselerasi perangkat keras tergantung pada penggunaan pustaka di sistem lokal.
Azure Machine Learning titik akhir Inferensi real time

Inferensi batch
Ya Komputasi yang dikelola sepenuhnya untuk real-time (titik akhir online terkelola) dan penilaian batch (titik akhir batch) pada komputasi tanpa server.
Azure Machine Learning Kubernetes Inferensi real time

Inferensi batch
Ya Jalankan beban kerja inferensi pada kluster Kubernetes lokal, cloud, dan tepi.
Azure Container Instances (hanya SDK/CLI v1) Inferensi waktu nyata

Direkomendasikan untuk tujuan pengembangan/pengujian saja.
  Gunakan untuk beban kerja berbasis CPU skala rendah yang membutuhkan RAM kurang dari 48 GB. Tidak mengharuskan Anda untuk mengelola kluster.

Didukung dalam desainer.

Catatan

Saat memilih SKU kluster, pertama-tama perbesar, lalu perkecil. Mulailah dengan komputer yang memiliki 150% RAM yang dibutuhkan model Anda, buat profil hasilnya dan temukan komputer yang memiliki performa yang Anda butuhkan. Setelah Anda mempelajarinya, tingkatkan jumlah komputer agar sesuai dengan kebutuhan Anda untuk inferensi bersamaan.

Catatan

Instans kontainer memerlukan SDK atau CLI v1 dan hanya cocok untuk model kecil berukuran kurang dari 1 GB.

Pelajari lokasi dan cara menyebarkan model Anda ke target komputasi.

Komputasi Azure Machine Learning (terkelola)

Sumber daya komputasi terkelola dibuat dan dikendalikan oleh Azure Machine Learning. Komputasi ini dioptimalkan bagi beban kerja pembelajaran mesin. Hanya kluster komputasi dan instans komputasi Azure Machine Learning yang merupakan komputasi terkelola.

Anda dapat membuat instans komputasi atau kluster komputasi Azure Machine Learning dari:

Saat dibuat, sumber daya komputasi ini secara otomatis menjadi bagian dari ruang kerja Anda, tidak seperti jenis target komputasi lainnya.

Kemampuan Hitung cluster Hitung intance
Klaster tunggal atau multi-simpul Kluster node tunggal
Menskalakan secara otomatis setiap kali Anda mengirimkan pekerjaan alur
Manajemen kluster dan penjadwalan pekerjaan otomatis
Dukungan untuk sumber daya CPU dan GPU

Catatan

Untuk menghindari biaya saat komputasi diam:

  • Untuk kluster komputasi pastikan jumlah minimum simpul diatur ke 0.
  • Untuk instans komputasi, aktifkan matikan diam.

Seri dan ukuran VM yang didukung

Catatan

Seri mesin virtual seri H akan dihentikan pada 31 Agustus 2022. Buat instans komputasi dan kluster komputasi dengan ukuran mesin virtual alternatif. Instans dan kluster komputasi yang ada dengan mesin virtual seri H tidak akan berfungsi setelah 31 Agustus 2022.

Saat Anda memilih ukuran simpul untuk sumber daya komputasi terkelola pada Azure Machine Learning, Anda dapat memilih dari beberapa ukuran VM tertentu yang tersedia di Azure. Azure menawarkan beragam ukuran bagi Linux dan Windows untuk beban kerja yang berbeda. Untuk mempelajari lebih lanjut, lihat Tipe dan ukuran VM.

Ada beberapa pengecualian dan batasan dalam memilih ukuran VM:

  • Beberapa seri VM tidak didukung di Azure Machine Learning.
  • Terdapat beberapa seri mesin virtual, seperti GPU dan SKU khusus lainnya, yang awalnya mungkin tidak muncul dalam daftar mesin virtual yang tersedia. Namun Anda masih dapat menggunakannya setelah meminta perubahan kuota. Untuk informasi selengkapnya mengenai permintaan kuota, harap lihat Meminta peningkatan kuota. Lihat tabel berikut ini guna mempelajari selengkapnya mengenai seri yang didukung.
Seri VM yang didukung Kategori Didukung oleh
DDSv4 Tujuan umum Kluster dan instans komputasi
Dv2 Tujuan umum Kluster dan instans komputasi
Dv3 Tujuan umum Kluster dan instans komputasi
DSv2 Tujuan umum Kluster dan instans komputasi
DSv3 Tujuan umum Kluster dan instans komputasi
EAv4 Memori dioptimalkan Kluster dan instans komputasi
Ev3 Memori dioptimalkan Kluster dan instans komputasi
ESv3 Memori dioptimalkan Kluster dan instans komputasi
FSv2 Komputasi dioptimalkan Kluster dan instans komputasi
FX Dioptimalkan untuk komputasi Kluster komputasi
H Komputasi performa tinggi Kluster dan instans komputasi
HB Komputasi performa tinggi Kluster dan instans komputasi
HBv2 Komputasi performa tinggi Kluster dan instans komputasi
HBv3 Komputasi performa tinggi Kluster dan instans komputasi
HC Komputasi performa tinggi Kluster dan instans komputasi
LSv2 Dioptimalkan untuk penyimpanan Kluster dan instans komputasi
M Memori dioptimalkan Kluster dan instans komputasi
NC GPU Kluster dan instans komputasi
NC Promo GPU Kluster dan instans komputasi
NCv2 GPU Kluster dan instans komputasi
NCv3 GPU Kluster dan instans komputasi
ND GPU Kluster dan instans komputasi
NDv2 GPU Kluster dan instans komputasi
NV GPU Kluster dan instans komputasi
NVv3 GPU Kluster dan instans komputasi
NCasT4_v3 GPU Kluster dan instans komputasi
NDasrA100_v4 GPU Kluster dan instans komputasi

Meskipun Azure Machine Learning mendukung seri VM ini, seri ini mungkin tidak tersedia di semua wilayah Azure. Untuk memeriksa apakah seri VM tersedia, lihat ketersediaan Produk sesuai wilayah.

Catatan

Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia, gunakan salah satu metode berikut:

Jika menggunakan target komputasi yang diaktifkan oleh GPU, penting untuk memastikan bahwa driver CUDA yang benar sudah terpasang di dalam lingkungan pelatihan. Lihat tabel berikut untuk menentukan penggunaan versi CUDA yang benar:

Arsitektur GPU Azure VM Series Versi CUDA yang didukung
Ampere NDA100_v4 11.0+
Turing NCT4_v3 10.0+
Volta NCv3, NDv2 9.0+
Pascal NCv2, ND 9.0+
Maxwell NV, NVv3 9.0+
Kepler NC, NC Promo 9.0+

Selain memastikan versi CUDA dan perangkat keras kompatibel, pastikan juga bahwa versi CUDA kompatibel dengan versi kerangka kerja pembelajaran mesin yang Anda gunakan:

Isolasi komputasi

Komputasi Azure Machine Learning menawarkan beragam ukuran VM yang diisolasi ke jenis perangkat keras tertentu dan didedikasikan untuk satu pelanggan. Ukuran VM yang terisolasi paling cocok bagi beban kerja yang memerlukan isolasi tingkat tinggi dari beban kerja pelanggan lain termasuk untuk alasan persyaratan kepatuhan dan peraturan. Menggunakan ukuran terisolasi menjamin bahwa VM Anda akan menjadi satu-satunya VM yang berjalan pada instans server tertentu.

Penawaran VM yang terisolasi saat ini meliputi:

  • Standard_M128ms
  • Standard_F72s_v2
  • Standard_NC24s_v3
  • Standard_NC24rs_v3*

*Kemampuan RDMA

Untuk mempelajari selengkapnya tentang isolasi, lihat Isolasi pada awan publik Azure.

Komputasi tak terkelola

Azure Machine Learning tidak mengendalikan target komputasi yang tidak terkelola. Anda membuat jenis target komputasi ini di luar Azure Machine Learning lalu lampirkan ke ruang kerja Anda. Terkadang Anda perlu melakukan langkah tambahan untuk Sumber daya komputasi yang tidak dikelola demi mempertahankan atau meningkatkan performa bagi beban kerja pembelajaran mesin.

Azure Machine Learning mendukung tipe komputasi yang tidak dikelola berikut:

  • Komputer virtual jarak jauh

  • Azure HDInsight

  • Azure Databricks

  • Azure Data Lake Analytics

  • Azure Synapse kumpulan Spark (pratinjau)

    Tip

    Saat ini ini memerlukan Azure Machine Learning SDK v1.

  • Kubernetes

Untuk informasi selengkapnya, lihat Mengelola sumber daya komputasi.

Langkah berikutnya

Pelajari cara: