Apa target komputasi di Azure Machine Learning?

Artikel
01/27/2024

Target komputasi adalah sumber daya komputasi atau lingkungan yang ditetapkan, tempat skrip pelatihan atau hosting penyebaran layanan Anda dijalankan. Lokasinya mungkin merupakan komputer lokal Anda atau suatu sumber daya komputasi berbasis cloud. Penggunakan target komputasi akan memudahkan Anda nantinya untuk mengubah lingkungan komputasi tanpa harus mengubah kode Anda.

Azure Machine Learning memiliki berbagai dukungan pada berbagai target komputasi. Dalam siklus hidup pengembangan model yang khas, Anda bisa:

Memulai dengan mengembangkan dan bereksperimen pada sejumlah kecil data. Pada tahap ini, gunakan lingkungan lokal Anda, seperti komputer lokal atau komputer virtual (Virtual Machine/VM) berbasis cloud, sebagai target komputasi Anda.
Skalakan ke data yang lebih besar, atau lakukan pelatihan terdistribusi dengan menggunakan salah satu target komputasi pelatihan ini.
Setelah model Anda siap, sebarkan ke lingkungan hosting web menggunakan salah satu target komputasi penyebaran ini.

Sumber daya komputasi yang digunakan untuk target komputasi Anda dilampirkan ke sebuah ruang kerja. Sumber daya komputasi selain komputer lokal dibagikan oleh pengguna ruang kerja.

Target komputasi pelatihan

Saat Anda meningkatkan pelatihan Anda pada kumpulan data yang lebih besar atau melakukan pelatihan terdistribusi, gunakan komputasi Azure Machine Learning untuk membuat kluster tunggal atau multi-node yang melakukan penskalaan otomatis setiap kali Anda mengirimkan pekerjaan. Anda juga dapat melampirkan sumber daya komputasi Anda sendiri, meskipun dengan dukungan yang berbeda-beda untuk setiap skenarionya.

Target komputasi dapat digunakan kembali dari satu tugas pelatihan ke tugas berikutnya. Misalnya, setelah Anda melampirkan VM jarak jauh ke ruang kerja Anda, Anda dapat menggunakannya kembali untuk beberapa pekerjaan. Untuk pipeline machine learning, gunakan langkah pipeline yang sesuai untuk setiap target komputasi.

Anda dapat menggunakan salah satu sumber daya berikut untuk target komputasi pelatihan untuk sebagian besar pekerjaan. Tidak semua resource dapat digunakan untuk machine learning otomatis, pipeline machine learning, atau desainer. Azure Databricks dapat digunakan sebagai sumber pelatihan untuk jalur lokal dan pembelajaran mesin, tetapi tidak sebagai target jarak jauh untuk pelatihan lainnya.

Target pelatihan	Pembelajaran mesin otomatis	Jalur pembelajaran mesin	Desainer Azure Machine Learning
Komputer lokal	Ya
Kluster komputasi Azure Machine Learning	Ya	Ya	Ya
Komputasi tanpa server Azure Pembelajaran Mesin	Ya	Ya	Ya
Instans komputasi Azure Pembelajaran Mesin	Ya (melalui SDK)	Ya	Ya
Azure Machine Learning Kubernetes		Ya	Ya
VM Jarak Jauh	Ya	Ya
Kolam Apache Spark (pratinjau)	Ya (hanya mode lokal SDK)	Ya
Azure Databricks	Ya (hanya mode lokal SDK)	Ya
Azure Data Lake Analytics		Ya
Azure HDInsight		Ya
Azure Batch		Ya

Tip

Instans komputasi memiliki disk OS 120GB. Jika Anda kehabisan ruang disk, gunakan terminal untuk mengosongkan setidaknya 1-2 GB sebelum Anda menghentikan atau memulai ulang instance komputasi.

Target komputasi untuk inferensi

Saat melakukan inferensi, Azure Machine Learning membuat kontainer Docker yang hosting model serta sumber daya terkait yang diperlukan untuk penggunaannya. Kontainer ini kemudian digunakan dalam target komputasi.

Target komputasi yang Anda gunakan untuk menghosting model Anda memengaruhi biaya dan ketersediaan titik akhir yang Anda sebarkan. Gunakan tabel ini untuk memilih target komputasi yang sesuai.

Target komputasi	Digunakan untuk	Dukungan GPU	Deskripsi
Azure Machine Learning titik akhir	Inferensi real time Inferensi batch	Ya	Komputasi yang dikelola sepenuhnya untuk real-time (titik akhir online terkelola) dan penilaian batch (titik akhir batch) pada komputasi tanpa server.
Azure Machine Learning Kubernetes	Inferensi real time Inferensi batch	Ya	Jalankan beban kerja inferensi pada kluster Kubernetes lokal, cloud, dan tepi.

Target komputasi	Digunakan untuk	Dukungan GPU	Deskripsi
Layanan web lokal	Pengujian/debug		Gunakan untuk pengujian dan pemecahan masalah terbatas. Akselerasi perangkat keras tergantung pada penggunaan pustaka di sistem lokal.
Azure Machine Learning Kubernetes	Inferensi waktu nyata	Ya	Jalankan beban kerja inferensi di cloud.
Azure Container Instances	Inferensi real time Direkomendasikan untuk tujuan pengembangan/pengujian saja.		Gunakan untuk beban kerja berbasis CPU skala rendah yang membutuhkan RAM kurang dari 48 GB. Tidak mengharuskan Anda untuk mengelola kluster. Hanya cocok untuk model berukuran kurang dari 1 GB. Didukung dalam desainer.

Catatan

Saat memilih SKU kluster, pertama-tama perbesar, lalu perkecil. Mulailah dengan komputer yang memiliki 150% RAM yang dibutuhkan model Anda, buat profil hasilnya dan temukan komputer yang memiliki performa yang Anda butuhkan. Setelah Anda mempelajarinya, tingkatkan jumlah komputer agar sesuai dengan kebutuhan Anda untuk inferensi bersamaan.

Menyebarkan dan menilai model pembelajaran mesin menggunakan titik akhir online.

Menyebarkan model pembelajaran mesin ke Azure.

Komputasi Azure Machine Learning (terkelola)

Azure Pembelajaran Mesin membuat dan mengelola sumber daya komputasi terkelola. Jenis komputasi ini dioptimalkan untuk beban kerja pembelajaran mesin. Azure Pembelajaran Mesin kluster komputasi, komputasi tanpa server, dan instans komputasi adalah satu-satunya komputasi terkelola.

Tidak perlu membuat komputasi tanpa server. Anda dapat membuat instans komputasi atau kluster komputasi Azure Machine Learning dari:

Studio Azure Pembelajaran Mesin
Python SDK dan Azure CLI:
- Hitung intance
- Kluster komputasi
Templat Azure Resource Manager. Untuk contoh templat, lihat Membuat kluster komputasi Azure Machine Learning.

Catatan

Alih-alih membuat kluster komputasi, gunakan komputasi tanpa server untuk membongkar manajemen siklus hidup komputasi ke Azure Pembelajaran Mesin.

Saat dibuat, sumber daya komputasi ini secara otomatis menjadi bagian dari ruang kerja Anda, tidak seperti jenis target komputasi lainnya.

Kemampuan	Kluster komputasi	Hitung intance
Klaster tunggal atau multi-simpul	✓	Kluster node tunggal
Menskalakan secara otomatis setiap kali Anda mengirimkan pekerjaan alur	✓
Manajemen kluster dan penjadwalan pekerjaan otomatis	✓	✓
Dukungan untuk sumber daya CPU dan GPU	✓	✓

Catatan

Untuk menghindari biaya saat komputasi diam:

Untuk kluster komputasi, pastikan jumlah minimum simpul diatur ke 0, atau gunakan komputasi tanpa server.
Untuk instans komputasi, aktifkan matikan diam.

Seri dan ukuran VM yang didukung

Penting

Jika instans komputasi atau kluster komputasi Anda didasarkan pada salah satu seri ini, buat ulang dengan ukuran VM lain sebelum tanggal penghentiannya untuk menghindari gangguan layanan.

Seri ini akan dihentikan pada 31 Agustus 2023:

Seri ini akan dihentikan pada 31 Agustus 2024:

Saat Anda memilih ukuran simpul untuk sumber daya komputasi terkelola pada Azure Machine Learning, Anda dapat memilih dari beberapa ukuran VM tertentu yang tersedia di Azure. Azure menawarkan beragam ukuran bagi Linux dan Windows untuk beban kerja yang berbeda. Untuk mempelajari lebih lanjut, lihat Tipe dan ukuran VM.

Ada beberapa pengecualian dan batasan dalam memilih ukuran VM:

Beberapa seri VM tidak didukung di Azure Machine Learning.
Beberapa seri VM, seperti GPU dan SKU khusus lainnya, mungkin awalnya tidak muncul dalam daftar VM yang tersedia. Namun Anda masih dapat menggunakannya setelah meminta perubahan kuota. Untuk informasi selengkapnya tentang meminta kuota, lihat Meminta penambahan kuota dan batas. Lihat tabel berikut ini guna mempelajari selengkapnya mengenai seri yang didukung.

Seri VM yang didukung	Golongan	Didukung oleh
DDSv4	Tujuan umum	Kluster dan instans komputasi
Dv2	Tujuan umum	Kluster dan instans komputasi
Dv3	Tujuan umum	Kluster dan instans komputasi
DSv2	Tujuan umum	Kluster dan instans komputasi
DSv3	Tujuan umum	Kluster dan instans komputasi
EAv4	Memori Dioptimalkan	Kluster dan instans komputasi
Ev3	Memori Dioptimalkan	Kluster dan instans komputasi
ESv3	Memori Dioptimalkan	Kluster dan instans komputasi
FSv2	Dioptimalkan untuk komputasi	Kluster dan instans komputasi
FX	Dioptimalkan untuk komputasi	Kluster komputasi
H	Komputasi performa tinggi	Kluster dan instans komputasi
HB	Komputasi performa tinggi	Kluster dan instans komputasi
HBv2	Komputasi performa tinggi	Kluster dan instans komputasi
HBv3	Komputasi performa tinggi	Kluster dan instans komputasi
HC	Komputasi performa tinggi	Kluster dan instans komputasi
LSv2	Penyimpanan dioptimalkan	Kluster dan instans komputasi
M	Memori Dioptimalkan	Kluster dan instans komputasi
NC	GPU	Kluster dan instans komputasi
NC Promo	GPU	Kluster dan instans komputasi
NCv2	GPU	Kluster dan instans komputasi
NCv3	GPU	Kluster dan instans komputasi
ND	GPU	Kluster dan instans komputasi
NDv2	GPU	Kluster dan instans komputasi
NV	GPU	Kluster dan instans komputasi
NVv3	GPU	Kluster dan instans komputasi
NCasT4_v3	GPU	Kluster dan instans komputasi
NDasrA100_v4	GPU	Kluster dan instans komputasi

Meskipun Azure Machine Learning mendukung seri VM ini, seri ini mungkin tidak tersedia di semua wilayah Azure. Untuk memeriksa apakah seri VM tersedia, lihat ketersediaan Produk sesuai wilayah.

Catatan

Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia, gunakan metode berikut:

REST API

Catatan

Azure Machine Learning tidak mendukung semua ukuran VM yang didukung Azure Compute. Untuk mencantumkan ukuran VM yang tersedia, gunakan salah satu metode berikut:

Jika Anda menggunakan target komputasi berkemampuan GPU, penting untuk memastikan bahwa driver CUDA yang benar diinstal di lingkungan pelatihan. Lihat tabel berikut untuk menentukan penggunaan versi CUDA yang benar:

Arsitektur GPU	Seri Azure VM	Versi CUDA yang didukung
Ampere	NDA100_v4	11.0+
Turing	NCT4_v3	10.0+
Volta	NCv3, NDv2	9.0+
Pascal	NCv2, ND	9.0+
Maxwell	NV, NVv3	9.0+
Kepler	NC, NC Promo	9.0+

Selain memastikan versi CUDA dan perangkat keras kompatibel, pastikan juga bahwa versi CUDA kompatibel dengan versi kerangka kerja pembelajaran mesin yang Anda gunakan:

Untuk PyTorch, Anda dapat memeriksa kompatibilitasnya dengan mengunjungi halaman versi sebelumnya Pytorch.
Untuk Tensorflow, Anda dapat memeriksa kompatibilitasnya dengan mengunjungi halaman build dari sumber Tensorflow.

Isolasi komputasi

Komputasi Azure Machine Learning menawarkan beragam ukuran VM yang diisolasi ke jenis perangkat keras tertentu dan didedikasikan untuk satu pelanggan. Ukuran VM yang terisolasi paling cocok bagi beban kerja yang memerlukan isolasi tingkat tinggi dari beban kerja pelanggan lain termasuk untuk alasan persyaratan kepatuhan dan peraturan. Memanfaatkan ukuran terisolasi menjamin bahwa VM Anda adalah satu-satunya yang berjalan pada instans server tertentu.

Penawaran VM yang terisolasi saat ini meliputi:

Standard_M128ms
Standard_F72s_v2
Standard_NC24s_v3
Standard_NC24rs_v3 (mampu RDMA)

Untuk mempelajari selengkapnya tentang isolasi, lihat Isolasi pada awan publik Azure.

Komputasi tak terkelola

Azure Pembelajaran Mesin tidak mengelola target komputasi yang tidak dikelola. Anda membuat jenis target komputasi ini di luar Azure Machine Learning lalu lampirkan ke ruang kerja Anda. Sumber daya komputasi yang tidak dikelola dapat memerlukan langkah tambahan bagi Anda untuk mempertahankan atau meningkatkan performa untuk beban kerja pembelajaran mesin.

Azure Machine Learning mendukung tipe komputasi yang tidak dikelola berikut: