Operasi pembelajaran mesin

2025-04-17

Artikel ini menjelaskan tiga arsitektur Azure untuk operasi pembelajaran mesin yang memiliki alur integrasi dan pengiriman berkelanjutan (CI/CD) end-to-end, serta alur pelatihan ulang. Arsitekturnya adalah untuk aplikasi AI ini:

Pembelajaran mesin klasik
Visi komputer (CV)
Pemrosesan bahasa alami

Arsitektur ini adalah produk dari proyek MLOps v2. Mereka menggabungkan praktik terbaik yang diidentifikasi oleh arsitek solusi dalam proses pengembangan berbagai solusi pembelajaran mesin. Hasilnya adalah pola yang dapat disebarkan, diulang, dan mudah dipelihara. Ketiga arsitektur menggunakan layanan Azure Pembelajaran Mesin.

Untuk implementasi dengan contoh templat penyebaran untuk MLOps v2, lihat Repositori GitHub Azure MLOps v2.

Kemungkinan kasus penggunaan

Pembelajaran mesin klasik: Prakiraan rangkaian waktu, regresi, dan klasifikasi pada data terstruktur tabular adalah kasus penggunaan yang paling umum dalam kategori ini. Contohnya meliputi:
- Klasifikasi biner dan multi-label.
- Regresi linier, polinomial, punggung bukit, lasso, kuantil, dan Bayesian.
- ARIMA, autoregresif, SARIMA, VAR, SES, LSTM.
CV: Kerangka kerja MLOps dalam artikel ini sebagian besar berfokus pada kasus penggunaan CV segmentasi dan klasifikasi gambar.
Pemrosesan bahasa alami: Anda dapat menggunakan kerangka kerja MLOps ini untuk mengimplementasikan:
- Pengenalan entitas karakter
- Klasifikasi teks
- Pembuatan teks
- Analisis sentimen
- Terjemahan
- Jawaban atas Pertanyaan
- Ringkasan
- Deteksi kalimat
- Deteksi bahasa
- Pelabelan bagian ujaran

Simulasi AI, pembelajaran penguatan mendalam, dan bentuk AI lainnya tidak dijelaskan dalam artikel ini.

MLOps sebagai area desain kunci untuk beban kerja AI

Perencanaan dan implementasi MLOps dan GenAIOps adalah area desain inti dalam beban kerja AI di Azure. Untuk mendapatkan latar belakang mengapa beban kerja pembelajaran mesin ini memerlukan operasi khusus, lihat MLOps dan GenAIOps untuk beban kerja AI di Azure di Azure Well-Architected Framework.

Arsitektur

Pola arsitektur MLOps v2 memiliki empat komponen modular utama, atau fase, dari siklus hidup MLOps:

Pengelolaan Sumber Data
Administrasi dan penyiapan
Pengembangan model, atau fase loop dalam
Penyebaran model, atau fase perulangan luar

Komponen sebelumnya, koneksi di antara mereka, dan persona umum yang terlibat adalah standar di semua arsitektur skenario MLOps v2. Variasi dalam detail setiap komponen bergantung pada skenario.

Arsitektur dasar untuk MLOps v2 untuk Pembelajaran Mesin adalah skenario pembelajaran mesin klasik untuk data tabular. Arsitektur CV dan NLP dibangun dan memodifikasi arsitektur dasar ini.

MLOps v2 mencakup arsitektur berikut yang dijelaskan dalam artikel ini:

Arsitektur pembelajaran mesin klasik
arsitektur CV Pembelajaran Mesin
Arsitektur pemrosesan bahasa alami pembelajaran mesin

Arsitektur pembelajaran mesin klasik

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pembelajaran mesin klasik

Pengelolaan Sumber Data

Komponen ini menggambarkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen siklus hidup MLOps v2 ini. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber data dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran solusi MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Misalnya, tim infrastruktur mungkin:
1. Membuat repositori kode sumber proyek.
2. Gunakan Bicep atau Terraform untuk membuat ruang kerja Pembelajaran Mesin.
3. Membuat atau memodifikasi himpunan data dan sumber daya komputasi untuk pengembangan dan penyebaran model.
4. Tentukan pengguna tim proyek, peran mereka, dan kontrol akses ke sumber daya lain.
5. Buat jalur pipa untuk CI/CD.
6. Buat komponen pemantauan untuk mengumpulkan dan membuat pemberitahuan untuk metrik model dan infrastruktur.
Persona utama yang terkait dengan fase ini adalah tim infrastruktur, tetapi organisasi mungkin juga memiliki teknisi data, insinyur pembelajaran mesin, atau ilmuwan data.
Pengembangan model (fase siklus dalam)

Fase loop internal terdiri dari alur kerja ilmu data iteratif yang beroperasi di ruang kerja Pembelajaran Mesin yang dikhususkan dan aman. Diagram sebelumnya memperlihatkan alur kerja umum. Proses dimulai dengan penyerapan data, bergerak melalui analisis data eksploratif, eksperimen, pengembangan dan evaluasi model, lalu mendaftarkan model untuk penggunaan produksi. Komponen modular ini bersifat agnostik dan dapat beradaptasi dengan proses yang digunakan tim ilmu data Anda untuk mengembangkan model.

Persona yang terkait dengan fase ini termasuk ilmuwan data dan insinyur pembelajaran mesin.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu, baik secara otomatis oleh pendaftaran model atau melalui persetujuan "gated human-in-the-loop", mempromosikan model dan dependensi model lainnya ke tahap penerapan model.

Persona yang terkait dengan tahap ini biasanya adalah insinyur pembelajaran mesin.
Penyebaran model (tahap iterasi luar)

Penyebaran model, atau tahap perulangan eksternal, terdiri dari penahapan dan pengujian praproduksi, penyebaran ke lingkungan produksi, dan pemantauan model, data, serta infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

Persona yang terkait dengan fase ini terutama insinyur pembelajaran mesin.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti pelatihan ulang dan pengujian kandidat model pada data produksi, pengujian penerapan untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, serta pengecekan AI bertanggung jawab untuk bias model dan data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Berdasarkan kriteria model dan data, seperti ambang batas atau jadwal metrik, pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil. Misalnya, pemicu mungkin melatih ulang model untuk menggunakan data produksi baru lalu mengembalikan model untuk dievaluasi pada tahap praproduksi. Atau masalah model atau data dapat memicu tindakan yang memerlukan loopback ke fase pengembangan model di mana ilmuwan data dapat menyelidiki masalah dan berpotensi mengembangkan model baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

arsitektur CV Pembelajaran Mesin

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur CV

Arsitektur CV Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki modifikasi yang khusus untuk skenario CV yang diawasi.

Pengelolaan Sumber Data

Komponen ini menunjukkan kekayaan data organisasi dan sumber data serta target yang potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Gambar untuk skenario CV dapat berasal dari berbagai sumber data. Untuk efisiensi saat mengembangkan dan menyebarkan model CV dengan Pembelajaran Mesin, kami merekomendasikan Azure Blob Storage dan Azure Data Lake Storage.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario CV, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik tetapi mencakup langkah tambahan. Tim infrastruktur menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain untuk membuat proyek pelabelan dan anotasi gambar.
Pengembangan model (fase siklus dalam)

Fase lingkaran dalam terdiri dari alur kerja ilmu data iteratif yang dilakukan di dalam ruang kerja Pembelajaran Mesin yang khusus dan aman. Perbedaan utama antara alur kerja ini dan skenario pembelajaran mesin klasik adalah bahwa pelabelan gambar dan anotasi adalah komponen utama dari perulangan pengembangan ini.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (tahap iterasi luar)

Fase penyebaran model atau siklus luar terdiri dari tahap dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Untuk skenario CV, teknisi pembelajaran mesin tidak perlu melatih kembali kandidat model pada data produksi karena kendala sumber daya dan waktu. Tim ilmu data dapat menggunakan data produksi untuk pengembangan model. Model kandidat yang terdaftar dari loop pengembangan dievaluasi untuk persiapan produksi. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan performa model pada gambar baru. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Data dan pemantauan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario CV ketika penurunan performa model pada gambar baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan memberi anotasi gambar baru untuk model yang berkinerja buruk. Tindakan berikutnya sering kembali ke perulangan pengembangan model untuk memperbarui model dengan gambar baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang lingkungan, komputasi, dan sumber daya jaringan.

Pembelajaran Mesin arsitektur pemrosesan bahasa alami

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pemrosesan bahasa alami

Arsitektur pemrosesan bahasa alami Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki beberapa modifikasi yang khusus untuk skenario NLP.

Pengelolaan Sumber Data

Komponen ini menunjukkan infrastruktur data organisasi serta sumber dan sasaran data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario pemrosesan bahasa alami, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik, tetapi dengan langkah tambahan: membuat proyek pelabelan dan anotasi teks dengan menggunakan fitur pelabelan Machine Learning atau alat lain.
Pengembangan model (fase siklus dalam)

Fase lingkaran dalam terdiri dari alur kerja ilmu data iteratif yang dilakukan di dalam ruang kerja Pembelajaran Mesin yang khusus dan aman. Perulangan pengembangan model NLP yang khas berbeda dari skenario pembelajaran mesin klasik karena langkah-langkah pengembangan umum untuk skenario ini mencakup anotator untuk kalimat dan tokenisasi, normalisasi, dan penyematan untuk data teks.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (tahap iterasi luar)

Fase penyebaran model atau siklus luar terdiri dari tahap dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti pelatihan ulang dan pengujian kandidat model pada data produksi, pengujian penerapan untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, serta pengecekan AI bertanggung jawab untuk bias model dan data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data teks baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur mungkin mengidentifikasi masalah, seperti respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, dan masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Seperti halnya arsitektur CV, pemantauan data dan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario pemrosesan bahasa alami saat penurunan performa model pada teks baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan memberikan anotasi data teks baru untuk model yang kinerjanya kurang baik. Seringkali tindakan berikutnya adalah kembali ke perulangan pengembangan model untuk memperbarui model dengan data teks baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

Komponen

Pembelajaran Mesin adalah layanan cloud yang dapat Anda gunakan untuk melatih, menilai, menyebarkan, dan mengelola model pembelajaran mesin dalam skala besar.
Azure Pipelines adalah sistem build-and-test yang didasarkan pada Azure DevOps dan digunakan untuk alur build dan rilis. Azure Pipelines membagi alur ini menjadi langkah logis yang disebut tugas.
GitHub adalah platform hosting kode untuk kontrol versi, kolaborasi, dan alur kerja CI/CD.
Azure Arc adalah platform yang menggunakan Azure Resource Manager untuk mengelola sumber daya Azure dan sumber daya lokal. Sumber daya dapat mencakup komputer virtual, kluster Kubernetes, dan database.
Kubernetes adalah sistem sumber terbuka yang dapat Anda gunakan untuk mengotomatiskan penyebaran, penskalaan, dan manajemen aplikasi dalam kontainer.
Azure Data Lake Storage adalah sistem file yang kompatibel dengan Hadoop. Ini memiliki namespace hierarkis terintegrasi serta skala besar dan efisiensi biaya dari Blob Storage.
Azure Synapse Analytics adalah layanan analitik tak terbatas yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data.
Azure Event Hubs adalah layanan yang menyerap aliran data yang dihasilkan aplikasi klien. Kemudian menyerap dan menyimpan data streaming, yang mempertahankan urutan peristiwa yang diterima. Pelanggan dapat terhubung ke titik akhir hub untuk mengambil pesan untuk diproses. Arsitektur ini menggunakan integrasi Data Lake Storage.

Pertimbangan lain

Pola arsitektur MLOps v2 sebelumnya memiliki beberapa komponen penting, termasuk kontrol akses berbasis peran (RBAC) yang selaras dengan pemangku kepentingan bisnis, manajemen paket yang efisien, dan mekanisme pemantauan yang kuat. Komponen-komponen ini secara kolektif berkontribusi pada keberhasilan implementasi dan manajemen alur kerja pembelajaran mesin.

RBAC berbasis persona

Sangat penting bagi Anda untuk mengelola akses ke data dan sumber daya pembelajaran mesin. RBAC menyediakan kerangka kerja yang kuat untuk membantu Anda mengelola siapa yang dapat melakukan tindakan tertentu dan mengakses area tertentu dalam solusi Anda. Rancang strategi segmentasi identitas Anda untuk menyelaraskan dengan siklus hidup model pembelajaran mesin dalam Pembelajaran Mesin dan persona yang disertakan dalam proses. Setiap persona memiliki serangkaian tanggung jawab tertentu yang tercermin dalam peran RBAC dan keanggotaan grup mereka.

Contoh persona

Untuk mendukung segmentasi yang sesuai dalam beban kerja pembelajaran mesin, pertimbangkan persona umum berikut yang menginformasikan desain grup RBAC berbasis identitas.

Ilmuwan data dan insinyur pembelajaran mesin

Ilmuwan data dan insinyur pembelajaran mesin melakukan berbagai aktivitas pembelajaran mesin dan ilmu data di seluruh siklus hidup pengembangan perangkat lunak proyek. Tugas mereka termasuk analisis data eksploratif dan praproses data. Ilmuwan data dan insinyur pembelajaran mesin bertanggung jawab untuk melatih, mengevaluasi, dan menyebarkan model. Tanggung jawab peran ini juga mencakup aktivitas pemeliharaan dan perbaikan untuk model pembelajaran mesin, paket, dan data. Tugas-tugas ini berada di luar cakupan untuk tim dukungan teknis platform.