Operasi pembelajaran mesin

Artikel
16/07/2024

Artikel ini menjelaskan tiga arsitektur Azure untuk operasi pembelajaran mesin yang memiliki alur integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) end-to-end dan pelatihan ulang alur. Arsitekturnya adalah untuk aplikasi AI ini:

Pembelajaran mesin klasik
Computer vision (CV)
Pemrosesan bahasa alami

Arsitektur ini adalah produk dari proyek MLOps v2. Mereka menggabungkan praktik terbaik yang diidentifikasi oleh arsitek solusi dalam proses pengembangan berbagai solusi pembelajaran mesin. Hasilnya dapat disebarkan, diulang, dan dapat dipertahankan pola. Ketiga arsitektur menggunakan layanan Azure Pembelajaran Mesin.

Untuk implementasi dengan contoh templat penyebaran untuk MLOps v2, lihat Repositori GitHub Azure MLOps v2.

Kemungkinan kasus penggunaan

Pembelajaran mesin klasik: Prakiraan rangkaian waktu, regresi, dan klasifikasi pada data terstruktur tabular adalah kasus penggunaan yang paling umum dalam kategori ini. Contohnya meliputi:
- Klasifikasi biner dan multi-label.
- Regresi linier, polinomial, punggung bukit, lasso, kuantil, dan Bayesian.
- ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.
CV: Kerangka kerja MLOps dalam artikel ini sebagian besar berfokus pada kasus penggunaan CV segmentasi dan klasifikasi gambar.
Pemrosesan bahasa alami: Anda dapat menggunakan kerangka kerja MLOps ini untuk mengimplementasikan:
- Pengenalan entitas karakter:
- Klasifikasi teks
- Pembuatan teks
- Analisis sentimen
- Terjemahan
- Jawaban atas Pertanyaan
- Ringkasan
- Deteksi kalimat
- Deteksi bahasa
- Pemberian tag bagian ucapan

Simulasi AI, pembelajaran penguatan mendalam, dan bentuk AI lainnya tidak dijelaskan dalam artikel ini.

MLOps sebagai area desain utama untuk beban kerja AI

Perencanaan dan implementasi MLOps dan GenAIOps adalah area desain inti dalam beban kerja AI di Azure. Untuk mendapatkan latar belakang mengapa beban kerja pembelajaran mesin ini memerlukan operasi khusus, lihat MLOps dan GenAIOps untuk beban kerja AI di Azure di Azure Well-Architected Framework.

Sistem

Pola arsitektur MLOps v2 memiliki empat komponen modular utama, atau fase, dari siklus hidup MLOps:

Data estate
Administrasi dan penyiapan
Pengembangan model, atau fase perulangan dalam
Penyebaran model, atau fase perulangan luar

Komponen sebelumnya, koneksi di antara mereka, dan persona umum yang terlibat adalah standar di semua arsitektur skenario MLOps v2. Variasi dalam detail setiap komponen bergantung pada skenario.

Arsitektur dasar untuk MLOps v2 untuk Pembelajaran Mesin adalah skenario pembelajaran mesin klasik untuk data tabular. Arsitektur CV dan NLP dibangun dan memodifikasi arsitektur dasar ini.

MLOps v2 mencakup arsitektur berikut yang dijelaskan dalam artikel ini:

Arsitektur pembelajaran mesin klasik
arsitektur CV Pembelajaran Mesin
Pembelajaran Mesin arsitektur pemrosesan bahasa alami

Arsitektur pembelajaran mesin klasik

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pembelajaran mesin klasik

Data estate

Komponen ini menggambarkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen siklus hidup MLOps v2 ini. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber data dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran solusi MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Misalnya, tim infrastruktur mungkin:
1. Membuat repositori kode sumber proyek.
2. Gunakan Bicep atau Terraform untuk membuat ruang kerja Pembelajaran Mesin.
3. Membuat atau memodifikasi himpunan data dan sumber daya komputasi untuk pengembangan dan penyebaran model.
4. Tentukan pengguna tim proyek, peran mereka, dan kontrol akses ke sumber daya lain.
5. Membuat alur CI/CD.
6. Buat komponen pemantauan untuk mengumpulkan dan membuat pemberitahuan untuk metrik model dan infrastruktur.
Persona utama yang terkait dengan fase ini adalah tim infrastruktur, tetapi organisasi mungkin juga memiliki teknisi data, insinyur pembelajaran mesin, atau ilmuwan data.
Pengembangan model (fase perulangan dalam)

Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang bertindak dalam ruang kerja Pembelajaran Mesin khusus dan aman. Diagram sebelumnya memperlihatkan alur kerja umum. Proses dimulai dengan penyerapan data, bergerak melalui analisis data eksploratif, eksperimen, pengembangan dan evaluasi model, lalu mendaftarkan model untuk penggunaan produksi. Komponen modular ini bersifat agnostik dan dapat beradaptasi dengan proses yang digunakan tim ilmu data Anda untuk mengembangkan model.

Persona yang terkait dengan fase ini termasuk ilmuwan data dan insinyur pembelajaran mesin.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu, baik secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop, mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

Persona yang terkait dengan tahap ini biasanya adalah insinyur pembelajaran mesin.
Penyebaran model (fase perulangan luar)

Penyebaran model, atau fase perulangan luar, terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

Persona yang terkait dengan fase ini terutama insinyur pembelajaran mesin.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Berdasarkan kriteria model dan data, seperti ambang batas atau jadwal metrik, pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil. Misalnya, pemicu mungkin melatih kembali model untuk menggunakan data produksi baru lalu mengulang kembali model untuk penahapan dan pengujian evaluasi praproduksi. Atau masalah model atau data dapat memicu tindakan yang memerlukan loopback ke fase pengembangan model di mana ilmuwan data dapat menyelidiki masalah dan berpotensi mengembangkan model baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

arsitektur CV Pembelajaran Mesin

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur CV

Arsitektur CV Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki modifikasi yang khusus untuk skenario CV yang diawasi.

Data estate

Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Gambar untuk skenario CV dapat berasal dari berbagai sumber data. Untuk efisiensi saat mengembangkan dan menyebarkan model CV dengan Pembelajaran Mesin, kami merekomendasikan Azure Blob Storage dan Azure Data Lake Storage.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario CV, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik tetapi mencakup langkah tambahan. Tim infrastruktur menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain untuk membuat proyek pelabelan dan anotasi gambar.
Pengembangan model (fase perulangan dalam)

Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perbedaan utama antara alur kerja ini dan skenario pembelajaran mesin klasik adalah bahwa pelabelan gambar dan anotasi adalah komponen utama dari perulangan pengembangan ini.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (fase perulangan luar)

Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Untuk skenario CV, teknisi pembelajaran mesin tidak perlu melatih kembali kandidat model pada data produksi karena kendala sumber daya dan waktu. Tim ilmu data dapat menggunakan data produksi untuk pengembangan model. Model kandidat yang terdaftar dari loop pengembangan dievaluasi untuk produksi. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan performa model pada gambar baru. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Data dan pemantauan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario CV ketika penurunan performa model pada gambar baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Tindakan berikutnya sering kembali ke perulangan pengembangan model untuk memperbarui model dengan gambar baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang lingkungan, komputasi, dan sumber daya jaringan.

Pembelajaran Mesin arsitektur pemrosesan bahasa alami

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pemrosesan bahasa alami

Arsitektur pemrosesan bahasa alami Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki beberapa modifikasi yang khusus untuk skenario NLP.

Data estate

Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan

Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario pemrosesan bahasa alami, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik, tetapi dengan langkah tambahan: membuat proyek pelabelan dan anotasi gambar dengan menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain.
Pengembangan model (fase perulangan dalam)

Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perulangan pengembangan model NLP yang khas berbeda dari skenario pembelajaran mesin klasik karena langkah-langkah pengembangan umum untuk skenario ini mencakup anotator untuk kalimat dan tokenisasi, normalisasi, dan penyematan untuk data teks.
registri Pembelajaran Mesin

Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (fase perulangan luar)

Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian

Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi

Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan

Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data teks baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur mungkin mengidentifikasi masalah, seperti respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, dan masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan

Seperti halnya arsitektur CV, pemantauan data dan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario pemrosesan bahasa alami saat penurunan performa model pada teks baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Seringkali tindakan berikutnya adalah kembali ke perulangan pengembangan model untuk memperbarui model dengan data teks baru.
Pemantauan infrastruktur: peristiwa dan tindakan

Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

Komponen

Pembelajaran Mesin adalah layanan cloud yang dapat Anda gunakan untuk melatih, menilai, menyebarkan, dan mengelola model pembelajaran mesin dalam skala besar.
Azure Pipelines adalah sistem build-and-test yang didasarkan pada Azure DevOps dan digunakan untuk alur build dan rilis. Azure Pipelines membagi alur ini menjadi langkah logis yang disebut tugas.
GitHub adalah platform hosting kode untuk kontrol versi, kolaborasi, dan alur kerja CI/CD.
Azure Arc adalah platform yang menggunakan Azure Resource Manager untuk mengelola sumber daya Azure dan sumber daya lokal. Sumber daya dapat mencakup komputer virtual, kluster Kubernetes, dan database.
Kubernetes adalah sistem sumber terbuka yang dapat Anda gunakan untuk mengotomatiskan penyebaran, penskalaan, dan manajemen aplikasi dalam kontainer.
Azure Data Lake Storage adalah sistem file yang kompatibel dengan Hadoop. Ini memiliki namespace hierarkis terintegrasi dan skala besar dan ekonomi Blob Storage.
Azure Synapse Analytics adalah layanan analitik tak terbatas yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data.
Azure Event Hubs adalah layanan yang menyerap aliran data yang dihasilkan aplikasi klien. Kemudian menyerap dan menyimpan data streaming, yang mempertahankan urutan peristiwa yang diterima. Pelanggan dapat terhubung ke titik akhir hub untuk mengambil pesan untuk diproses. Arsitektur ini menggunakan integrasi Data Lake Storage.

Pertimbangan lain

Pola arsitektur MLOps v2 sebelumnya memiliki beberapa komponen penting, termasuk kontrol akses berbasis peran (RBAC) yang selaras dengan pemangku kepentingan bisnis, manajemen paket yang efisien, dan mekanisme pemantauan yang kuat. Komponen-komponen ini secara kolektif berkontribusi pada keberhasilan implementasi dan manajemen alur kerja pembelajaran mesin.

RBAC berbasis persona

Sangat penting bagi Anda untuk mengelola akses ke data dan sumber daya pembelajaran mesin. RBAC menyediakan kerangka kerja yang kuat untuk membantu Anda mengelola siapa yang dapat melakukan tindakan tertentu dan mengakses area tertentu dalam solusi Anda. Rancang strategi segmentasi identitas Anda untuk menyelaraskan dengan siklus hidup model pembelajaran mesin dalam Pembelajaran Mesin dan persona yang disertakan dalam proses. Setiap persona memiliki serangkaian tanggung jawab tertentu yang tercermin dalam peran RBAC dan keanggotaan grup mereka.

Contoh persona

Untuk mendukung segmentasi yang sesuai dalam beban kerja pembelajaran mesin, pertimbangkan persona umum berikut yang menginformasikan desain grup RBAC berbasis identitas.

Ilmuwan data dan insinyur pembelajaran mesin

Ilmuwan data dan insinyur pembelajaran mesin melakukan berbagai aktivitas pembelajaran mesin dan ilmu data di seluruh siklus hidup pengembangan perangkat lunak proyek. Tugas mereka termasuk analisis data eksploratif dan praproses data. Ilmuwan data dan insinyur pembelajaran mesin bertanggung jawab untuk melatih, mengevaluasi, dan menyebarkan model. Tanggung jawab peran ini juga mencakup aktivitas break-fix untuk model, paket, dan data pembelajaran mesin. Tugas-tugas ini berada di luar cakupan untuk tim dukungan teknis platform.