Operasi pembelajaran mesin
Artikel ini menjelaskan tiga arsitektur Azure untuk operasi pembelajaran mesin yang memiliki alur integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) end-to-end dan pelatihan ulang alur. Arsitekturnya adalah untuk aplikasi AI ini:
- Pembelajaran mesin klasik
- Computer vision (CV)
- Pemrosesan bahasa alami
Arsitektur ini adalah produk dari proyek MLOps v2. Mereka menggabungkan praktik terbaik yang diidentifikasi oleh arsitek solusi dalam proses pengembangan berbagai solusi pembelajaran mesin. Hasilnya dapat disebarkan, diulang, dan dapat dipertahankan pola. Ketiga arsitektur menggunakan layanan Azure Pembelajaran Mesin.
Untuk implementasi dengan contoh templat penyebaran untuk MLOps v2, lihat Repositori GitHub Azure MLOps v2.
Kemungkinan kasus penggunaan
Pembelajaran mesin klasik: Prakiraan rangkaian waktu, regresi, dan klasifikasi pada data terstruktur tabular adalah kasus penggunaan yang paling umum dalam kategori ini. Contohnya meliputi:
Klasifikasi biner dan multi-label.
Regresi linier, polinomial, punggung bukit, lasso, kuantil, dan Bayesian.
ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.
CV: Kerangka kerja MLOps dalam artikel ini sebagian besar berfokus pada kasus penggunaan CV segmentasi dan klasifikasi gambar.
Pemrosesan bahasa alami: Anda dapat menggunakan kerangka kerja MLOps ini untuk mengimplementasikan:
Pengenalan entitas karakter:
Klasifikasi teks
Pembuatan teks
Analisis sentimen
Terjemahan
Jawaban atas Pertanyaan
Ringkasan
Deteksi kalimat
Deteksi bahasa
Pemberian tag bagian ucapan
Simulasi AI, pembelajaran penguatan mendalam, dan bentuk AI lainnya tidak dijelaskan dalam artikel ini.
Sistem
Pola arsitektur MLOps v2 memiliki empat komponen modular utama, atau fase, dari siklus hidup MLOps:
- Data estate
- Administrasi dan penyiapan
- Pengembangan model, atau fase perulangan dalam
- Penyebaran model, atau fase perulangan luar
Komponen sebelumnya, koneksi di antara mereka, dan persona umum yang terlibat adalah standar di semua arsitektur skenario MLOps v2. Variasi dalam detail setiap komponen bergantung pada skenario.
Arsitektur dasar untuk MLOps v2 untuk Pembelajaran Mesin adalah skenario pembelajaran mesin klasik untuk data tabular. Arsitektur CV dan NLP dibangun dan memodifikasi arsitektur dasar ini.
MLOps v2 mencakup arsitektur berikut yang dijelaskan dalam artikel ini:
- Arsitektur pembelajaran mesin klasik
- arsitektur CV Pembelajaran Mesin
- Pembelajaran Mesin arsitektur pemrosesan bahasa alami
Arsitektur pembelajaran mesin klasik
Unduh file Visio arsitektur ini.
Alur kerja untuk arsitektur pembelajaran mesin klasik
Data estate
Komponen ini menggambarkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen siklus hidup MLOps v2 ini. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber data dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan
Komponen ini adalah langkah pertama dalam penyebaran solusi MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Misalnya, tim infrastruktur mungkin:
- Membuat repositori kode sumber proyek.
- Gunakan Bicep atau Terraform untuk membuat ruang kerja Pembelajaran Mesin.
- Membuat atau memodifikasi himpunan data dan sumber daya komputasi untuk pengembangan dan penyebaran model.
- Tentukan pengguna tim proyek, peran mereka, dan kontrol akses ke sumber daya lain.
- Membuat alur CI/CD.
- Buat komponen pemantauan untuk mengumpulkan dan membuat pemberitahuan untuk metrik model dan infrastruktur.
Persona utama yang terkait dengan fase ini adalah tim infrastruktur, tetapi organisasi mungkin juga memiliki teknisi data, insinyur pembelajaran mesin, atau ilmuwan data.
Pengembangan model (fase perulangan dalam)
Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang bertindak dalam ruang kerja Pembelajaran Mesin khusus dan aman. Diagram sebelumnya memperlihatkan alur kerja umum. Proses dimulai dengan penyerapan data, bergerak melalui analisis data eksploratif, eksperimen, pengembangan dan evaluasi model, lalu mendaftarkan model untuk penggunaan produksi. Komponen modular ini bersifat agnostik dan dapat beradaptasi dengan proses yang digunakan tim ilmu data Anda untuk mengembangkan model.
Persona yang terkait dengan fase ini termasuk ilmuwan data dan insinyur pembelajaran mesin.
registri Pembelajaran Mesin
Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu, baik secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop, mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Persona yang terkait dengan tahap ini biasanya adalah insinyur pembelajaran mesin.
Penyebaran model (fase perulangan luar)
Penyebaran model, atau fase perulangan luar, terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Persona yang terkait dengan fase ini terutama insinyur pembelajaran mesin.
Penahapan dan pengujian
Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi
Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan
Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan
Berdasarkan kriteria model dan data, seperti ambang batas atau jadwal metrik, pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil. Misalnya, pemicu mungkin melatih kembali model untuk menggunakan data produksi baru lalu mengulang kembali model untuk penahapan dan pengujian evaluasi praproduksi. Atau masalah model atau data dapat memicu tindakan yang memerlukan loopback ke fase pengembangan model di mana ilmuwan data dapat menyelidiki masalah dan berpotensi mengembangkan model baru.
Pemantauan infrastruktur: peristiwa dan tindakan
Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.
arsitektur CV Pembelajaran Mesin
Unduh file Visio arsitektur ini.
Alur kerja untuk arsitektur CV
Arsitektur CV Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki modifikasi yang khusus untuk skenario CV yang diawasi.
Data estate
Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Gambar untuk skenario CV dapat berasal dari berbagai sumber data. Untuk efisiensi saat mengembangkan dan menyebarkan model CV dengan Pembelajaran Mesin, kami merekomendasikan Azure Blob Storage dan Azure Data Lake Storage.
Administrasi dan penyiapan
Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario CV, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik tetapi mencakup langkah tambahan. Tim infrastruktur menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain untuk membuat proyek pelabelan dan anotasi gambar.
Pengembangan model (fase perulangan dalam)
Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perbedaan utama antara alur kerja ini dan skenario pembelajaran mesin klasik adalah bahwa pelabelan gambar dan anotasi adalah komponen utama dari perulangan pengembangan ini.
registri Pembelajaran Mesin
Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (fase perulangan luar)
Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian
Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Untuk skenario CV, teknisi pembelajaran mesin tidak perlu melatih kembali kandidat model pada data produksi karena kendala sumber daya dan waktu. Tim ilmu data dapat menggunakan data produksi untuk pengembangan model. Model kandidat yang terdaftar dari loop pengembangan dievaluasi untuk produksi. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi
Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan
Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan performa model pada gambar baru. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan
Data dan pemantauan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario CV ketika penurunan performa model pada gambar baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Tindakan berikutnya sering kembali ke perulangan pengembangan model untuk memperbarui model dengan gambar baru.
Pemantauan infrastruktur: peristiwa dan tindakan
Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang lingkungan, komputasi, dan sumber daya jaringan.
Pembelajaran Mesin arsitektur pemrosesan bahasa alami
Unduh file Visio arsitektur ini.
Alur kerja untuk arsitektur pemrosesan bahasa alami
Arsitektur pemrosesan bahasa alami Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki beberapa modifikasi yang khusus untuk skenario NLP.
Data estate
Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.
Administrasi dan penyiapan
Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario pemrosesan bahasa alami, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik, tetapi dengan langkah tambahan: membuat proyek pelabelan dan anotasi gambar dengan menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain.
Pengembangan model (fase perulangan dalam)
Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perulangan pengembangan model NLP yang khas berbeda dari skenario pembelajaran mesin klasik karena langkah-langkah pengembangan umum untuk skenario ini mencakup anotator untuk kalimat dan tokenisasi, normalisasi, dan penyematan untuk data teks.
registri Pembelajaran Mesin
Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.
Penyebaran model (fase perulangan luar)
Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.
Penahapan dan pengujian
Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Penyebaran produksi
Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.
Pemantauan
Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data teks baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur mungkin mengidentifikasi masalah, seperti respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, dan masalah jaringan.
Pemantauan data dan model: peristiwa dan tindakan
Seperti halnya arsitektur CV, pemantauan data dan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario pemrosesan bahasa alami saat penurunan performa model pada teks baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Seringkali tindakan berikutnya adalah kembali ke perulangan pengembangan model untuk memperbarui model dengan data teks baru.
Pemantauan infrastruktur: peristiwa dan tindakan
Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.
Komponen
Pembelajaran Mesin adalah layanan cloud yang dapat Anda gunakan untuk melatih, menilai, menyebarkan, dan mengelola model pembelajaran mesin dalam skala besar.
Azure Pipelines adalah sistem build-and-test yang didasarkan pada Azure DevOps dan digunakan untuk alur build dan rilis. Azure Pipelines membagi alur ini menjadi langkah logis yang disebut tugas.
GitHub adalah platform hosting kode untuk kontrol versi, kolaborasi, dan alur kerja CI/CD.
Azure Arc adalah platform yang menggunakan Azure Resource Manager untuk mengelola sumber daya Azure dan sumber daya lokal. Sumber daya dapat mencakup komputer virtual, kluster Kubernetes, dan database.
Kubernetes adalah sistem sumber terbuka yang dapat Anda gunakan untuk mengotomatiskan penyebaran, penskalaan, dan manajemen aplikasi dalam kontainer.
Azure Data Lake Storage adalah sistem file yang kompatibel dengan Hadoop. Ini memiliki namespace hierarkis terintegrasi dan skala besar dan ekonomi Blob Storage.
Azure Synapse Analytics adalah layanan analitik tak terbatas yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data.
Azure Event Hubs adalah layanan yang menyerap aliran data yang dihasilkan aplikasi klien. Kemudian menyerap dan menyimpan data streaming, yang mempertahankan urutan peristiwa yang diterima. Pelanggan dapat terhubung ke titik akhir hub untuk mengambil pesan untuk diproses. Arsitektur ini menggunakan integrasi Data Lake Storage.
Pertimbangan lain
Pola arsitektur MLOps v2 sebelumnya memiliki beberapa komponen penting, termasuk kontrol akses berbasis peran (RBAC) yang selaras dengan pemangku kepentingan bisnis, manajemen paket yang efisien, dan mekanisme pemantauan yang kuat. Komponen-komponen ini secara kolektif berkontribusi pada keberhasilan implementasi dan manajemen alur kerja pembelajaran mesin.
RBAC berbasis persona
Sangat penting bagi Anda untuk mengelola akses ke data dan sumber daya pembelajaran mesin. RBAC menyediakan kerangka kerja yang kuat untuk membantu Anda mengelola siapa yang dapat melakukan tindakan tertentu dan mengakses area tertentu dalam solusi Anda. Rancang strategi segmentasi identitas Anda untuk menyelaraskan dengan siklus hidup model pembelajaran mesin dalam Pembelajaran Mesin dan persona yang disertakan dalam proses. Setiap persona memiliki serangkaian tanggung jawab tertentu yang tercermin dalam peran RBAC dan keanggotaan grup mereka.
Contoh persona
Untuk mendukung segmentasi yang sesuai dalam beban kerja pembelajaran mesin, pertimbangkan persona umum berikut yang menginformasikan desain grup RBAC berbasis identitas.
Ilmuwan data dan insinyur pembelajaran mesin
Ilmuwan data dan insinyur pembelajaran mesin melakukan berbagai aktivitas pembelajaran mesin dan ilmu data di seluruh siklus hidup pengembangan perangkat lunak proyek. Tugas mereka termasuk analisis data eksploratif dan praproses data. Ilmuwan data dan insinyur pembelajaran mesin bertanggung jawab untuk melatih, mengevaluasi, dan menyebarkan model. Tanggung jawab peran ini juga mencakup aktivitas break-fix untuk model, paket, dan data pembelajaran mesin. Tugas-tugas ini berada di luar cakupan untuk tim dukungan teknis platform.
Jenis: Orang
Spesifik proyek: Ya
Analis data
Analis data memberikan input yang diperlukan untuk aktivitas ilmu data, seperti menjalankan kueri SQL untuk kecerdasan bisnis. Tanggung jawab peran ini termasuk bekerja dengan data, melakukan analisis data, dan mendukung pengembangan model dan penyebaran model.
Jenis: Orang
Spesifik proyek: Ya
Penguji model
Penguji model melakukan pengujian di lingkungan pengujian dan penahapan. Peran ini menyediakan pemisahan fungsi dari proses CI/CD.
Jenis: Orang
Spesifik proyek: Ya
Pemangku kepentingan bisnis
Pemangku kepentingan bisnis dikaitkan dengan proyek, seperti manajer pemasaran.
Jenis: Orang
Spesifik proyek: Ya
Prospek proyek atau prospek ilmu data
Prospek ilmu data adalah peran administrasi proyek untuk ruang kerja Pembelajaran Mesin. Peran ini juga melakukan aktivitas break-fix untuk model dan paket pembelajaran mesin.
Jenis: Orang
Spesifik proyek: Ya
Pemilik proyek atau produk (Pemilik bisnis)
Pemangku kepentingan bisnis bertanggung jawab atas ruang kerja Pembelajaran Mesin sesuai dengan kepemilikan data.
Jenis: Orang
Spesifik proyek: Ya
Dukungan teknis platform
Dukungan teknis platform adalah staf dukungan teknis yang bertanggung jawab untuk aktivitas break-fix di seluruh platform. Peran ini mencakup infrastruktur atau layanan tetapi bukan model, paket, atau data pembelajaran mesin. Komponen-komponen ini tetap berada di bawah peran ilmuwan data atau insinyur pembelajaran mesin dan merupakan tanggung jawab prospek proyek.
Jenis: Orang
Spesifik proyek: Tidak
Pengguna akhir model
Pengguna akhir model adalah konsumen akhir dari model pembelajaran mesin.
Jenis: Orang atau Proses
Spesifik proyek: Ya
Proses CI/CD
PROSES CI/CD merilis atau mengembalikan perubahan di seluruh lingkungan platform.
Jenis: Proses
Spesifik proyek: Tidak
Ruang kerja Azure Machine Learning
Pembelajaran Mesin ruang kerja menggunakan identitas terkelola untuk berinteraksi dengan bagian lain dari Azure. Persona ini mewakili berbagai layanan yang membentuk implementasi Pembelajaran Mesin. Layanan ini berinteraksi dengan bagian lain dari platform, seperti ruang kerja pengembangan yang terhubung dengan penyimpanan data pengembangan.
Jenis: Proses
Spesifik proyek: Tidak
Proses pemantauan
Proses pemantauan adalah proses komputasi yang memantau dan memperingatkan berdasarkan aktivitas platform.
Jenis: Proses
Spesifik proyek: Tidak
Proses tata kelola data
Proses tata kelola data memindai proyek pembelajaran mesin dan penyimpanan data untuk tata kelola data.
Jenis: Proses
Spesifik proyek: Tidak
Keanggotaan grup Microsoft Entra
Saat Anda menerapkan RBAC, grup Microsoft Entra menyediakan cara yang fleksibel dan dapat diskalakan untuk mengelola izin akses di berbagai persona. Anda dapat menggunakan grup Microsoft Entra untuk mengelola pengguna yang memerlukan akses dan izin yang sama ke sumber daya, seperti aplikasi dan layanan yang berpotensi dibatasi. Alih-alih menambahkan izin khusus ke pengguna individual, Anda membuat grup yang menerapkan izin khusus untuk setiap anggota grup tersebut.
Dalam pola arsitektur ini, Anda dapat menggandeng grup ini dengan penyiapan ruang kerja Pembelajaran Mesin, seperti proyek, tim, atau departemen. Anda dapat mengaitkan pengguna dengan grup tertentu untuk menentukan kebijakan akses halus. Kebijakan memberikan atau membatasi izin ke berbagai Pembelajaran Mesin ruang kerja berdasarkan fungsi pekerjaan, persyaratan proyek, atau kriteria lainnya. Misalnya, Anda dapat memiliki grup yang memberikan semua ilmuwan data akses ke ruang kerja pengembangan untuk kasus penggunaan tertentu.
RBAC Identitas
Pertimbangkan bagaimana Anda dapat menggunakan peran Azure RBAC bawaan berikut untuk menerapkan RBAC ke lingkungan produksi dan praproduksi. Untuk arsitektur dalam artikel ini, lingkungan produksi termasuk lingkungan penahapan, pengujian, dan produksi. Lingkungan praproduksi mencakup lingkungan pengembangan. Peran RBAC berikut didasarkan pada persona yang dijelaskan sebelumnya dalam artikel ini.
Peran standar
- R = Pembaca
- C = Kontributor
- O = Pemilik
Peran spesifik komponen
AcrPush = Azure Container Registry Push
DOPA = Administrator Proyek DevOps
LAR = Pembaca Analitik Log
LAC = Kontributor Analitik Log
MR = Pembaca Pemantauan
KVA = Administrator Key Vault
KVR = Pembaca Key Vault
Singkatan peran Azure RBAC ini sesuai dengan tabel berikut.
Lingkungan produksi
Persona | Ruang kerja Azure Machine Learning | Azure Key Vault | Container Registry | Akun Azure Storage | Azure DevOps | Azure Artifacts | Ruang kerja Analitik Log | Azure Monitor |
---|---|---|---|---|---|---|---|---|
Saintis data | R | LAR | MR | |||||
Analis data | ||||||||
Penguji model | ||||||||
Pemangku kepentingan bisnis | MR | |||||||
Prospek proyek (Prospek ilmu data) | R | R, KVR | R | LAR | MR | |||
Pemilik proyek/produk | MR | |||||||
Dukungan teknis platform | O | O, KVA | DOPCA | O | O | O | ||
Pengguna akhir model | ||||||||
Proses CI/CD | O | O, KVA | AcrPush | DOPCA | O | O | O | |
Ruang kerja Azure Machine Learning | R | C | C | |||||
Proses pemantauan | R | LAR | MR | |||||
Proses tata kelola data | R | R | R | R | R |
Lingkungan praproduksi
Persona | Ruang kerja Azure Machine Learning | Key Vault | Container Registry | Akun Penyimpanan | Azure DevOps | Azure Artifacts | Ruang kerja Analitik Log | Azure Monitor |
---|---|---|---|---|---|---|---|---|
Saintis data | ADS | R, KVA | C | C | C | C | LAC | MC |
Analis data | R | C | LAR | MC | ||||
Penguji model | R | R, KVR | R | R | R | R | LAR | MR |
Pemangku kepentingan bisnis | R | R | R | R | R | |||
Prospek proyek (Prospek ilmu data) | C | C, KVA | C | C | C | C | LAC | MC |
Pemilik proyek/produk | R | R | MR | |||||
Dukungan teknis platform | O | O, KVA | O | O | DOPCA | O | O | O |
Pengguna akhir model | ||||||||
Proses CI/CD | O | O, KVA | AcrPush | O | DOPCA | O | O | O |
Ruang kerja Azure Machine Learning | R, KVR | C | C | |||||
Proses pemantauan | R | R | R | R | R | R | LAC | |
Proses tata kelola data | R | R | R |
Catatan
Setiap persona mempertahankan akses untuk durasi proyek kecuali dukungan teknis platform, yang memiliki akses Microsoft Entra Privileged Identity Management (PIM) sementara atau just-in-time.
RBAC memainkan peran penting dalam mengamankan dan menyederhanakan alur kerja MLOps. RBAC membatasi akses berdasarkan peran yang ditetapkan dan mencegah pengguna yang tidak sah mengakses data sensitif, yang mengurangi risiko keamanan. Data sensitif mencakup data atau model pelatihan dan infrastruktur penting, seperti alur produksi. Anda dapat menggunakan RBAC untuk memastikan kepatuhan terhadap peraturan privasi data. RBAC juga menyediakan catatan akses dan izin yang jelas, yang menyederhanakan audit, memudahkan untuk mengidentifikasi kesenjangan keamanan, dan melacak aktivitas pengguna.
Pengelolaan paket
Dependensi pada berbagai paket, pustaka, dan biner umum sepanjang siklus hidup MLOps. Dependensi ini, seringkali dikembangkan oleh komunitas dan berkembang dengan cepat, mengharuskan pengetahuan ahli materi pelajaran untuk penggunaan dan pemahaman yang tepat. Anda harus memastikan bahwa orang yang sesuai memiliki akses aman ke aset yang beragam, seperti paket dan pustaka, tetapi Anda juga harus mencegah kerentanan. Ilmuwan data mengalami masalah ini ketika mereka merakit blok bangunan khusus untuk solusi pembelajaran mesin. Pendekatan manajemen perangkat lunak tradisional mahal dan tidak efisien. Pendekatan lain memberikan nilai lebih.
Untuk mengelola dependensi ini, Anda dapat menggunakan proses manajemen paket yang aman dan mandiri berdasarkan pola Karantina. Anda dapat merancang proses ini untuk memungkinkan ilmuwan data melayani mandiri dari daftar paket yang dikumpulkan dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi.
Pendekatan ini mencakup daftar aman tiga repositori paket pembelajaran mesin standar industri: Registri Artefak Microsoft, Indeks Paket Python (PyPI), dan Conda. Daftar aman memungkinkan layanan mandiri dari ruang kerja Pembelajaran Mesin individual. Kemudian gunakan proses pengujian otomatis selama penyebaran untuk memindai kontainer solusi yang dihasilkan. Kegagalan secara elegan keluar dari proses penyebaran dan menghapus kontainer. Diagram dan alur proses berikut menunjukkan proses ini:
Aliran proses
Ilmuwan data yang bekerja di ruang kerja Pembelajaran Mesin yang memiliki konfigurasi jaringan dapat melayani sendiri paket pembelajaran mesin sesuai permintaan dari repositori paket pembelajaran mesin. Proses pengecualian diperlukan untuk segala sesuatu yang lain dengan menggunakan pola penyimpanan privat, yang disemai dan dikelola dengan menggunakan fungsi terpusat.
Pembelajaran Mesin memberikan solusi pembelajaran mesin sebagai kontainer Docker. Saat solusi ini dikembangkan, solusi ini diunggah ke Container Registry. Pertahanan Microsoft untuk Kontainer menghasilkan penilaian kerentanan untuk gambar kontainer.
Penyebaran solusi terjadi melalui proses CI/CD. Pertahanan Microsoft untuk DevOps digunakan di seluruh tumpukan untuk memberikan manajemen postur keamanan dan perlindungan ancaman.
Kontainer solusi disebarkan hanya jika melewati setiap proses keamanan. Jika kontainer solusi gagal dalam proses keamanan, penyebaran gagal dengan pemberitahuan kesalahan dan jejak audit penuh. Kontainer solusi dibuang.
Alur proses sebelumnya menyediakan proses manajemen paket yang aman, mandiri untuk ilmuwan data dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi. Untuk menyeimbangkan inovasi dan keamanan, Anda dapat memberikan ilmuwan data akses layanan mandiri ke paket, pustaka, dan biner pembelajaran mesin umum di lingkungan praproduksi. Memerlukan pengecualian untuk paket yang kurang umum. Strategi ini memastikan bahwa ilmuwan data dapat tetap produktif selama pengembangan, yang mencegah hambatan besar selama pengiriman.
Untuk menyederhanakan proses rilis Anda, kontainerisasi lingkungan untuk digunakan di lingkungan produksi. Lingkungan kontainer mengurangi toil dan memastikan keamanan berkelanjutan melalui pemindaian kerentanan. Alur proses ini menyediakan pendekatan berulang yang dapat Anda gunakan di seluruh kasus penggunaan hingga waktu pengiriman. Ini mengurangi biaya keseluruhan untuk membangun dan menyebarkan solusi pembelajaran mesin dalam perusahaan Anda.
Pemantauan
Dalam MLOps, pemantauan sangat penting untuk menjaga kesehatan dan performa sistem pembelajaran mesin dan memastikan bahwa model tetap efektif dan selaras dengan tujuan bisnis. Pemantauan mendukung kontrol tata kelola, keamanan, dan biaya selama fase perulangan dalam. Dan memberikan pengamatan ke dalam performa, degradasi model, dan penggunaan saat menyebarkan solusi selama fase perulangan luar. Aktivitas pemantauan relevan untuk persona seperti Ilmuwan Data, Pemangku Kepentingan Bisnis, Prospek Proyek, Pemilik Proyek, Dukungan Teknis Platform, proses CI/CD, dan Proses Pemantauan.
Pilih platform pemantauan dan verifikasi Anda tergantung pada penyiapan ruang kerja Pembelajaran Mesin Anda, seperti proyek, tim, atau departemen.
Performa model
Pantau performa model untuk mendeteksi masalah model dan penurunan performa lebih awal. Lacak performa untuk memastikan bahwa model tetap akurat, andal, dan selaras dengan tujuan bisnis.
Penyimpangan data
Penyimpangan data melacak perubahan dalam distribusi data input model dengan membandingkannya dengan data pelatihan model atau data produksi sebelumnya. Perubahan ini adalah hasil dari perubahan dinamika pasar, perubahan transformasi fitur, atau perubahan data hulu. Perubahan tersebut dapat menurunkan performa model, jadi penting untuk memantau penyimpangan untuk memastikan remediasi tepat waktu. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.
Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model
Penyimpangan prediksi
Penyimpangan prediksi melacak perubahan dalam distribusi output prediksi model dengan membandingkannya dengan validasi, berlabel pengujian, atau data produksi terbaru. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.
Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model
Sumber daya
Gunakan beberapa model yang melayani metrik titik akhir untuk menunjukkan kualitas dan performa, seperti penggunaan CPU atau memori. Pendekatan ini membantu Anda belajar dari produksi untuk membantu mendorong investasi atau perubahan di masa mendatang.
Lingkungan: Semua
Fasilitasi Azure: Monitor - Metrik titik akhir online
Metrik penggunaan
Pantau penggunaan titik akhir untuk memastikan bahwa Anda memenuhi indikator performa utama khusus organisasi atau beban kerja, melacak pola penggunaan, dan mendiagnosis dan memulihkan masalah yang dialami pengguna Anda.
Permintaan klien
Lacak jumlah permintaan klien ke titik akhir model untuk memahami profil penggunaan aktif titik akhir, yang dapat memengaruhi upaya penskalaan atau pengoptimalan biaya.
Lingkungan: Produksi
Fasilitasi Azure: Monitor - Metrik titik akhir online, seperti RequestsPerMinute.
Catatan:
- Anda dapat menyelaraskan ambang batas yang dapat diterima dengan ukuran t-shirt atau anomali yang disesuaikan dengan kebutuhan beban kerja Anda.
- Menghentikan model yang tidak lagi digunakan dari produksi.
Penundaan pembatasan
Penundaan pembatasan adalah perlambatan dalam permintaan dan respons transfer data. Pembatasan terjadi di tingkat Resource Manager dan tingkat layanan. Lacak metrik di kedua tingkat.
Lingkungan: Produksi
Fasilitasi Azure:
- Monitor - Resource Manager, jumlah RequestThrottlingDelayMs, ResponseThrottlingDelayMs.
- Pembelajaran Mesin - Untuk memeriksa informasi tentang permintaan titik akhir, Anda dapat mengaktifkan log lalu lintas titik akhir online. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.
Catatan: Selaraskan ambang batas yang dapat diterima ke tujuan tingkat layanan (SMO) atau perjanjian tingkat layanan (SLA) beban kerja Anda dan persyaratan nonfungsi solusi (NFR).
Kesalahan yang dihasilkan
Lacak kesalahan kode respons untuk membantu mengukur keandalan layanan dan memastikan deteksi dini masalah layanan. Misalnya, peningkatan mendadak dalam 500 respons kesalahan server dapat menunjukkan masalah kritis yang membutuhkan perhatian segera.
Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin - Aktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang permintaan Anda. Misalnya, Anda dapat memeriksa jumlah XRequestId dengan menggunakan ModelStatusCode atau ModelStatusReason. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.
Catatan:
- Semua kode respons HTTP dalam rentang 400 dan 500 diklasifikasikan sebagai kesalahan.
Pengoptimalan biaya
Manajemen dan pengoptimalan biaya di lingkungan cloud sangat penting karena membantu beban kerja mengontrol pengeluaran, mengalokasikan sumber daya secara efisien, dan memaksimalkan nilai dari layanan cloud mereka.
Komputasi ruang kerja
Ketika pengeluaran operasi bulanan mencapai atau melebihi jumlah yang telah ditentukan sebelumnya, buat pemberitahuan untuk memberi tahu pemangku kepentingan yang relevan, seperti prospek proyek atau pemilik proyek, berdasarkan batas penyiapan ruang kerja. Anda dapat menentukan penyiapan ruang kerja berdasarkan batas proyek, tim, atau departemen terkait.
Lingkungan: Semua
Fasilitasi Azure: Microsoft Cost Management - Pemberitahuan anggaran
Catatan:
- Tetapkan ambang batas anggaran berdasarkan NFR awal dan perkiraan biaya.
- Gunakan beberapa tingkat ambang batas. Beberapa tingkat ambang memastikan bahwa pemangku kepentingan mendapatkan peringatan yang sesuai sebelum anggaran terlampaui. Pemangku kepentingan ini mungkin mencakup prospek bisnis, pemilik proyek, atau Prospek proyek tergantung pada organisasi atau beban kerja.
- Pemberitahuan anggaran yang konsisten juga dapat menjadi pemicu untuk pemfaktoran ulang untuk mendukung permintaan yang lebih besar.
Kedaluarsa ruang kerja
Jika ruang kerja Pembelajaran Mesin tidak menunjukkan tanda-tanda penggunaan aktif berdasarkan penggunaan komputasi terkait untuk kasus penggunaan yang dimaksudkan, pemilik proyek mungkin menonaktifkan ruang kerja jika tidak lagi diperlukan untuk proyek tertentu.
Lingkungan: Praproduksi
Fasilitasi Azure:
- Monitor - metrik Pembelajaran Mesin
- Pembelajaran Mesin - Metrik ruang kerja, seperti jumlah inti aktif selama jangka waktu tertentu
Catatan:
- Inti aktif harus sama dengan nol dengan agregasi jumlah.
- Ratakan ambang tanggal ke jadwal proyek.
Keamanan
Pantau untuk mendeteksi penyimpangan dari kontrol dan garis besar keamanan yang sesuai untuk memastikan bahwa ruang kerja Pembelajaran Mesin mematuhi kebijakan keamanan organisasi Anda. Anda dapat menggunakan kombinasi kebijakan yang telah ditentukan dan ditentukan khusus.
Lingkungan: Semua
Fasilitasi Azure: Azure Policy untuk Pembelajaran Mesin
Keamanan titik akhir
Untuk mendapatkan visibilitas ke API penting bagi bisnis, terapkan pemantauan keamanan yang ditargetkan dari semua titik akhir Pembelajaran Mesin. Anda dapat menyelidiki dan meningkatkan postur keamanan API Anda, memprioritaskan perbaikan kerentanan, dan dengan cepat mendeteksi ancaman real time aktif.
Lingkungan: Produksi
Fasilitasi Azure: Microsoft Defender for API menawarkan perlindungan siklus hidup, deteksi, dan cakupan respons yang luas untuk API.
Catatan: Defender untuk API menyediakan keamanan untuk API yang diterbitkan di Azure API Management. Anda dapat melakukan onboardIng Defender untuk API di portal Microsoft Defender untuk Cloud atau dalam instans API Management di portal Azure. Anda harus mengintegrasikan Pembelajaran Mesin titik akhir online dengan API Management.
Pemantauan penyebaran
Pemantauan penyebaran memastikan bahwa setiap titik akhir yang Anda buat mematuhi beban kerja atau kebijakan organisasi Anda dan bebas dari kerentanan. Proses ini mengharuskan Anda menerapkan kebijakan kepatuhan pada sumber daya Azure Anda sebelum dan sesudah penyebaran, memberikan keamanan berkelanjutan melalui pemindaian kerentanan, dan memastikan bahwa layanan memenuhi SCO saat beroperasi.
Standar dan tata kelola
Pantau untuk mendeteksi penyimpangan dari standar yang sesuai dan pastikan beban kerja Anda mematuhi pagar pembatas.
Lingkungan: Semua
Fasilitasi Azure:
- Penetapan kebijakan terkelola dan siklus hidup melalui Azure Pipelines untuk memperlakukan kebijakan sebagai kode.
- PSRule untuk Azure menyediakan kerangka kerja pengujian untuk infrastruktur Azure sebagai kode.
- Anda dapat menggunakan kebijakan Enterprise Azure sebagai kode dalam kebijakan penyebaran sistem berbasis CI/CD, set kebijakan, penugasan, pengecualian kebijakan, dan penetapan peran.
Catatan: Untuk informasi selengkapnya, lihat Panduan Azure untuk Pembelajaran Mesin kepatuhan terhadap peraturan.
Pemindaian keamanan
Terapkan pemindaian keamanan otomatis sebagai bagian dari proses integrasi dan penyebaran otomatis.
Lingkungan: Semua
Fasilitasi Azure: Defender For DevOps
Catatan: Anda dapat menggunakan aplikasi di Marketplace Azure untuk memperluas proses ini untuk modul pengujian keamanan non-Microsoft.
Layanan yang sedang berlangsung
Pantau layanan API yang sedang berlangsung untuk pengoptimalan performa, keamanan, dan penggunaan sumber daya. Pastikan deteksi kesalahan tepat waktu, pemecahan masalah yang efisien, dan kepatuhan terhadap standar.
Lingkungan: Produksi
Fasilitasi Azure:
- Monitor - metrik Pembelajaran Mesin
- Pembelajaran Mesin - Anda dapat mengaktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang layanan Anda.
Kontributor
Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.
Penulis utama:
- Scott Donohoo | Arsitek Solusi Cloud Senior
- Moritz Steller | Arsitek Solusi Cloud Senior
Kontributor lain:
- Scott Mckinnon | Arsitek Solusi Cloud
- Nicholas Moore | Arsitek Solusi Cloud
- Darren Turchiarelli | Arsitek Solusi Cloud
- Leo Kozhushnik | Arsitek Solusi Cloud
Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.
Langkah berikutnya
- Apa itu Azure Pipelines?
- Gambaran umum Azure Arc
- Apa itu Pembelajaran Mesin?
- Data dalam Pembelajaran Mesin
- Repositori GitHub Azure MLOps v2
- Operasi pembelajaran mesin end-to-end (MLOps) dengan Pembelajaran Mesin
- Pengantar Azure Data Lake Storage Gen2
- Dokumentasi Azure DevOps
- Dokumen GitHub
- Dokumentasi Synapse Analytics
- Dokumentasi Azure Event Hubs
- Cara kerja Pembelajaran Mesin: sumber daya dan aset (v2)
- Apa itu alur Pembelajaran Mesin?