Bagikan melalui


Operasi pembelajaran mesin

Artikel ini menjelaskan tiga arsitektur Azure untuk operasi pembelajaran mesin yang memiliki alur integrasi dan pengiriman berkelanjutan (CI/CD) end-to-end, serta alur pelatihan ulang. Arsitekturnya adalah untuk aplikasi AI ini:

  • Pembelajaran mesin klasik
  • Visi komputer (CV)
  • Pemrosesan bahasa alami

Arsitektur ini adalah produk dari proyek MLOps v2. Mereka menggabungkan praktik terbaik yang diidentifikasi oleh arsitek solusi dalam proses pengembangan berbagai solusi pembelajaran mesin. Hasilnya adalah pola yang dapat disebarkan, diulang, dan mudah dipelihara. Ketiga arsitektur menggunakan layanan Azure Pembelajaran Mesin.

Untuk implementasi dengan contoh templat penyebaran untuk MLOps v2, lihat Repositori GitHub Azure MLOps v2.

Kemungkinan kasus penggunaan

  • Pembelajaran mesin klasik: Prakiraan rangkaian waktu, regresi, dan klasifikasi pada data terstruktur tabular adalah kasus penggunaan yang paling umum dalam kategori ini. Contohnya meliputi:

    • Klasifikasi biner dan multi-label.

    • Regresi linier, polinomial, punggung bukit, lasso, kuantil, dan Bayesian.

    • ARIMA, autoregresif, SARIMA, VAR, SES, LSTM.

  • CV: Kerangka kerja MLOps dalam artikel ini sebagian besar berfokus pada kasus penggunaan CV segmentasi dan klasifikasi gambar.

  • Pemrosesan bahasa alami: Anda dapat menggunakan kerangka kerja MLOps ini untuk mengimplementasikan:

    • Pengenalan entitas karakter

    • Klasifikasi teks

    • Pembuatan teks

    • Analisis sentimen

    • Terjemahan

    • Jawaban atas Pertanyaan

    • Ringkasan

    • Deteksi kalimat

    • Deteksi bahasa

    • Pelabelan bagian ujaran

Simulasi AI, pembelajaran penguatan mendalam, dan bentuk AI lainnya tidak dijelaskan dalam artikel ini.

MLOps sebagai area desain kunci untuk beban kerja AI

Perencanaan dan implementasi MLOps dan GenAIOps adalah area desain inti dalam beban kerja AI di Azure. Untuk mendapatkan latar belakang mengapa beban kerja pembelajaran mesin ini memerlukan operasi khusus, lihat MLOps dan GenAIOps untuk beban kerja AI di Azure di Azure Well-Architected Framework.

Arsitektur

Pola arsitektur MLOps v2 memiliki empat komponen modular utama, atau fase, dari siklus hidup MLOps:

  • Pengelolaan Sumber Data
  • Administrasi dan penyiapan
  • Pengembangan model, atau fase loop dalam
  • Penyebaran model, atau fase perulangan luar

Komponen sebelumnya, koneksi di antara mereka, dan persona umum yang terlibat adalah standar di semua arsitektur skenario MLOps v2. Variasi dalam detail setiap komponen bergantung pada skenario.

Arsitektur dasar untuk MLOps v2 untuk Pembelajaran Mesin adalah skenario pembelajaran mesin klasik untuk data tabular. Arsitektur CV dan NLP dibangun dan memodifikasi arsitektur dasar ini.

MLOps v2 mencakup arsitektur berikut yang dijelaskan dalam artikel ini:

Arsitektur pembelajaran mesin klasik

Diagram yang menunjukkan arsitektur pembelajaran mesin klasik.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pembelajaran mesin klasik

  1. Pengelolaan Sumber Data

    Komponen ini menggambarkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen siklus hidup MLOps v2 ini. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber data dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran solusi MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Misalnya, tim infrastruktur mungkin:

    1. Membuat repositori kode sumber proyek.
    2. Gunakan Bicep atau Terraform untuk membuat ruang kerja Pembelajaran Mesin.
    3. Membuat atau memodifikasi himpunan data dan sumber daya komputasi untuk pengembangan dan penyebaran model.
    4. Tentukan pengguna tim proyek, peran mereka, dan kontrol akses ke sumber daya lain.
    5. Buat jalur pipa untuk CI/CD.
    6. Buat komponen pemantauan untuk mengumpulkan dan membuat pemberitahuan untuk metrik model dan infrastruktur.

    Persona utama yang terkait dengan fase ini adalah tim infrastruktur, tetapi organisasi mungkin juga memiliki teknisi data, insinyur pembelajaran mesin, atau ilmuwan data.

  3. Pengembangan model (fase siklus dalam)

    Fase loop internal terdiri dari alur kerja ilmu data iteratif yang beroperasi di ruang kerja Pembelajaran Mesin yang dikhususkan dan aman. Diagram sebelumnya memperlihatkan alur kerja umum. Proses dimulai dengan penyerapan data, bergerak melalui analisis data eksploratif, eksperimen, pengembangan dan evaluasi model, lalu mendaftarkan model untuk penggunaan produksi. Komponen modular ini bersifat agnostik dan dapat beradaptasi dengan proses yang digunakan tim ilmu data Anda untuk mengembangkan model.

    Persona yang terkait dengan fase ini termasuk ilmuwan data dan insinyur pembelajaran mesin.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu, baik secara otomatis oleh pendaftaran model atau melalui persetujuan "gated human-in-the-loop", mempromosikan model dan dependensi model lainnya ke tahap penerapan model.

    Persona yang terkait dengan tahap ini biasanya adalah insinyur pembelajaran mesin.

  5. Penyebaran model (tahap iterasi luar)

    Penyebaran model, atau tahap perulangan eksternal, terdiri dari penahapan dan pengujian praproduksi, penyebaran ke lingkungan produksi, dan pemantauan model, data, serta infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

    Persona yang terkait dengan fase ini terutama insinyur pembelajaran mesin.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti pelatihan ulang dan pengujian kandidat model pada data produksi, pengujian penerapan untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, serta pengecekan AI bertanggung jawab untuk bias model dan data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Berdasarkan kriteria model dan data, seperti ambang batas atau jadwal metrik, pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil. Misalnya, pemicu mungkin melatih ulang model untuk menggunakan data produksi baru lalu mengembalikan model untuk dievaluasi pada tahap praproduksi. Atau masalah model atau data dapat memicu tindakan yang memerlukan loopback ke fase pengembangan model di mana ilmuwan data dapat menyelidiki masalah dan berpotensi mengembangkan model baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

arsitektur CV Pembelajaran Mesin

Diagram yang memperlihatkan arsitektur visi komputer.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur CV

Arsitektur CV Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki modifikasi yang khusus untuk skenario CV yang diawasi.

  1. Pengelolaan Sumber Data

    Komponen ini menunjukkan kekayaan data organisasi dan sumber data serta target yang potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Gambar untuk skenario CV dapat berasal dari berbagai sumber data. Untuk efisiensi saat mengembangkan dan menyebarkan model CV dengan Pembelajaran Mesin, kami merekomendasikan Azure Blob Storage dan Azure Data Lake Storage.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario CV, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik tetapi mencakup langkah tambahan. Tim infrastruktur menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain untuk membuat proyek pelabelan dan anotasi gambar.

  3. Pengembangan model (fase siklus dalam)

    Fase lingkaran dalam terdiri dari alur kerja ilmu data iteratif yang dilakukan di dalam ruang kerja Pembelajaran Mesin yang khusus dan aman. Perbedaan utama antara alur kerja ini dan skenario pembelajaran mesin klasik adalah bahwa pelabelan gambar dan anotasi adalah komponen utama dari perulangan pengembangan ini.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

  5. Penyebaran model (tahap iterasi luar)

    Fase penyebaran model atau siklus luar terdiri dari tahap dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Untuk skenario CV, teknisi pembelajaran mesin tidak perlu melatih kembali kandidat model pada data produksi karena kendala sumber daya dan waktu. Tim ilmu data dapat menggunakan data produksi untuk pengembangan model. Model kandidat yang terdaftar dari loop pengembangan dievaluasi untuk persiapan produksi. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan performa model pada gambar baru. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Data dan pemantauan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario CV ketika penurunan performa model pada gambar baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan memberi anotasi gambar baru untuk model yang berkinerja buruk. Tindakan berikutnya sering kembali ke perulangan pengembangan model untuk memperbarui model dengan gambar baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang lingkungan, komputasi, dan sumber daya jaringan.

Pembelajaran Mesin arsitektur pemrosesan bahasa alami

Diagram untuk arsitektur pemrosesan bahasa alami.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pemrosesan bahasa alami

Arsitektur pemrosesan bahasa alami Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki beberapa modifikasi yang khusus untuk skenario NLP.

  1. Pengelolaan Sumber Data

    Komponen ini menunjukkan infrastruktur data organisasi serta sumber dan sasaran data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario pemrosesan bahasa alami, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik, tetapi dengan langkah tambahan: membuat proyek pelabelan dan anotasi teks dengan menggunakan fitur pelabelan Machine Learning atau alat lain.

  3. Pengembangan model (fase siklus dalam)

    Fase lingkaran dalam terdiri dari alur kerja ilmu data iteratif yang dilakukan di dalam ruang kerja Pembelajaran Mesin yang khusus dan aman. Perulangan pengembangan model NLP yang khas berbeda dari skenario pembelajaran mesin klasik karena langkah-langkah pengembangan umum untuk skenario ini mencakup anotator untuk kalimat dan tokenisasi, normalisasi, dan penyematan untuk data teks.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

  5. Penyebaran model (tahap iterasi luar)

    Fase penyebaran model atau siklus luar terdiri dari tahap dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti pelatihan ulang dan pengujian kandidat model pada data produksi, pengujian penerapan untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, serta pengecekan AI bertanggung jawab untuk bias model dan data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, insinyur pembelajaran mesin dapat menggunakan persetujuan berbasis manusia untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data teks baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur mungkin mengidentifikasi masalah, seperti respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, dan masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Seperti halnya arsitektur CV, pemantauan data dan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario pemrosesan bahasa alami saat penurunan performa model pada teks baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan memberikan anotasi data teks baru untuk model yang kinerjanya kurang baik. Seringkali tindakan berikutnya adalah kembali ke perulangan pengembangan model untuk memperbarui model dengan data teks baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

Komponen

  • Pembelajaran Mesin adalah layanan cloud yang dapat Anda gunakan untuk melatih, menilai, menyebarkan, dan mengelola model pembelajaran mesin dalam skala besar.

  • Azure Pipelines adalah sistem build-and-test yang didasarkan pada Azure DevOps dan digunakan untuk alur build dan rilis. Azure Pipelines membagi alur ini menjadi langkah logis yang disebut tugas.

  • GitHub adalah platform hosting kode untuk kontrol versi, kolaborasi, dan alur kerja CI/CD.

  • Azure Arc adalah platform yang menggunakan Azure Resource Manager untuk mengelola sumber daya Azure dan sumber daya lokal. Sumber daya dapat mencakup komputer virtual, kluster Kubernetes, dan database.

  • Kubernetes adalah sistem sumber terbuka yang dapat Anda gunakan untuk mengotomatiskan penyebaran, penskalaan, dan manajemen aplikasi dalam kontainer.

  • Azure Data Lake Storage adalah sistem file yang kompatibel dengan Hadoop. Ini memiliki namespace hierarkis terintegrasi serta skala besar dan efisiensi biaya dari Blob Storage.

  • Azure Synapse Analytics adalah layanan analitik tak terbatas yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data.

  • Azure Event Hubs adalah layanan yang menyerap aliran data yang dihasilkan aplikasi klien. Kemudian menyerap dan menyimpan data streaming, yang mempertahankan urutan peristiwa yang diterima. Pelanggan dapat terhubung ke titik akhir hub untuk mengambil pesan untuk diproses. Arsitektur ini menggunakan integrasi Data Lake Storage.

Pertimbangan lain

Pola arsitektur MLOps v2 sebelumnya memiliki beberapa komponen penting, termasuk kontrol akses berbasis peran (RBAC) yang selaras dengan pemangku kepentingan bisnis, manajemen paket yang efisien, dan mekanisme pemantauan yang kuat. Komponen-komponen ini secara kolektif berkontribusi pada keberhasilan implementasi dan manajemen alur kerja pembelajaran mesin.

RBAC berbasis persona

Sangat penting bagi Anda untuk mengelola akses ke data dan sumber daya pembelajaran mesin. RBAC menyediakan kerangka kerja yang kuat untuk membantu Anda mengelola siapa yang dapat melakukan tindakan tertentu dan mengakses area tertentu dalam solusi Anda. Rancang strategi segmentasi identitas Anda untuk menyelaraskan dengan siklus hidup model pembelajaran mesin dalam Pembelajaran Mesin dan persona yang disertakan dalam proses. Setiap persona memiliki serangkaian tanggung jawab tertentu yang tercermin dalam peran RBAC dan keanggotaan grup mereka.

Contoh persona

Untuk mendukung segmentasi yang sesuai dalam beban kerja pembelajaran mesin, pertimbangkan persona umum berikut yang menginformasikan desain grup RBAC berbasis identitas.

Ilmuwan data dan insinyur pembelajaran mesin

Ilmuwan data dan insinyur pembelajaran mesin melakukan berbagai aktivitas pembelajaran mesin dan ilmu data di seluruh siklus hidup pengembangan perangkat lunak proyek. Tugas mereka termasuk analisis data eksploratif dan praproses data. Ilmuwan data dan insinyur pembelajaran mesin bertanggung jawab untuk melatih, mengevaluasi, dan menyebarkan model. Tanggung jawab peran ini juga mencakup aktivitas pemeliharaan dan perbaikan untuk model pembelajaran mesin, paket, dan data. Tugas-tugas ini berada di luar cakupan untuk tim dukungan teknis platform.

Jenis: Orang
Spesifik proyek: Ya

Analis data

Analis data memberikan input yang diperlukan untuk aktivitas ilmu data, seperti menjalankan kueri SQL untuk kecerdasan bisnis. Tanggung jawab peran ini termasuk bekerja dengan data, melakukan analisis data, dan mendukung pengembangan model dan penyebaran model.

Jenis: Orang
Spesifik proyek: Ya

Penguji model

Penguji model melakukan pengujian di lingkungan uji coba dan penahapan. Peran ini menyediakan pemisahan fungsi dari proses CI/CD.

Jenis: Orang
Spesifik proyek: Ya

Pemangku kepentingan bisnis

Pemangku kepentingan bisnis dikaitkan dengan proyek, seperti manajer pemasaran.

Jenis: Orang
Spesifik proyek: Ya

Pimpinan proyek atau pimpinan ilmu data

Pemimpin ilmu data adalah peran administrasi proyek untuk ruang kerja pembelajaran mesin. Peran ini juga melakukan aktivitas perbaikan dan penyelesaian kerusakan untuk model serta paket pembelajaran mesin.

Jenis: Orang
Spesifik proyek: Ya

Pemilik proyek atau produk (Pemilik bisnis)

Pemangku kepentingan bisnis bertanggung jawab atas ruang kerja Pembelajaran Mesin sesuai dengan kepemilikan data.

Jenis: Orang
Spesifik proyek: Ya

Dukungan teknis untuk platform

Dukungan teknis platform adalah staf dukungan teknis yang bertanggung jawab untuk kegiatan perbaikan dan pemeliharaan di seluruh platform. Peran ini mencakup infrastruktur atau layanan tetapi bukan model, paket, atau data pembelajaran mesin. Komponen-komponen ini tetap berada di bawah peran ilmuwan data atau insinyur pembelajaran mesin dan merupakan tanggung jawab prospek proyek.

Jenis: Orang
Spesifik proyek: Tidak

Pengguna akhir model

Pengguna akhir model adalah konsumen akhir dari model pembelajaran mesin.

Jenis: Orang atau Proses
Spesifik proyek: Ya

Proses CI/CD

Proses CI/CD merilis atau membatalkan perubahan di seluruh lingkungan platform.

Jenis: Proses
Spesifik proyek: Tidak

Ruang kerja Pembelajaran Mesin

Pembelajaran Mesin ruang kerja menggunakan identitas terkelola untuk berinteraksi dengan bagian lain dari Azure. Persona ini mewakili berbagai layanan yang membentuk implementasi Pembelajaran Mesin. Layanan ini berinteraksi dengan bagian lain dari platform, seperti ruang kerja pengembangan yang terhubung dengan penyimpanan data pengembangan.

Jenis: Proses
Spesifik proyek: Tidak

Proses pemantauan

Proses pemantauan adalah proses komputasi yang memantau dan memperingatkan berdasarkan aktivitas platform.

Jenis: Proses
Spesifik proyek: Tidak

Proses tata kelola data

Proses tata kelola data memindai proyek pembelajaran mesin dan penyimpanan data untuk tata kelola data.

Jenis: Proses
Spesifik proyek: Tidak

Keanggotaan grup Microsoft Entra

Saat Anda menerapkan RBAC, grup Microsoft Entra menyediakan cara yang fleksibel dan dapat diskalakan untuk mengelola izin akses di berbagai persona. Anda dapat menggunakan grup Microsoft Entra untuk mengelola pengguna yang memerlukan akses dan izin yang sama ke sumber daya, seperti aplikasi dan layanan yang berpotensi dibatasi. Alih-alih menambahkan izin khusus ke pengguna individual, Anda membuat grup yang menerapkan izin khusus untuk setiap anggota grup tersebut.

Dalam pola arsitektur ini, Anda dapat menggandeng grup ini dengan penyiapan ruang kerja Pembelajaran Mesin, seperti proyek, tim, atau departemen. Anda dapat mengaitkan pengguna dengan grup tertentu untuk menentukan kebijakan akses halus. Kebijakan memberikan atau membatasi izin ke berbagai Pembelajaran Mesin ruang kerja berdasarkan fungsi pekerjaan, persyaratan proyek, atau kriteria lainnya. Misalnya, Anda dapat memiliki grup yang memberikan semua ilmuwan data akses ke ruang kerja pengembangan untuk kasus penggunaan tertentu.

Identitas RBAC

Pertimbangkan bagaimana Anda dapat menggunakan peran Azure RBAC bawaan berikut untuk menerapkan RBAC ke lingkungan produksi dan praproduksi. Untuk arsitektur dalam artikel ini, lingkungan produksi termasuk lingkungan penahapan, pengujian, dan produksi. Lingkungan praproduksi mencakup lingkungan pengembangan. Peran RBAC berikut didasarkan pada persona yang dijelaskan sebelumnya dalam artikel ini.

Peran standar

Peran khusus komponen

Singkatan peran Azure RBAC ini sesuai dengan tabel berikut.

Lingkungan produksi
Karakter Ruang kerja Pembelajaran Mesin Azure Key Vault Registri Kontainer Akun Azure Storage Azure DevOps Artefak Azure Ruang kerja Analitik Log Azure Monitor
Ilmuwan Data R LAR BAPAK
Analis data
Penguji model
Pemangku kepentingan bisnis BAPAK
Pemimpin proyek (Pemimpin ilmu data) R R, KVR R LAR BAPAK
Pemilik proyek/produk BAPAK
Dukungan teknis untuk platform O O, KVA DOPCA O O O
Pengguna akhir model
Proses CI/CD O O, KVA AcrPush DOPCA O O O
Ruang kerja Pembelajaran Mesin R C C
Proses pemantauan R LAR BAPAK
Proses tata kelola data R R R R R
Lingkungan praproduksi
Karakter Ruang kerja Pembelajaran Mesin Gudang Kunci Registri Kontainer Akun Penyimpanan Azure DevOps Artefak Azure Ruang kerja Analitik Log Azure Monitor
Ilmuwan Data IKLAN R, KVA C C C C LAC Pembawa Acara (MC)
Analis data R C LAR Pembawa Acara (MC)
Penguji model R R, KVR R R R R LAR BAPAK
Pemangku kepentingan bisnis R R R R R
Pemimpin proyek (Pemimpin ilmu data) C C, KVA C C C C LAC Pembawa Acara (MC)
Pemilik proyek/produk R R BAPAK
Dukungan teknis untuk platform O O, KVA O O DOPCA O O O
Pengguna akhir model
Proses CI/CD O O, KVA AcrPush O DOPCA O O O
Ruang kerja Pembelajaran Mesin R, KVR C C
Proses pemantauan R R R R R R LAC
Proses tata kelola data R R R

Catatan

Setiap persona memiliki akses selama durasi proyek, kecuali dukungan teknis platform, yang memiliki akses sementara atau "just-in-time" melalui Microsoft Entra Privileged Identity Management (PIM).

RBAC memainkan peran penting dalam mengamankan dan menyederhanakan alur kerja MLOps. RBAC membatasi akses berdasarkan peran yang ditetapkan dan mencegah pengguna yang tidak sah mengakses data sensitif, yang mengurangi risiko keamanan. Data sensitif mencakup data atau model pelatihan dan infrastruktur penting, seperti alur produksi. Anda dapat menggunakan RBAC untuk memastikan kepatuhan terhadap peraturan privasi data. RBAC juga menyediakan catatan akses dan izin yang jelas, yang menyederhanakan audit, memudahkan untuk mengidentifikasi kesenjangan keamanan, dan melacak aktivitas pengguna.

Pengelolaan paket

Dependensi pada berbagai paket, pustaka, dan file biner adalah hal yang umum sepanjang siklus hidup MLOps. Dependensi ini, seringkali dikembangkan oleh komunitas dan berkembang dengan cepat, mengharuskan pengetahuan ahli materi pelajaran untuk penggunaan dan pemahaman yang tepat. Anda harus memastikan bahwa orang yang sesuai memiliki akses aman ke aset yang beragam, seperti paket dan pustaka, tetapi Anda juga harus mencegah kerentanan. Ilmuwan data mengalami masalah ini ketika mereka merakit blok bangunan khusus untuk solusi pembelajaran mesin. Pendekatan manajemen perangkat lunak tradisional mahal dan tidak efisien. Pendekatan lain memberikan nilai lebih.

Untuk mengelola dependensi ini, Anda dapat menggunakan proses manajemen paket yang aman dan mandiri berdasarkan pola Karantina. Anda dapat merancang proses ini untuk memungkinkan ilmuwan data melayani mandiri dari daftar paket yang dikumpulkan dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi.

Pendekatan ini mencakup daftar aman tiga repositori paket pembelajaran mesin standar industri: Registri Artefak Microsoft, Indeks Paket Python (PyPI), dan Conda. Daftar aman memungkinkan layanan mandiri dari ruang kerja Pembelajaran Mesin individual. Kemudian gunakan proses pengujian otomatis selama penyebaran untuk memindai kontainer solusi yang dihasilkan. Setiap kegagalan keluar dengan elegan dari proses penyebaran dan secara otomatis menghapus kontainer. Diagram dan alur proses berikut menunjukkan proses ini:

Diagram yang menunjukkan pendekatan paket Pembelajaran Mesin aman.

Proses alir

  1. Ilmuwan data yang bekerja di ruang kerja Pembelajaran Mesin yang memiliki konfigurasi jaringan dapat melayani sendiri paket pembelajaran mesin sesuai permintaan dari repositori paket pembelajaran mesin. Proses pengecualian diperlukan untuk segala sesuatu yang lain dengan menggunakan pola penyimpanan privat, yang disemai dan dikelola dengan menggunakan fungsi terpusat.

  2. Pembelajaran Mesin menyediakan solusi pembelajaran mesin dalam bentuk kontainer Docker. Saat solusi ini dikembangkan, solusi ini diunggah ke Container Registry. Pertahanan Microsoft untuk Kontainer menghasilkan penilaian kerentanan untuk gambar kontainer.

  3. Penyebaran solusi terjadi melalui proses CI/CD. Microsoft Defender untuk DevOps digunakan di seluruh lapisan untuk mengelola postur keamanan dan perlindungan terhadap ancaman.

  4. Kontainer solusi disebarkan hanya jika melewati setiap proses keamanan. Jika kontainer solusi tidak lolos proses keamanan, penyebaran akan gagal dengan pemberitahuan kesalahan dan rekaman audit lengkap. Kontainer solusi dibuang.

Alur proses sebelumnya menyediakan proses manajemen paket yang aman, mandiri untuk ilmuwan data dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi. Untuk menyeimbangkan inovasi dan keamanan, Anda dapat memberikan ilmuwan data akses layanan mandiri ke paket, pustaka, dan biner pembelajaran mesin umum di lingkungan praproduksi. Memerlukan pengecualian untuk paket yang kurang umum. Strategi ini memastikan bahwa ilmuwan data dapat tetap produktif selama pengembangan, yang mencegah hambatan besar selama pengiriman.

Untuk menyederhanakan proses rilis Anda, kontainerisasi lingkungan untuk digunakan di lingkungan produksi. Lingkungan kontainer mengurangi usaha berlebihan dan memastikan keamanan berkelanjutan melalui pemindaian kerentanan. Alur proses ini menyediakan pendekatan berulang yang dapat Anda gunakan di seluruh kasus penggunaan hingga waktu pengiriman. Ini mengurangi biaya keseluruhan untuk membangun dan menyebarkan solusi pembelajaran mesin dalam perusahaan Anda.

Pemantauan

Dalam MLOps, pemantauan sangat penting untuk menjaga kesehatan dan performa sistem pembelajaran mesin dan memastikan bahwa model tetap efektif dan selaras dengan tujuan bisnis. Pemantauan mendukung pengendalian tata kelola, keamanan, dan biaya selama fase iterasi internal. Memungkinkan pengamatan terhadap performa, degradasi model, dan penggunaan saat menyebarkan solusi selama fase loop eksternal. Aktivitas pemantauan relevan untuk persona seperti Ilmuwan Data, Pemangku Kepentingan Bisnis, Prospek Proyek, Pemilik Proyek, Dukungan Teknis Platform, proses CI/CD, dan Proses Pemantauan.

Pilih platform pemantauan dan verifikasi Anda tergantung pada penyiapan ruang kerja Pembelajaran Mesin Anda, seperti proyek, tim, atau departemen.

Kinerja Model

Pantau performa model untuk mendeteksi masalah model dan penurunan performa lebih awal. Lacak performa untuk memastikan bahwa model tetap akurat, andal, dan selaras dengan tujuan bisnis.

Penyimpangan data

Penyimpangan data melacak perubahan dalam distribusi data input model dengan membandingkannya dengan data pelatihan model atau data produksi terbaru. Perubahan ini adalah hasil dari perubahan dinamika pasar, perubahan transformasi fitur, atau perubahan data hulu. Perubahan tersebut dapat menurunkan performa model, jadi penting untuk memantau penyimpangan untuk memastikan remediasi tepat waktu. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model

Penyimpangan prediksi

Penyimpangan prediksi melacak perubahan dalam distribusi keluaran prediksi model dengan membandingkannya dengan data validasi, data berlabel uji, atau data produksi terbaru. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model

Sumber daya

Gunakan beberapa model yang melayani metrik titik akhir untuk menunjukkan kualitas dan performa, seperti penggunaan CPU atau memori. Pendekatan ini membantu Anda belajar dari produksi untuk membantu mendorong investasi atau perubahan di masa mendatang.

Lingkungan: Semua
Fasilitasi Azure: Monitor - Metrik titik akhir online

Metrik penggunaan

Pantau penggunaan titik akhir untuk memastikan bahwa Anda memenuhi indikator performa utama khusus organisasi atau beban kerja, melacak pola penggunaan, dan mendiagnosis dan memulihkan masalah yang dialami pengguna Anda.

Permintaan dari klien

Lacak jumlah permintaan klien ke titik akhir model untuk memahami profil penggunaan aktif titik akhir, yang dapat memengaruhi upaya penskalaan atau pengoptimalan biaya.

Lingkungan: Produksi
Fasilitasi Azure: Monitor - Metrik titik akhir online, seperti RequestsPerMinute. Catatan:

  • Anda dapat menyelaraskan ambang batas yang dapat diterima dengan ukuran t-shirt atau anomali yang disesuaikan dengan kebutuhan beban kerja Anda.
  • Menghentikan model yang tidak lagi digunakan dari produksi.
Penundaan pembatasan

Penundaan pembatas kecepatan adalah perlambatan dalam permintaan dan respons transfer data. Pembatasan terjadi di tingkat Resource Manager dan tingkat layanan. Lacak metrik di kedua tingkat.

Lingkungan: Produksi
Fasilitasi Azure:

  • Monitor - Resource Manager, penjumlahan dari RequestThrottlingDelayMs dan ResponseThrottlingDelayMs.
  • Pembelajaran Mesin - Untuk memeriksa informasi tentang permintaan titik akhir, Anda dapat mengaktifkan log lalu lintas titik akhir online. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.

Catatan: Selaraskan ambang batas yang dapat diterima ke tujuan tingkat layanan (SMO) atau perjanjian tingkat layanan (SLA) beban kerja Anda dan persyaratan nonfungsi solusi (NFR).

Kesalahan yang dihasilkan

Lacak kesalahan kode respons untuk membantu mengukur keandalan layanan dan memastikan deteksi dini masalah layanan. Misalnya, peningkatan mendadak dalam 500 respons kesalahan server dapat menunjukkan masalah kritis yang membutuhkan perhatian segera.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin - Aktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang permintaan Anda. Misalnya, Anda dapat memeriksa jumlah XRequestId dengan menggunakan ModelStatusCode atau ModelStatusReason. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.
Catatan:

  • Semua kode respons HTTP dalam rentang 400 dan 500 diklasifikasikan sebagai kesalahan.

Pengoptimalan biaya

Manajemen dan pengoptimalan biaya di lingkungan cloud sangat penting karena membantu beban kerja mengontrol pengeluaran, mengalokasikan sumber daya secara efisien, dan memaksimalkan nilai dari layanan cloud mereka.

Komputasi ruang kerja

Ketika pengeluaran operasi bulanan mencapai atau melebihi jumlah yang telah ditentukan sebelumnya, buat pemberitahuan untuk memberi tahu pemangku kepentingan yang relevan, seperti prospek proyek atau pemilik proyek, berdasarkan batas penyiapan ruang kerja. Anda dapat menentukan penyiapan ruang kerja berdasarkan batas proyek, tim, atau departemen terkait.

Lingkungan: Semua
Fasilitasi Azure: Microsoft Cost Management - Pemberitahuan anggaran
Catatan:

  • Tetapkan ambang batas anggaran berdasarkan NFR awal dan perkiraan biaya.
  • Gunakan beberapa tingkat ambang batas. Beberapa tingkat ambang memastikan bahwa pemangku kepentingan mendapatkan peringatan yang sesuai sebelum anggaran terlampaui. Pemangku kepentingan ini mungkin mencakup prospek bisnis, pemilik proyek, atau Prospek proyek tergantung pada organisasi atau beban kerja.
  • Pemberitahuan anggaran yang konsisten juga dapat menjadi pemicu untuk pemfaktoran ulang untuk mendukung permintaan yang lebih besar.
Kedaluarsa ruang kerja

Jika ruang kerja Pembelajaran Mesin tidak menunjukkan tanda-tanda penggunaan aktif berdasarkan penggunaan komputasi terkait untuk kasus penggunaan yang dimaksudkan, pemilik proyek mungkin menonaktifkan ruang kerja jika tidak lagi diperlukan untuk proyek tertentu.

Lingkungan: Praproduksi
Fasilitasi Azure:

Catatan:

  • Inti aktif harus sama dengan nol dengan agregasi jumlah.
  • Sesuaikan batas tanggal dengan jadwal proyek.

Keamanan

Pantau untuk mendeteksi penyimpangan dari kontrol dan garis besar keamanan yang sesuai untuk memastikan bahwa ruang kerja Pembelajaran Mesin mematuhi kebijakan keamanan organisasi Anda. Anda dapat menggunakan kombinasi kebijakan yang sudah ditentukan dan yang ditentukan sendiri.

Lingkungan: Semua
Fasilitasi Azure:Kebijakan Azure untuk Pembelajaran Mesin

Keamanan titik akhir

Untuk mendapatkan visibilitas ke API penting bagi bisnis, terapkan pemantauan keamanan yang ditargetkan dari semua titik akhir Pembelajaran Mesin. Anda dapat menyelidiki dan meningkatkan postur keamanan API Anda, memprioritaskan perbaikan kerentanan, dan dengan cepat mendeteksi ancaman real time aktif.

Lingkungan: Produksi
Fasilitasi Azure:Microsoft Defender for API menawarkan perlindungan siklus hidup, deteksi, dan cakupan respons yang luas untuk API. Catatan: Defender untuk API menyediakan keamanan untuk API yang diterbitkan di Azure API Management. Anda dapat melakukan onboardIng Defender untuk API di portal Microsoft Defender untuk Cloud atau dalam instans API Management di portal Azure. Anda harus mengintegrasikan pembelajaran mesin endpoint online dengan Manajemen API.

Pemantauan penyebaran

Pemantauan penyebaran memastikan bahwa setiap titik akhir yang Anda buat mematuhi beban kerja atau kebijakan organisasi Anda dan bebas dari kerentanan. Proses ini mengharuskan Anda menerapkan kebijakan kepatuhan pada sumber daya Azure Anda sebelum dan sesudah penyebaran, memberikan keamanan berkelanjutan melalui pemindaian kerentanan, dan memastikan bahwa layanan memenuhi SCO saat beroperasi.

Standar dan tata kelola

Pantau untuk mendeteksi penyimpangan dari standar yang sesuai dan pastikan beban kerja Anda mematuhi pagar pembatas.

Lingkungan: Semua
Fasilitasi Azure:

  • Penugasan dan siklus hidup kebijakan yang dikelola melalui Azure Pipelines untuk menganggap kebijakan sebagai kode.
  • PSRule untuk Azure menyediakan kerangka kerja pengujian untuk infrastruktur Azure sebagai kode.
  • Anda dapat menggunakan kebijakan Enterprise Azure sebagai kode dalam kebijakan penyebaran sistem berbasis CI/CD, set kebijakan, penugasan, pengecualian kebijakan, dan penetapan peran.

Catatan: Untuk informasi selengkapnya, lihat Panduan Azure untuk Pembelajaran Mesin kepatuhan terhadap peraturan.

Pemindaian keamanan

Terapkan pemindaian keamanan otomatis sebagai bagian dari proses integrasi dan penyebaran otomatis.

Lingkungan: Semua
Fasilitasi Azure:Defender For DevOps
Catatan: Anda dapat menggunakan aplikasi di Marketplace Azure untuk memperluas proses ini untuk modul pengujian keamanan non-Microsoft.

Layanan yang sedang berlangsung

Pantau layanan API yang sedang berlangsung untuk pengoptimalan performa, keamanan, dan penggunaan sumber daya. Pastikan deteksi kesalahan tepat waktu, pemecahan masalah yang efisien, dan kepatuhan terhadap standar.

Lingkungan: Produksi
Fasilitasi Azure:

  • Monitor - metrik Pembelajaran Mesin
  • Pembelajaran Mesin - Anda dapat mengaktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang layanan Anda.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya