Bagikan melalui


Operasi pembelajaran mesin

Artikel ini menjelaskan tiga arsitektur Azure untuk operasi pembelajaran mesin yang memiliki alur integrasi berkelanjutan dan pengiriman berkelanjutan (CI/CD) end-to-end dan pelatihan ulang alur. Arsitekturnya adalah untuk aplikasi AI ini:

  • Pembelajaran mesin klasik
  • Computer vision (CV)
  • Pemrosesan bahasa alami

Arsitektur ini adalah produk dari proyek MLOps v2. Mereka menggabungkan praktik terbaik yang diidentifikasi oleh arsitek solusi dalam proses pengembangan berbagai solusi pembelajaran mesin. Hasilnya dapat disebarkan, diulang, dan dapat dipertahankan pola. Ketiga arsitektur menggunakan layanan Azure Pembelajaran Mesin.

Untuk implementasi dengan contoh templat penyebaran untuk MLOps v2, lihat Repositori GitHub Azure MLOps v2.

Kemungkinan kasus penggunaan

  • Pembelajaran mesin klasik: Prakiraan rangkaian waktu, regresi, dan klasifikasi pada data terstruktur tabular adalah kasus penggunaan yang paling umum dalam kategori ini. Contohnya meliputi:

    • Klasifikasi biner dan multi-label.

    • Regresi linier, polinomial, punggung bukit, lasso, kuantil, dan Bayesian.

    • ARIMA, autoregressive, SARIMA, VAR, SES, LSTM.

  • CV: Kerangka kerja MLOps dalam artikel ini sebagian besar berfokus pada kasus penggunaan CV segmentasi dan klasifikasi gambar.

  • Pemrosesan bahasa alami: Anda dapat menggunakan kerangka kerja MLOps ini untuk mengimplementasikan:

    • Pengenalan entitas karakter:

    • Klasifikasi teks

    • Pembuatan teks

    • Analisis sentimen

    • Terjemahan

    • Jawaban atas Pertanyaan

    • Ringkasan

    • Deteksi kalimat

    • Deteksi bahasa

    • Pemberian tag bagian ucapan

Simulasi AI, pembelajaran penguatan mendalam, dan bentuk AI lainnya tidak dijelaskan dalam artikel ini.

Sistem

Pola arsitektur MLOps v2 memiliki empat komponen modular utama, atau fase, dari siklus hidup MLOps:

  • Data estate
  • Administrasi dan penyiapan
  • Pengembangan model, atau fase perulangan dalam
  • Penyebaran model, atau fase perulangan luar

Komponen sebelumnya, koneksi di antara mereka, dan persona umum yang terlibat adalah standar di semua arsitektur skenario MLOps v2. Variasi dalam detail setiap komponen bergantung pada skenario.

Arsitektur dasar untuk MLOps v2 untuk Pembelajaran Mesin adalah skenario pembelajaran mesin klasik untuk data tabular. Arsitektur CV dan NLP dibangun dan memodifikasi arsitektur dasar ini.

MLOps v2 mencakup arsitektur berikut yang dijelaskan dalam artikel ini:

Arsitektur pembelajaran mesin klasik

Diagram yang menunjukkan arsitektur pembelajaran mesin klasik.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pembelajaran mesin klasik

  1. Data estate

    Komponen ini menggambarkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen siklus hidup MLOps v2 ini. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber data dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran solusi MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Misalnya, tim infrastruktur mungkin:

    1. Membuat repositori kode sumber proyek.
    2. Gunakan Bicep atau Terraform untuk membuat ruang kerja Pembelajaran Mesin.
    3. Membuat atau memodifikasi himpunan data dan sumber daya komputasi untuk pengembangan dan penyebaran model.
    4. Tentukan pengguna tim proyek, peran mereka, dan kontrol akses ke sumber daya lain.
    5. Membuat alur CI/CD.
    6. Buat komponen pemantauan untuk mengumpulkan dan membuat pemberitahuan untuk metrik model dan infrastruktur.

    Persona utama yang terkait dengan fase ini adalah tim infrastruktur, tetapi organisasi mungkin juga memiliki teknisi data, insinyur pembelajaran mesin, atau ilmuwan data.

  3. Pengembangan model (fase perulangan dalam)

    Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang bertindak dalam ruang kerja Pembelajaran Mesin khusus dan aman. Diagram sebelumnya memperlihatkan alur kerja umum. Proses dimulai dengan penyerapan data, bergerak melalui analisis data eksploratif, eksperimen, pengembangan dan evaluasi model, lalu mendaftarkan model untuk penggunaan produksi. Komponen modular ini bersifat agnostik dan dapat beradaptasi dengan proses yang digunakan tim ilmu data Anda untuk mengembangkan model.

    Persona yang terkait dengan fase ini termasuk ilmuwan data dan insinyur pembelajaran mesin.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu, baik secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop, mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

    Persona yang terkait dengan tahap ini biasanya adalah insinyur pembelajaran mesin.

  5. Penyebaran model (fase perulangan luar)

    Penyebaran model, atau fase perulangan luar, terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

    Persona yang terkait dengan fase ini terutama insinyur pembelajaran mesin.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Berdasarkan kriteria model dan data, seperti ambang batas atau jadwal metrik, pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil. Misalnya, pemicu mungkin melatih kembali model untuk menggunakan data produksi baru lalu mengulang kembali model untuk penahapan dan pengujian evaluasi praproduksi. Atau masalah model atau data dapat memicu tindakan yang memerlukan loopback ke fase pengembangan model di mana ilmuwan data dapat menyelidiki masalah dan berpotensi mengembangkan model baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

arsitektur CV Pembelajaran Mesin

Diagram yang memperlihatkan arsitektur visi komputer.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur CV

Arsitektur CV Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki modifikasi yang khusus untuk skenario CV yang diawasi.

  1. Data estate

    Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Gambar untuk skenario CV dapat berasal dari berbagai sumber data. Untuk efisiensi saat mengembangkan dan menyebarkan model CV dengan Pembelajaran Mesin, kami merekomendasikan Azure Blob Storage dan Azure Data Lake Storage.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario CV, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik tetapi mencakup langkah tambahan. Tim infrastruktur menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain untuk membuat proyek pelabelan dan anotasi gambar.

  3. Pengembangan model (fase perulangan dalam)

    Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perbedaan utama antara alur kerja ini dan skenario pembelajaran mesin klasik adalah bahwa pelabelan gambar dan anotasi adalah komponen utama dari perulangan pengembangan ini.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

  5. Penyebaran model (fase perulangan luar)

    Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Untuk skenario CV, teknisi pembelajaran mesin tidak perlu melatih kembali kandidat model pada data produksi karena kendala sumber daya dan waktu. Tim ilmu data dapat menggunakan data produksi untuk pengembangan model. Model kandidat yang terdaftar dari loop pengembangan dievaluasi untuk produksi. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan performa model pada gambar baru. Pemantauan infrastruktur dapat mengidentifikasi respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, atau masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Data dan pemantauan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario CV ketika penurunan performa model pada gambar baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Tindakan berikutnya sering kembali ke perulangan pengembangan model untuk memperbarui model dengan gambar baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang lingkungan, komputasi, dan sumber daya jaringan.

Pembelajaran Mesin arsitektur pemrosesan bahasa alami

Diagram untuk arsitektur pemrosesan bahasa alami.

Unduh file Visio arsitektur ini.

Alur kerja untuk arsitektur pemrosesan bahasa alami

Arsitektur pemrosesan bahasa alami Pembelajaran Mesin didasarkan pada arsitektur pembelajaran mesin klasik, tetapi memiliki beberapa modifikasi yang khusus untuk skenario NLP.

  1. Data estate

    Komponen ini menunjukkan data estate organisasi dan sumber dan target data potensial untuk proyek ilmu data. Teknisi data adalah pemilik utama komponen ini dalam siklus hidup MLOps v2. Platform data Azure dalam diagram ini tidak lengkap atau preskriptif. Tanda centang hijau menunjukkan sumber dan target yang mewakili praktik terbaik yang direkomendasikan yang didasarkan pada kasus penggunaan pelanggan.

  2. Administrasi dan penyiapan

    Komponen ini adalah langkah pertama dalam penyebaran MLOps v2. Ini terdiri dari semua tugas yang terkait dengan pembuatan dan pengelolaan sumber daya dan peran yang terkait dengan proyek. Untuk skenario pemrosesan bahasa alami, administrasi dan penyiapan lingkungan MLOps v2 sebagian besar sama dengan pembelajaran mesin klasik, tetapi dengan langkah tambahan: membuat proyek pelabelan dan anotasi gambar dengan menggunakan fitur pelabelan Pembelajaran Mesin atau alat lain.

  3. Pengembangan model (fase perulangan dalam)

    Fase perulangan dalam terdiri dari alur kerja ilmu data berulang yang dilakukan dalam ruang kerja Pembelajaran Mesin khusus dan aman. Perulangan pengembangan model NLP yang khas berbeda dari skenario pembelajaran mesin klasik karena langkah-langkah pengembangan umum untuk skenario ini mencakup anotator untuk kalimat dan tokenisasi, normalisasi, dan penyematan untuk data teks.

  4. registri Pembelajaran Mesin

    Setelah tim ilmu data mengembangkan model yang dapat mereka sebarkan ke produksi, mereka mendaftarkan model di registri ruang kerja Pembelajaran Mesin. Alur CI yang dipicu secara otomatis oleh pendaftaran model atau dengan persetujuan human-in-the-loop yang terjaga mempromosikan model dan dependensi model lainnya ke fase penyebaran model.

  5. Penyebaran model (fase perulangan luar)

    Fase penyebaran model atau perulangan luar terdiri dari penahapan dan pengujian praproduksi, penyebaran produksi, dan pemantauan model, data, dan infrastruktur. Ketika model memenuhi kriteria organisasi dan kasus penggunaan, alur CD mempromosikan model dan aset terkait melalui produksi, pemantauan, dan potensi pelatihan ulang.

  6. Penahapan dan pengujian

    Tahap penahapan dan pengujian bervariasi sesuai dengan praktik pelanggan. Fase ini biasanya mencakup operasi seperti melatih kembali dan menguji kandidat model pada data produksi, penyebaran pengujian untuk performa titik akhir, pemeriksaan kualitas data, pengujian unit, dan pemeriksaan AI yang bertanggung jawab untuk model dan bias data. Fase ini berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  7. Penyebaran produksi

    Setelah model melewati tahap penahapan dan pengujian, teknisi pembelajaran mesin dapat menggunakan persetujuan terjaganya human-in-the-loop untuk mempromosikannya ke produksi. Opsi penyebaran model mencakup titik akhir batch terkelola untuk skenario batch atau titik akhir online terkelola atau penyebaran Kubernetes yang menggunakan Azure Arc untuk skenario online dan hampir real-time. Produksi biasanya berlangsung di satu atau beberapa ruang kerja Pembelajaran Mesin khusus dan aman.

  8. Pemantauan

    Teknisi pembelajaran mesin memantau komponen dalam penahapan, pengujian, dan produksi untuk mengumpulkan metrik yang terkait dengan perubahan performa model, data, dan infrastruktur. Mereka dapat menggunakan metrik tersebut untuk mengambil tindakan. Pemantauan model dan data dapat mencakup pemeriksaan model dan penyimpangan data, performa model pada data teks baru, dan masalah AI yang bertanggung jawab. Pemantauan infrastruktur mungkin mengidentifikasi masalah, seperti respons titik akhir yang lambat, kapasitas komputasi yang tidak memadai, dan masalah jaringan.

  9. Pemantauan data dan model: peristiwa dan tindakan

    Seperti halnya arsitektur CV, pemantauan data dan model serta fase peristiwa dan tindakan MLOps untuk pemrosesan bahasa alami adalah perbedaan utama dari pembelajaran mesin klasik. Pelatihan ulang otomatis biasanya tidak dilakukan dalam skenario pemrosesan bahasa alami saat penurunan performa model pada teks baru terdeteksi. Dalam hal ini, proses human-in-the-loop diperlukan untuk meninjau dan membuat anotasi data teks baru untuk model yang berperforma buruk. Seringkali tindakan berikutnya adalah kembali ke perulangan pengembangan model untuk memperbarui model dengan data teks baru.

  10. Pemantauan infrastruktur: peristiwa dan tindakan

    Pemicu dan pemberitahuan otomatis dapat menerapkan tindakan yang sesuai untuk diambil berdasarkan kriteria infrastruktur, seperti jeda respons titik akhir atau komputasi yang tidak mencukupi untuk penyebaran. Pemicu dan pemberitahuan otomatis dapat memicu loopback ke fase penyiapan dan administrasi di mana tim infrastruktur dapat menyelidiki masalah dan berpotensi mengonfigurasi ulang sumber daya komputasi dan jaringan.

Komponen

  • Pembelajaran Mesin adalah layanan cloud yang dapat Anda gunakan untuk melatih, menilai, menyebarkan, dan mengelola model pembelajaran mesin dalam skala besar.

  • Azure Pipelines adalah sistem build-and-test yang didasarkan pada Azure DevOps dan digunakan untuk alur build dan rilis. Azure Pipelines membagi alur ini menjadi langkah logis yang disebut tugas.

  • GitHub adalah platform hosting kode untuk kontrol versi, kolaborasi, dan alur kerja CI/CD.

  • Azure Arc adalah platform yang menggunakan Azure Resource Manager untuk mengelola sumber daya Azure dan sumber daya lokal. Sumber daya dapat mencakup komputer virtual, kluster Kubernetes, dan database.

  • Kubernetes adalah sistem sumber terbuka yang dapat Anda gunakan untuk mengotomatiskan penyebaran, penskalaan, dan manajemen aplikasi dalam kontainer.

  • Azure Data Lake Storage adalah sistem file yang kompatibel dengan Hadoop. Ini memiliki namespace hierarkis terintegrasi dan skala besar dan ekonomi Blob Storage.

  • Azure Synapse Analytics adalah layanan analitik tak terbatas yang menyatukan integrasi data, pergudangan data perusahaan, dan analitik big data.

  • Azure Event Hubs adalah layanan yang menyerap aliran data yang dihasilkan aplikasi klien. Kemudian menyerap dan menyimpan data streaming, yang mempertahankan urutan peristiwa yang diterima. Pelanggan dapat terhubung ke titik akhir hub untuk mengambil pesan untuk diproses. Arsitektur ini menggunakan integrasi Data Lake Storage.

Pertimbangan lain

Pola arsitektur MLOps v2 sebelumnya memiliki beberapa komponen penting, termasuk kontrol akses berbasis peran (RBAC) yang selaras dengan pemangku kepentingan bisnis, manajemen paket yang efisien, dan mekanisme pemantauan yang kuat. Komponen-komponen ini secara kolektif berkontribusi pada keberhasilan implementasi dan manajemen alur kerja pembelajaran mesin.

RBAC berbasis persona

Sangat penting bagi Anda untuk mengelola akses ke data dan sumber daya pembelajaran mesin. RBAC menyediakan kerangka kerja yang kuat untuk membantu Anda mengelola siapa yang dapat melakukan tindakan tertentu dan mengakses area tertentu dalam solusi Anda. Rancang strategi segmentasi identitas Anda untuk menyelaraskan dengan siklus hidup model pembelajaran mesin dalam Pembelajaran Mesin dan persona yang disertakan dalam proses. Setiap persona memiliki serangkaian tanggung jawab tertentu yang tercermin dalam peran RBAC dan keanggotaan grup mereka.

Contoh persona

Untuk mendukung segmentasi yang sesuai dalam beban kerja pembelajaran mesin, pertimbangkan persona umum berikut yang menginformasikan desain grup RBAC berbasis identitas.

Ilmuwan data dan insinyur pembelajaran mesin

Ilmuwan data dan insinyur pembelajaran mesin melakukan berbagai aktivitas pembelajaran mesin dan ilmu data di seluruh siklus hidup pengembangan perangkat lunak proyek. Tugas mereka termasuk analisis data eksploratif dan praproses data. Ilmuwan data dan insinyur pembelajaran mesin bertanggung jawab untuk melatih, mengevaluasi, dan menyebarkan model. Tanggung jawab peran ini juga mencakup aktivitas break-fix untuk model, paket, dan data pembelajaran mesin. Tugas-tugas ini berada di luar cakupan untuk tim dukungan teknis platform.

Jenis: Orang
Spesifik proyek: Ya

Analis data

Analis data memberikan input yang diperlukan untuk aktivitas ilmu data, seperti menjalankan kueri SQL untuk kecerdasan bisnis. Tanggung jawab peran ini termasuk bekerja dengan data, melakukan analisis data, dan mendukung pengembangan model dan penyebaran model.

Jenis: Orang
Spesifik proyek: Ya

Penguji model

Penguji model melakukan pengujian di lingkungan pengujian dan penahapan. Peran ini menyediakan pemisahan fungsi dari proses CI/CD.

Jenis: Orang
Spesifik proyek: Ya

Pemangku kepentingan bisnis

Pemangku kepentingan bisnis dikaitkan dengan proyek, seperti manajer pemasaran.

Jenis: Orang
Spesifik proyek: Ya

Prospek proyek atau prospek ilmu data

Prospek ilmu data adalah peran administrasi proyek untuk ruang kerja Pembelajaran Mesin. Peran ini juga melakukan aktivitas break-fix untuk model dan paket pembelajaran mesin.

Jenis: Orang
Spesifik proyek: Ya

Pemilik proyek atau produk (Pemilik bisnis)

Pemangku kepentingan bisnis bertanggung jawab atas ruang kerja Pembelajaran Mesin sesuai dengan kepemilikan data.

Jenis: Orang
Spesifik proyek: Ya

Dukungan teknis platform

Dukungan teknis platform adalah staf dukungan teknis yang bertanggung jawab untuk aktivitas break-fix di seluruh platform. Peran ini mencakup infrastruktur atau layanan tetapi bukan model, paket, atau data pembelajaran mesin. Komponen-komponen ini tetap berada di bawah peran ilmuwan data atau insinyur pembelajaran mesin dan merupakan tanggung jawab prospek proyek.

Jenis: Orang
Spesifik proyek: Tidak

Pengguna akhir model

Pengguna akhir model adalah konsumen akhir dari model pembelajaran mesin.

Jenis: Orang atau Proses
Spesifik proyek: Ya

Proses CI/CD

PROSES CI/CD merilis atau mengembalikan perubahan di seluruh lingkungan platform.

Jenis: Proses
Spesifik proyek: Tidak

Ruang kerja Azure Machine Learning

Pembelajaran Mesin ruang kerja menggunakan identitas terkelola untuk berinteraksi dengan bagian lain dari Azure. Persona ini mewakili berbagai layanan yang membentuk implementasi Pembelajaran Mesin. Layanan ini berinteraksi dengan bagian lain dari platform, seperti ruang kerja pengembangan yang terhubung dengan penyimpanan data pengembangan.

Jenis: Proses
Spesifik proyek: Tidak

Proses pemantauan

Proses pemantauan adalah proses komputasi yang memantau dan memperingatkan berdasarkan aktivitas platform.

Jenis: Proses
Spesifik proyek: Tidak

Proses tata kelola data

Proses tata kelola data memindai proyek pembelajaran mesin dan penyimpanan data untuk tata kelola data.

Jenis: Proses
Spesifik proyek: Tidak

Keanggotaan grup Microsoft Entra

Saat Anda menerapkan RBAC, grup Microsoft Entra menyediakan cara yang fleksibel dan dapat diskalakan untuk mengelola izin akses di berbagai persona. Anda dapat menggunakan grup Microsoft Entra untuk mengelola pengguna yang memerlukan akses dan izin yang sama ke sumber daya, seperti aplikasi dan layanan yang berpotensi dibatasi. Alih-alih menambahkan izin khusus ke pengguna individual, Anda membuat grup yang menerapkan izin khusus untuk setiap anggota grup tersebut.

Dalam pola arsitektur ini, Anda dapat menggandeng grup ini dengan penyiapan ruang kerja Pembelajaran Mesin, seperti proyek, tim, atau departemen. Anda dapat mengaitkan pengguna dengan grup tertentu untuk menentukan kebijakan akses halus. Kebijakan memberikan atau membatasi izin ke berbagai Pembelajaran Mesin ruang kerja berdasarkan fungsi pekerjaan, persyaratan proyek, atau kriteria lainnya. Misalnya, Anda dapat memiliki grup yang memberikan semua ilmuwan data akses ke ruang kerja pengembangan untuk kasus penggunaan tertentu.

RBAC Identitas

Pertimbangkan bagaimana Anda dapat menggunakan peran Azure RBAC bawaan berikut untuk menerapkan RBAC ke lingkungan produksi dan praproduksi. Untuk arsitektur dalam artikel ini, lingkungan produksi termasuk lingkungan penahapan, pengujian, dan produksi. Lingkungan praproduksi mencakup lingkungan pengembangan. Peran RBAC berikut didasarkan pada persona yang dijelaskan sebelumnya dalam artikel ini.

Peran standar

Peran spesifik komponen

Singkatan peran Azure RBAC ini sesuai dengan tabel berikut.

Lingkungan produksi
Persona Ruang kerja Azure Machine Learning Azure Key Vault Container Registry Akun Azure Storage Azure DevOps Azure Artifacts Ruang kerja Analitik Log Azure Monitor
Saintis data R LAR MR
Analis data
Penguji model
Pemangku kepentingan bisnis MR
Prospek proyek (Prospek ilmu data) R R, KVR R LAR MR
Pemilik proyek/produk MR
Dukungan teknis platform O O, KVA DOPCA O O O
Pengguna akhir model
Proses CI/CD O O, KVA AcrPush DOPCA O O O
Ruang kerja Azure Machine Learning R C C
Proses pemantauan R LAR MR
Proses tata kelola data R R R R R
Lingkungan praproduksi
Persona Ruang kerja Azure Machine Learning Key Vault Container Registry Akun Penyimpanan Azure DevOps Azure Artifacts Ruang kerja Analitik Log Azure Monitor
Saintis data ADS R, KVA C C C C LAC MC
Analis data R C LAR MC
Penguji model R R, KVR R R R R LAR MR
Pemangku kepentingan bisnis R R R R R
Prospek proyek (Prospek ilmu data) C C, KVA C C C C LAC MC
Pemilik proyek/produk R R MR
Dukungan teknis platform O O, KVA O O DOPCA O O O
Pengguna akhir model
Proses CI/CD O O, KVA AcrPush O DOPCA O O O
Ruang kerja Azure Machine Learning R, KVR C C
Proses pemantauan R R R R R R LAC
Proses tata kelola data R R R

Catatan

Setiap persona mempertahankan akses untuk durasi proyek kecuali dukungan teknis platform, yang memiliki akses Microsoft Entra Privileged Identity Management (PIM) sementara atau just-in-time.

RBAC memainkan peran penting dalam mengamankan dan menyederhanakan alur kerja MLOps. RBAC membatasi akses berdasarkan peran yang ditetapkan dan mencegah pengguna yang tidak sah mengakses data sensitif, yang mengurangi risiko keamanan. Data sensitif mencakup data atau model pelatihan dan infrastruktur penting, seperti alur produksi. Anda dapat menggunakan RBAC untuk memastikan kepatuhan terhadap peraturan privasi data. RBAC juga menyediakan catatan akses dan izin yang jelas, yang menyederhanakan audit, memudahkan untuk mengidentifikasi kesenjangan keamanan, dan melacak aktivitas pengguna.

Pengelolaan paket

Dependensi pada berbagai paket, pustaka, dan biner umum sepanjang siklus hidup MLOps. Dependensi ini, seringkali dikembangkan oleh komunitas dan berkembang dengan cepat, mengharuskan pengetahuan ahli materi pelajaran untuk penggunaan dan pemahaman yang tepat. Anda harus memastikan bahwa orang yang sesuai memiliki akses aman ke aset yang beragam, seperti paket dan pustaka, tetapi Anda juga harus mencegah kerentanan. Ilmuwan data mengalami masalah ini ketika mereka merakit blok bangunan khusus untuk solusi pembelajaran mesin. Pendekatan manajemen perangkat lunak tradisional mahal dan tidak efisien. Pendekatan lain memberikan nilai lebih.

Untuk mengelola dependensi ini, Anda dapat menggunakan proses manajemen paket yang aman dan mandiri berdasarkan pola Karantina. Anda dapat merancang proses ini untuk memungkinkan ilmuwan data melayani mandiri dari daftar paket yang dikumpulkan dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi.

Pendekatan ini mencakup daftar aman tiga repositori paket pembelajaran mesin standar industri: Registri Artefak Microsoft, Indeks Paket Python (PyPI), dan Conda. Daftar aman memungkinkan layanan mandiri dari ruang kerja Pembelajaran Mesin individual. Kemudian gunakan proses pengujian otomatis selama penyebaran untuk memindai kontainer solusi yang dihasilkan. Kegagalan secara elegan keluar dari proses penyebaran dan menghapus kontainer. Diagram dan alur proses berikut menunjukkan proses ini:

Diagram yang menunjukkan pendekatan paket Pembelajaran Mesin aman.

Aliran proses

  1. Ilmuwan data yang bekerja di ruang kerja Pembelajaran Mesin yang memiliki konfigurasi jaringan dapat melayani sendiri paket pembelajaran mesin sesuai permintaan dari repositori paket pembelajaran mesin. Proses pengecualian diperlukan untuk segala sesuatu yang lain dengan menggunakan pola penyimpanan privat, yang disemai dan dikelola dengan menggunakan fungsi terpusat.

  2. Pembelajaran Mesin memberikan solusi pembelajaran mesin sebagai kontainer Docker. Saat solusi ini dikembangkan, solusi ini diunggah ke Container Registry. Pertahanan Microsoft untuk Kontainer menghasilkan penilaian kerentanan untuk gambar kontainer.

  3. Penyebaran solusi terjadi melalui proses CI/CD. Pertahanan Microsoft untuk DevOps digunakan di seluruh tumpukan untuk memberikan manajemen postur keamanan dan perlindungan ancaman.

  4. Kontainer solusi disebarkan hanya jika melewati setiap proses keamanan. Jika kontainer solusi gagal dalam proses keamanan, penyebaran gagal dengan pemberitahuan kesalahan dan jejak audit penuh. Kontainer solusi dibuang.

Alur proses sebelumnya menyediakan proses manajemen paket yang aman, mandiri untuk ilmuwan data dan memastikan bahwa paket tersebut aman dan sesuai dengan standar organisasi. Untuk menyeimbangkan inovasi dan keamanan, Anda dapat memberikan ilmuwan data akses layanan mandiri ke paket, pustaka, dan biner pembelajaran mesin umum di lingkungan praproduksi. Memerlukan pengecualian untuk paket yang kurang umum. Strategi ini memastikan bahwa ilmuwan data dapat tetap produktif selama pengembangan, yang mencegah hambatan besar selama pengiriman.

Untuk menyederhanakan proses rilis Anda, kontainerisasi lingkungan untuk digunakan di lingkungan produksi. Lingkungan kontainer mengurangi toil dan memastikan keamanan berkelanjutan melalui pemindaian kerentanan. Alur proses ini menyediakan pendekatan berulang yang dapat Anda gunakan di seluruh kasus penggunaan hingga waktu pengiriman. Ini mengurangi biaya keseluruhan untuk membangun dan menyebarkan solusi pembelajaran mesin dalam perusahaan Anda.

Pemantauan

Dalam MLOps, pemantauan sangat penting untuk menjaga kesehatan dan performa sistem pembelajaran mesin dan memastikan bahwa model tetap efektif dan selaras dengan tujuan bisnis. Pemantauan mendukung kontrol tata kelola, keamanan, dan biaya selama fase perulangan dalam. Dan memberikan pengamatan ke dalam performa, degradasi model, dan penggunaan saat menyebarkan solusi selama fase perulangan luar. Aktivitas pemantauan relevan untuk persona seperti Ilmuwan Data, Pemangku Kepentingan Bisnis, Prospek Proyek, Pemilik Proyek, Dukungan Teknis Platform, proses CI/CD, dan Proses Pemantauan.

Pilih platform pemantauan dan verifikasi Anda tergantung pada penyiapan ruang kerja Pembelajaran Mesin Anda, seperti proyek, tim, atau departemen.

Performa model

Pantau performa model untuk mendeteksi masalah model dan penurunan performa lebih awal. Lacak performa untuk memastikan bahwa model tetap akurat, andal, dan selaras dengan tujuan bisnis.

Penyimpangan data

Penyimpangan data melacak perubahan dalam distribusi data input model dengan membandingkannya dengan data pelatihan model atau data produksi sebelumnya. Perubahan ini adalah hasil dari perubahan dinamika pasar, perubahan transformasi fitur, atau perubahan data hulu. Perubahan tersebut dapat menurunkan performa model, jadi penting untuk memantau penyimpangan untuk memastikan remediasi tepat waktu. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model

Penyimpangan prediksi

Penyimpangan prediksi melacak perubahan dalam distribusi output prediksi model dengan membandingkannya dengan validasi, berlabel pengujian, atau data produksi terbaru. Untuk melakukan perbandingan, refaktor penyimpangan data memerlukan himpunan data dan output produksi terbaru.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin – Pemantauan model

Sumber daya

Gunakan beberapa model yang melayani metrik titik akhir untuk menunjukkan kualitas dan performa, seperti penggunaan CPU atau memori. Pendekatan ini membantu Anda belajar dari produksi untuk membantu mendorong investasi atau perubahan di masa mendatang.

Lingkungan: Semua
Fasilitasi Azure: Monitor - Metrik titik akhir online

Metrik penggunaan

Pantau penggunaan titik akhir untuk memastikan bahwa Anda memenuhi indikator performa utama khusus organisasi atau beban kerja, melacak pola penggunaan, dan mendiagnosis dan memulihkan masalah yang dialami pengguna Anda.

Permintaan klien

Lacak jumlah permintaan klien ke titik akhir model untuk memahami profil penggunaan aktif titik akhir, yang dapat memengaruhi upaya penskalaan atau pengoptimalan biaya.

Lingkungan: Produksi
Fasilitasi Azure: Monitor - Metrik titik akhir online, seperti RequestsPerMinute. Catatan:

  • Anda dapat menyelaraskan ambang batas yang dapat diterima dengan ukuran t-shirt atau anomali yang disesuaikan dengan kebutuhan beban kerja Anda.
  • Menghentikan model yang tidak lagi digunakan dari produksi.
Penundaan pembatasan

Penundaan pembatasan adalah perlambatan dalam permintaan dan respons transfer data. Pembatasan terjadi di tingkat Resource Manager dan tingkat layanan. Lacak metrik di kedua tingkat.

Lingkungan: Produksi
Fasilitasi Azure:

  • Monitor - Resource Manager, jumlah RequestThrottlingDelayMs, ResponseThrottlingDelayMs.
  • Pembelajaran Mesin - Untuk memeriksa informasi tentang permintaan titik akhir, Anda dapat mengaktifkan log lalu lintas titik akhir online. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.

Catatan: Selaraskan ambang batas yang dapat diterima ke tujuan tingkat layanan (SMO) atau perjanjian tingkat layanan (SLA) beban kerja Anda dan persyaratan nonfungsi solusi (NFR).

Kesalahan yang dihasilkan

Lacak kesalahan kode respons untuk membantu mengukur keandalan layanan dan memastikan deteksi dini masalah layanan. Misalnya, peningkatan mendadak dalam 500 respons kesalahan server dapat menunjukkan masalah kritis yang membutuhkan perhatian segera.

Lingkungan: Produksi
Fasilitasi Azure: Pembelajaran Mesin - Aktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang permintaan Anda. Misalnya, Anda dapat memeriksa jumlah XRequestId dengan menggunakan ModelStatusCode atau ModelStatusReason. Anda dapat menggunakan ruang kerja Analitik Log untuk memproses log.
Catatan:

  • Semua kode respons HTTP dalam rentang 400 dan 500 diklasifikasikan sebagai kesalahan.

Pengoptimalan biaya

Manajemen dan pengoptimalan biaya di lingkungan cloud sangat penting karena membantu beban kerja mengontrol pengeluaran, mengalokasikan sumber daya secara efisien, dan memaksimalkan nilai dari layanan cloud mereka.

Komputasi ruang kerja

Ketika pengeluaran operasi bulanan mencapai atau melebihi jumlah yang telah ditentukan sebelumnya, buat pemberitahuan untuk memberi tahu pemangku kepentingan yang relevan, seperti prospek proyek atau pemilik proyek, berdasarkan batas penyiapan ruang kerja. Anda dapat menentukan penyiapan ruang kerja berdasarkan batas proyek, tim, atau departemen terkait.

Lingkungan: Semua
Fasilitasi Azure: Microsoft Cost Management - Pemberitahuan anggaran
Catatan:

  • Tetapkan ambang batas anggaran berdasarkan NFR awal dan perkiraan biaya.
  • Gunakan beberapa tingkat ambang batas. Beberapa tingkat ambang memastikan bahwa pemangku kepentingan mendapatkan peringatan yang sesuai sebelum anggaran terlampaui. Pemangku kepentingan ini mungkin mencakup prospek bisnis, pemilik proyek, atau Prospek proyek tergantung pada organisasi atau beban kerja.
  • Pemberitahuan anggaran yang konsisten juga dapat menjadi pemicu untuk pemfaktoran ulang untuk mendukung permintaan yang lebih besar.
Kedaluarsa ruang kerja

Jika ruang kerja Pembelajaran Mesin tidak menunjukkan tanda-tanda penggunaan aktif berdasarkan penggunaan komputasi terkait untuk kasus penggunaan yang dimaksudkan, pemilik proyek mungkin menonaktifkan ruang kerja jika tidak lagi diperlukan untuk proyek tertentu.

Lingkungan: Praproduksi
Fasilitasi Azure:

Catatan:

  • Inti aktif harus sama dengan nol dengan agregasi jumlah.
  • Ratakan ambang tanggal ke jadwal proyek.

Keamanan

Pantau untuk mendeteksi penyimpangan dari kontrol dan garis besar keamanan yang sesuai untuk memastikan bahwa ruang kerja Pembelajaran Mesin mematuhi kebijakan keamanan organisasi Anda. Anda dapat menggunakan kombinasi kebijakan yang telah ditentukan dan ditentukan khusus.

Lingkungan: Semua
Fasilitasi Azure: Azure Policy untuk Pembelajaran Mesin

Keamanan titik akhir

Untuk mendapatkan visibilitas ke API penting bagi bisnis, terapkan pemantauan keamanan yang ditargetkan dari semua titik akhir Pembelajaran Mesin. Anda dapat menyelidiki dan meningkatkan postur keamanan API Anda, memprioritaskan perbaikan kerentanan, dan dengan cepat mendeteksi ancaman real time aktif.

Lingkungan: Produksi
Fasilitasi Azure: Microsoft Defender for API menawarkan perlindungan siklus hidup, deteksi, dan cakupan respons yang luas untuk API. Catatan: Defender untuk API menyediakan keamanan untuk API yang diterbitkan di Azure API Management. Anda dapat melakukan onboardIng Defender untuk API di portal Microsoft Defender untuk Cloud atau dalam instans API Management di portal Azure. Anda harus mengintegrasikan Pembelajaran Mesin titik akhir online dengan API Management.

Pemantauan penyebaran

Pemantauan penyebaran memastikan bahwa setiap titik akhir yang Anda buat mematuhi beban kerja atau kebijakan organisasi Anda dan bebas dari kerentanan. Proses ini mengharuskan Anda menerapkan kebijakan kepatuhan pada sumber daya Azure Anda sebelum dan sesudah penyebaran, memberikan keamanan berkelanjutan melalui pemindaian kerentanan, dan memastikan bahwa layanan memenuhi SCO saat beroperasi.

Standar dan tata kelola

Pantau untuk mendeteksi penyimpangan dari standar yang sesuai dan pastikan beban kerja Anda mematuhi pagar pembatas.

Lingkungan: Semua
Fasilitasi Azure:

  • Penetapan kebijakan terkelola dan siklus hidup melalui Azure Pipelines untuk memperlakukan kebijakan sebagai kode.
  • PSRule untuk Azure menyediakan kerangka kerja pengujian untuk infrastruktur Azure sebagai kode.
  • Anda dapat menggunakan kebijakan Enterprise Azure sebagai kode dalam kebijakan penyebaran sistem berbasis CI/CD, set kebijakan, penugasan, pengecualian kebijakan, dan penetapan peran.

Catatan: Untuk informasi selengkapnya, lihat Panduan Azure untuk Pembelajaran Mesin kepatuhan terhadap peraturan.

Pemindaian keamanan

Terapkan pemindaian keamanan otomatis sebagai bagian dari proses integrasi dan penyebaran otomatis.

Lingkungan: Semua
Fasilitasi Azure: Defender For DevOps
Catatan: Anda dapat menggunakan aplikasi di Marketplace Azure untuk memperluas proses ini untuk modul pengujian keamanan non-Microsoft.

Layanan yang sedang berlangsung

Pantau layanan API yang sedang berlangsung untuk pengoptimalan performa, keamanan, dan penggunaan sumber daya. Pastikan deteksi kesalahan tepat waktu, pemecahan masalah yang efisien, dan kepatuhan terhadap standar.

Lingkungan: Produksi
Fasilitasi Azure:

  • Monitor - metrik Pembelajaran Mesin
  • Pembelajaran Mesin - Anda dapat mengaktifkan log lalu lintas titik akhir online untuk memeriksa informasi tentang layanan Anda.

Kontributor

Artikel ini dikelola oleh Microsoft. Ini awalnya ditulis oleh kontributor berikut.

Penulis utama:

Kontributor lain:

Untuk melihat profil LinkedIn non-publik, masuk ke LinkedIn.

Langkah berikutnya