Migrasi ke Penyajian Model

Artikel
07/11/2024

Artikel ini menunjukkan cara mengaktifkan Model Serving di ruang kerja Anda dan mengalihkan model Anda ke pengalaman Model Serving baru yang dibangun pada komputasi tanpa server.

Persyaratan

Model terdaftar di MLflow Model Registry.
Izin pada model terdaftar seperti yang dijelaskan dalam panduan kontrol akses.
Aktifkan komputasi tanpa server di ruang kerja Anda.

Perubahan signifikan

Dalam Model Melayani, format permintaan ke titik akhir dan respons dari titik akhir sedikit berbeda dari Penyajian Model MLflow Warisan. Lihat Menilai titik akhir model untuk detail tentang protokol format baru.
Dalam Model Serving, URL titik akhir menyertakan serving-endpoints alih-alih model.
Model Serving mencakup dukungan penuh untuk mengelola sumber daya dengan alur kerja API.
Model Serving siap diproduksi dan didukung oleh Azure Databricks SLA.

Memigrasikan Model MLflow Warisan Yang Melayani model yang dilayani ke Model Melayani

Anda dapat membuat titik akhir Model Serving dan model transisi fleksibel yang melayani alur kerja tanpa menonaktifkan Penyajian Model MLflow Warisan.

Langkah-langkah berikut menunjukkan cara menyelesaikan ini dengan UI. Untuk setiap model di mana Anda mengaktifkan Penyajian Model MLflow Warisan:

Navigasi ke Melayani titik akhir di bar samping ruang kerja pembelajaran mesin Anda.
Ikuti alur kerja yang dijelaskan dalam Membuat model kustom yang melayani titik akhir tentang cara membuat titik akhir penyajian dengan model Anda.
Transisikan aplikasi Anda untuk menggunakan URL baru yang disediakan oleh titik akhir penyajian untuk mengkueri model, bersama dengan format penilaian baru.
Saat model Anda ditransisikan, Anda dapat menavigasi ke Model di bilah samping ruang kerja pembelajaran mesin Anda.
Pilih model yang ingin Anda nonaktifkan Penyajian Model MLflow Warisan.
Pada tab Sajikan , pilih Hentikan.
Pesan tampaknya mengonfirmasi. Pilih Hentikan Penayangan.

Memigrasikan versi model yang disebarkan ke Model Serving

Dalam versi sebelumnya dari fungsionalitas Model Serving, titik akhir penyajian dibuat berdasarkan tahap versi model terdaftar: Staging atau Production. Untuk memigrasikan model yang dilayani dari pengalaman tersebut, Anda dapat mereplikasi perilaku tersebut dalam pengalaman Model Serving baru.

Bagian ini menunjukkan cara membuat model terpisah yang melayani titik akhir untuk Staging versi model dan Production versi model. Langkah-langkah berikut menunjukkan cara menyelesaikan ini dengan API titik akhir penyajian untuk setiap model yang dilayani.

Dalam contoh, nama modelA model terdaftar memiliki versi 1 di tahap Production model dan versi 2 dalam tahap Stagingmodel .

Buat dua titik akhir untuk model terdaftar Anda, satu untuk Staging versi model dan satu lagi untuk Production versi model.

Untuk Staging versi model:

POST /api/2.0/serving-endpoints
  {
     "name":"modelA-Staging"
     "config":{
        "served_entities":[
           {
              "entity_name":"model-A",
              "entity_version":"2",  // Staging Model Version
              "workload_size":"Small",
              "scale_to_zero_enabled":true
           },
        ],
     },
  }

Untuk Production versi model:

POST /api/2.0/serving-endpoints
  {
     "name":"modelA-Production"
     "config":{
        "served_entities":[
           {
              "entity_name":"model-A",
              "entity_version":"1",   // Production Model Version
              "workload_size":"Small",
              "scale_to_zero_enabled":true
           },
        ],
     },
  }

Verifikasi status titik akhir.

Untuk titik akhir Penahapan: GET /api/2.0/serving-endpoints/modelA-Staging

Untuk titik akhir Produksi: GET /api/2.0/serving-endpoints/modelA-Production
Setelah titik akhir siap, kueri titik akhir menggunakan:

Untuk titik akhir Penahapan: POST /serving-endpoints/modelA-Staging/invocations

Untuk titik akhir Produksi: POST /serving-endpoints/modelA-Production/invocations

Perbarui titik akhir berdasarkan transisi versi model.

Dalam skenario di mana model baru versi 3 dibuat, Anda dapat memiliki transisi model versi 2 ke Production, sementara model versi 3 dapat beralih ke Staging dan model versi 1 adalah Archived. Perubahan ini dapat tercermin dalam model terpisah yang melayani titik akhir sebagai berikut:

Staging Untuk titik akhir, perbarui titik akhir untuk menggunakan versi model baru di Staging.

PUT /api/2.0/serving-endpoints/modelA-Staging/config
{
   "served_entities":[
      {
         "entity_name":"model-A",
         "entity_version":"3",  // New Staging model version
         "workload_size":"Small",
         "scale_to_zero_enabled":true
      },
   ],
}

Untuk Production titik akhir, perbarui titik akhir untuk menggunakan versi model baru di Production.

PUT /api/2.0/serving-endpoints/modelA-Production/config
{
   "served_entities":[
      {
         "entity_name":"model-A",
         "entity_version":"2",  // New Production model version
         "workload_size":"Small",
         "scale_to_zero_enabled":true
      },
   ],
}

Memigrasikan alur kerja inferensi MosaicML ke Model Serving

Bagian ini memberikan panduan tentang cara memigrasikan penyebaran inferensi MosaicML Anda ke Mosaic AI Model Serving dan menyertakan contoh notebook.

Tabel berikut ini meringkas paritas antara inferensi MosaicML dan model yang disajikan di Azure Databricks.

Inferensi MosaicML	Penyajian Model AI Mosaik
create_inference_deployment	Membuat model yang melayani titik akhir
update_inference_deployment	Memperbarui titik akhir penyajian model
delete_inference_deployment	Menghapus titik akhir penyajian model
get_inference_deployment	Mendapatkan status titik akhir penyajian model

Notebook berikut ini menyediakan contoh terpandu untuk memigrasikan llama-13b model dari MosaicML ke Mosaic AI Model Serving.

Bermigrasi dari inferensi MosaicML ke Mosaic AI Model Melayani notebook

Dapatkan buku catatan

Bagikan melalui