Bagikan melalui


Migrasi ke Penyajian Model

Artikel ini menunjukkan cara mengaktifkan Model Serving di ruang kerja Anda dan mengalihkan model Anda ke pengalaman Model Serving baru yang dibangun pada komputasi tanpa server.

Persyaratan

Perubahan signifikan

  • Dalam Model Melayani, format permintaan ke titik akhir dan respons dari titik akhir sedikit berbeda dari Penyajian Model MLflow Warisan. Lihat Menilai titik akhir model untuk detail tentang protokol format baru.
  • Dalam Model Serving, URL titik akhir menyertakan serving-endpoints alih-alih model.
  • Model Serving mencakup dukungan penuh untuk mengelola sumber daya dengan alur kerja API.
  • Model Serving siap diproduksi dan didukung oleh Azure Databricks SLA.

Memigrasikan Model MLflow Warisan Yang Melayani model yang dilayani ke Model Melayani

Anda dapat membuat titik akhir Model Serving dan model transisi fleksibel yang melayani alur kerja tanpa menonaktifkan Penyajian Model MLflow Warisan.

Langkah-langkah berikut menunjukkan cara menyelesaikan ini dengan UI. Untuk setiap model di mana Anda mengaktifkan Penyajian Model MLflow Warisan:

  1. Navigasi ke Melayani titik akhir di bar samping ruang kerja pembelajaran mesin Anda.
  2. Ikuti alur kerja yang dijelaskan dalam Membuat model kustom yang melayani titik akhir tentang cara membuat titik akhir penyajian dengan model Anda.
  3. Transisikan aplikasi Anda untuk menggunakan URL baru yang disediakan oleh titik akhir penyajian untuk mengkueri model, bersama dengan format penilaian baru.
  4. Saat model Anda ditransisikan, Anda dapat menavigasi ke Model di bilah samping ruang kerja pembelajaran mesin Anda.
  5. Pilih model yang ingin Anda nonaktifkan Penyajian Model MLflow Warisan.
  6. Pada tab Sajikan , pilih Hentikan.
  7. Pesan tampaknya mengonfirmasi. Pilih Hentikan Penayangan.

Memigrasikan versi model yang disebarkan ke Model Serving

Dalam versi sebelumnya dari fungsionalitas Model Serving, titik akhir penyajian dibuat berdasarkan tahap versi model terdaftar: Staging atau Production. Untuk memigrasikan model yang dilayani dari pengalaman tersebut, Anda dapat mereplikasi perilaku tersebut dalam pengalaman Model Serving baru.

Bagian ini menunjukkan cara membuat model terpisah yang melayani titik akhir untuk Staging versi model dan Production versi model. Langkah-langkah berikut menunjukkan cara menyelesaikan ini dengan API titik akhir penyajian untuk setiap model yang dilayani.

Dalam contoh, nama modelA model terdaftar memiliki versi 1 di tahap Production model dan versi 2 dalam tahap Stagingmodel .

  1. Buat dua titik akhir untuk model terdaftar Anda, satu untuk Staging versi model dan satu lagi untuk Production versi model.

    Untuk Staging versi model:

    POST /api/2.0/serving-endpoints
      {
         "name":"modelA-Staging"
         "config":{
            "served_entities":[
               {
                  "entity_name":"model-A",
                  "entity_version":"2",  // Staging Model Version
                  "workload_size":"Small",
                  "scale_to_zero_enabled":true
               },
            ],
         },
      }
    

    Untuk Production versi model:

    POST /api/2.0/serving-endpoints
      {
         "name":"modelA-Production"
         "config":{
            "served_entities":[
               {
                  "entity_name":"model-A",
                  "entity_version":"1",   // Production Model Version
                  "workload_size":"Small",
                  "scale_to_zero_enabled":true
               },
            ],
         },
      }
    
  2. Verifikasi status titik akhir.

    Untuk titik akhir Penahapan: GET /api/2.0/serving-endpoints/modelA-Staging

    Untuk titik akhir Produksi: GET /api/2.0/serving-endpoints/modelA-Production

  3. Setelah titik akhir siap, kueri titik akhir menggunakan:

    Untuk titik akhir Penahapan: POST /serving-endpoints/modelA-Staging/invocations

    Untuk titik akhir Produksi: POST /serving-endpoints/modelA-Production/invocations

  4. Perbarui titik akhir berdasarkan transisi versi model.

    Dalam skenario di mana model baru versi 3 dibuat, Anda dapat memiliki transisi model versi 2 ke Production, sementara model versi 3 dapat beralih ke Staging dan model versi 1 adalah Archived. Perubahan ini dapat tercermin dalam model terpisah yang melayani titik akhir sebagai berikut:

    Staging Untuk titik akhir, perbarui titik akhir untuk menggunakan versi model baru di Staging.

    PUT /api/2.0/serving-endpoints/modelA-Staging/config
    {
       "served_entities":[
          {
             "entity_name":"model-A",
             "entity_version":"3",  // New Staging model version
             "workload_size":"Small",
             "scale_to_zero_enabled":true
          },
       ],
    }
    

    Untuk Production titik akhir, perbarui titik akhir untuk menggunakan versi model baru di Production.

    PUT /api/2.0/serving-endpoints/modelA-Production/config
    {
       "served_entities":[
          {
             "entity_name":"model-A",
             "entity_version":"2",  // New Production model version
             "workload_size":"Small",
             "scale_to_zero_enabled":true
          },
       ],
    }
    

Memigrasikan alur kerja inferensi MosaicML ke Model Serving

Bagian ini memberikan panduan tentang cara memigrasikan penyebaran inferensi MosaicML Anda ke Databricks Model Serving dan menyertakan contoh notebook.

Tabel berikut ini meringkas paritas antara inferensi MosaicML dan model yang disajikan di Azure Databricks.

Inferensi MosaicML Penyajian Model Databricks
create_inference_deployment Membuat model yang melayani titik akhir
update_inference_deployment Memperbarui titik akhir penyajian model
delete_inference_deployment Menghapus titik akhir penyajian model
get_inference_deployment Mendapatkan status titik akhir penyajian model

Notebook berikut ini menyediakan contoh terpandu untuk memigrasikan llama-13b model dari MosaicML ke Databricks Model Serving.

Migrasi dari inferensi MosaicML ke buku catatan Penyajian Model Databricks

Dapatkan buku catatan

Sumber Daya Tambahan: