Bagikan melalui


Pengoptimalan rute pada titik akhir layanan

Artikel ini menjelaskan cara mengaktifkan pengoptimalan rute pada titik akhir penyajian model atau penyajian fitur. Rute yang dioptimalkan untuk melayani titik akhir secara dramatis menurunkan latensi overhead dan memungkinkan peningkatan substansial dalam throughput yang didukung oleh titik akhir Anda.

Titik akhir yang dioptimalkan rute dikueri secara berbeda dari titik akhir yang tidak dioptimalkan rute, termasuk menggunakan URL dan autentikasi yang berbeda menggunakan token OAuth. Lihat Mengkueri titik akhir penyajian yang dioptimalkan rute untuk detailnya.

Apa itu pengoptimalan rute?

Saat Anda mengaktifkan pengoptimalan rute pada titik akhir, Databricks Model Serving meningkatkan jalur jaringan untuk permintaan inferensi, menghasilkan komunikasi yang lebih cepat dan lebih langsung antara klien Anda dan model. Perutean yang dioptimalkan ini membuka kueri yang lebih tinggi per detik (QPS) dibandingkan dengan titik akhir yang tidak dioptimalkan dan menyediakan latensi yang lebih stabil dan lebih rendah untuk aplikasi Anda.

Petunjuk / Saran

Pengoptimalan rute adalah salah satu dari beberapa strategi untuk mengoptimalkan beban kerja produksi. Untuk panduan komprehensif untuk teknik pengoptimalan, lihat Mengoptimalkan titik akhir Model Melayani untuk produksi.

Persyaratan

Mengaktifkan pengoptimalan rute pada model yang melayani titik akhir

Menyajikan Antarmuka Pengguna

Anda dapat mengaktifkan pengoptimalan rute saat membuat titik akhir penyajian model menggunakan UI Penyajian. Anda hanya dapat mengaktifkan pengoptimalan rute selama pembuatan titik akhir, Anda tidak dapat memperbarui titik akhir yang ada untuk dioptimalkan.

  1. Di sidebar, klik Sajikan untuk menampilkan UI Sajikan.
  2. Klik Buat titik akhir penyajian.
  3. Di bagian Pengoptimalan rute , pilih Aktifkan pengoptimalan rute.
  4. Setelah titik akhir Anda dibuat, Databricks mengirimkan pemberitahuan tentang apa yang diperlukan untuk mengkueri titik akhir yang dioptimalkan untuk rute.

Membuat model yang melayani titik akhir

REST API

Untuk mengonfigurasi titik akhir penyajian Anda untuk pengoptimalan rute menggunakan REST API, tentukan route_optimized parameter selama pembuatan titik akhir penyajian model. Anda hanya dapat menentukan parameter ini selama pembuatan titik akhir, Anda tidak dapat memperbarui titik akhir yang ada untuk dioptimalkan rute.

POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [{
      "entity_name": "ads1",
      "entity_version": "1",
      "workload_type": "CPU",
      "workload_size": "Small",
      "scale_to_zero_enabled": true,
    }],
  },
  "route_optimized": true
}

Phyton

Jika Anda menggunakan Python, Anda bisa menggunakan buku catatan berikut untuk membuat titik akhir penyajian yang dioptimalkan rute.

Membuat titik akhir penyajian yang dioptimalkan rute menggunakan notebook Python

Ambil buku catatan

Databricks SDK

Untuk mengonfigurasi titik akhir penyajian Anda untuk pengoptimalan rute menggunakan Databricks SDK, tentukan route_optimized parameter selama pembuatan titik akhir penyajian model. Anda hanya dapat menentukan parameter ini selama pembuatan titik akhir, Anda tidak dapat memperbarui titik akhir yang ada untuk dioptimalkan rute.

from databricks.sdk import WorkspaceClient
from databricks.sdk.service.serving import EndpointCoreConfigInput, ServedEntityInput

workspace = WorkspaceClient()

workspace.serving_endpoints.create(
  name="my-serving-endpoint",
  config = EndpointCoreConfigInput(
    served_entities=[
    ServedEntityInput(
        entity_name="main.default.my-served-entity",
        scale_to_zero_enabled=True,
        workload_size="Small"
      )
    ]
  ),
  route_optimized=True
)

Mengaktifkan pengoptimalan rute pada titik akhir penyajian fitur

Untuk menggunakan pengoptimalan rute untuk Fitur dan Penyajian Fungsi, tentukan nama lengkap spesifikasi fitur di entity_name bidang untuk melayani permintaan pembuatan titik akhir. entity_version tidak diperlukan untuk FeatureSpecs.


POST /api/2.0/serving-endpoints

{
  "name": "my-endpoint",
  "config":
  {
    "served_entities":
    [
      {
        "entity_name": "catalog_name.schema_name.feature_spec_name",
        "workload_type": "CPU",
        "workload_size": "Small",
        "scale_to_zero_enabled": true
      }
    ]
  },
  "route_optimized": true
}

Batasan

  • Pengoptimalan rute hanya tersedia untuk model kustom yang melayani titik akhir dan fitur yang melayani titik akhir. Melayani titik akhir yang menggunakan API Model Foundation atau model eksternal tidak didukung.
  • Token OAuth internal Databricks adalah satu-satunya autentikasi yang didukung untuk pengoptimalan rute. Token akses pribadi tidak didukung.

Sumber daya tambahan