Bagikan melalui


Memigrasikan LLM yang dioptimalkan yang melayani titik akhir ke throughput yang disediakan

Artikel ini menjelaskan cara memigrasikan LLM yang ada yang melayani titik akhir ke pengalaman throughput yang disediakan yang tersedia menggunakan API Model Foundation.

Apa yang berubah?

Throughput yang disediakan memberikan pengalaman yang lebih sederhana untuk meluncurkan LLM yang dioptimalkan yang melayani titik akhir. Databricks telah memodifikasi sistem penyajian model LLM mereka sehingga:

  • Rentang peluasan skala dapat dikonfigurasi dalam istilah ASLI LLM, seperti token per detik alih-alih konkurensi.
  • Pelanggan tidak perlu lagi memilih jenis beban kerja GPU itu sendiri.

Titik akhir penyajian LLM baru dibuat dengan throughput yang disediakan secara default. Jika Anda ingin terus memilih jenis beban kerja GPU, pengalaman ini hanya didukung menggunakan API.

Memigrasikan LLM yang melayani titik akhir ke throughput yang disediakan

Cara paling sederhana untuk memigrasikan titik akhir yang ada ke throughput yang disediakan adalah dengan memperbarui titik akhir Anda dengan versi model baru. Setelah Anda memilih versi model baru, UI menampilkan pengalaman untuk throughput yang disediakan. UI menunjukkan token per rentang detik berdasarkan tolok ukur Databricks untuk kasus penggunaan umum.

Provisioned throughput LLM serving

Performa dengan penawaran yang diperbarui ini benar-benar lebih baik karena peningkatan pengoptimalan, dan harga untuk titik akhir Anda tetap tidak berubah. Silakan hubungi untuk model-serving-feedback@databricks.com umpan balik atau kekhawatiran produk.