Bagikan melalui


Apa arti token per detik dalam throughput yang disediakan?

Artikel ini menjelaskan bagaimana dan mengapa Databricks mengukur token per detik untuk beban kerja throughput yang disediakan untuk API Model Foundation.

Performa untuk model bahasa besar (LLM) sering diukur dalam hal token per detik. Saat mengonfigurasi model produksi yang melayani titik akhir, penting untuk mempertimbangkan jumlah permintaan yang dikirim aplikasi Anda ke titik akhir. Melakukannya membantu Anda memahami apakah titik akhir Anda perlu dikonfigurasi untuk menskalakan agar tidak berdampak pada latensi.

Saat mengonfigurasi rentang peluasan skala untuk titik akhir yang disebarkan dengan throughput yang disediakan, Databricks menemukan lebih mudah untuk alasan tentang input yang masuk ke sistem Anda menggunakan token.

Apa itu token?

LLM membaca dan menghasilkan teks dalam hal apa yang disebut token. Token dapat berupa kata atau sub-kata, dan aturan yang tepat untuk memisahkan teks menjadi token bervariasi dari model ke model. Misalnya, Anda dapat menggunakan alat online untuk melihat bagaimana tokenizer Llama mengonversi kata-kata menjadi token.

Mengapa mengukur performa LLM dalam hal token per detik?

Secara tradisional, titik akhir penyajian dikonfigurasi berdasarkan jumlah permintaan bersamaan per detik (RPS). Namun, permintaan inferensi LLM membutuhkan waktu yang berbeda berdasarkan berapa banyak token yang diteruskan dan berapa banyak yang dihasilkannya, yang dapat tidak seimbang di seluruh permintaan. Oleh karena itu, memutuskan berapa banyak skala kebutuhan titik akhir Anda benar-benar memerlukan pengukur skala titik akhir dalam hal konten permintaan Anda - token.

Kasus penggunaan yang berbeda menampilkan rasio token input dan output yang berbeda:

  • Berbagai panjang konteks input: Meskipun beberapa permintaan mungkin hanya melibatkan beberapa token input, misalnya pertanyaan singkat, yang lain mungkin melibatkan ratusan atau bahkan ribuan token, seperti dokumen panjang untuk ringkasan. Varianbilitas ini membuat konfigurasi titik akhir penyajian hanya berdasarkan RPS yang menantang karena tidak memperhitungkan berbagai tuntutan pemrosesan dari berbagai permintaan.
  • Berbagai panjang output tergantung pada kasus penggunaan: Kasus penggunaan yang berbeda untuk LLM dapat menyebabkan panjang token output yang sangat berbeda. Menghasilkan token output adalah bagian inferensi LLM yang paling intensif waktu, sehingga ini dapat berdampak secara dramatis pada throughput. Misalnya, ringkasan melibatkan respons pithier yang lebih pendek, tetapi pembuatan teks, seperti menulis artikel atau deskripsi produk, dapat menghasilkan jawaban yang lebih lama.

Bagaimana cara memilih token per rentang detik untuk titik akhir saya?

Throughput yang disediakan yang melayani titik akhir dikonfigurasi dalam hal rentang token per detik yang dapat Anda kirim ke titik akhir. Titik akhir meningkatkan dan menurunkan skala untuk menangani beban aplikasi produksi Anda. Anda dikenakan biaya per jam berdasarkan rentang token per detik tempat titik akhir Anda diskalakan.

Cara terbaik untuk mengetahui token per rentang kedua pada throughput yang disediakan yang berfungsi untuk kasus penggunaan Anda adalah dengan melakukan pengujian beban dengan himpunan data perwakilan. Lihat Melakukan tolok ukur titik akhir LLM Anda sendiri.

Ada dua faktor penting yang perlu dipertimbangkan:

  • Cara Databricks mengukur token per performa kedua LLM

    Databricks membandingkan titik akhir terhadap beban kerja yang mewakili tugas ringkasan yang umum untuk kasus penggunaan pembuatan yang ditambah pengambilan. Secara khusus, beban kerja terdiri dari:

    • Token input 2048
    • 256 token output

    Rentang token yang ditampilkan menggabungkan throughput token input dan output dan, secara default, mengoptimalkan throughput dan latensi penyeimbangan.

    Tolok ukur Databricks yang dapat dikirim pengguna bahwa banyak token per detik secara bersamaan ke titik akhir pada ukuran batch 1 per permintaan. Ini mensimulasikan beberapa permintaan yang mencapai titik akhir pada saat yang sama, yang lebih akurat mewakili bagaimana Anda benar-benar akan menggunakan titik akhir dalam produksi.

  • Cara kerja penskalakan otomatis

    Model Melayani fitur sistem penskalaan otomatis cepat yang menskalakan komputasi yang mendasar untuk memenuhi token per detik permintaan aplikasi Anda. Databricks meningkatkan throughput yang disediakan dalam potongan token per detik, sehingga Anda dikenakan biaya untuk unit tambahan throughput yang disediakan hanya saat Anda menggunakannya.