Bagikan melalui


Melakukan tolok ukur titik akhir LLM Anda sendiri

Artikel ini menyediakan contoh notebook yang direkomendasikan Databricks untuk membuat tolok ukur titik akhir LLM. Ini juga mencakup pengenalan singkat tentang bagaimana Databricks melakukan inferensi LLM dan menghitung latensi dan throughput sebagai metrik performa titik akhir.

Inferensi LLM pada Databricks mengukur token per detik untuk mode throughput yang disediakan untuk API Model Foundation. Lihat Apa arti token per rentang detik dalam throughput yang disediakan?.

Contoh tolok ukur notebook

Anda dapat mengimpor notebook berikut ke lingkungan Databricks Anda dan menentukan nama titik akhir LLM Anda untuk menjalankan pengujian beban.

Tolok ukur titik akhir LLM

Dapatkan buku catatan

Pengenalan inferensi LLM

LLM melakukan inferensi dalam proses dua langkah:

  • Awali, di mana token dalam prompt input diproses secara paralel.
  • Decoding, di mana teks dihasilkan satu token pada satu waktu secara regresif otomatis. Setiap token yang dihasilkan ditambahkan ke input dan diumpankan kembali ke model untuk menghasilkan token berikutnya. Pembuatan berhenti ketika LLM menghasilkan token berhenti khusus atau ketika kondisi yang ditentukan pengguna terpenuhi.

Sebagian besar aplikasi produksi memiliki anggaran latensi, dan Databricks merekomendasikan Anda memaksimalkan throughput mengingat anggaran latensi tersebut.

  • Jumlah token input memiliki dampak besar pada memori yang diperlukan untuk memproses permintaan.
  • Jumlah token output mendominasi latensi respons secara keseluruhan.

Databricks membagi inferensi LLM menjadi sub-metrik berikut:

  • Waktu untuk token pertama (TTFT): Ini adalah seberapa cepat pengguna mulai melihat output model setelah memasukkan kueri mereka. Waktu tunggu yang rendah untuk respons sangat penting dalam interaksi real-time, tetapi kurang penting dalam beban kerja offline. Metrik ini didorong oleh waktu yang diperlukan untuk memproses perintah lalu menghasilkan token output pertama.
  • Waktu per token output (TPOT): Waktu untuk menghasilkan token output untuk setiap pengguna yang mengkueri sistem. Metrik ini sesuai dengan bagaimana setiap pengguna melihat "kecepatan" model. Misalnya, TPOT 100 milidetik per token adalah 10 token per detik, atau ~450 kata per menit, yang lebih cepat daripada yang dapat dibaca oleh orang biasa.

Berdasarkan metrik ini, total latensi dan throughput dapat didefinisikan sebagai berikut:

  • Latensi = TTFT + (TPOT) * (jumlah token yang akan dihasilkan)
  • Throughput = jumlah token output per detik di semua permintaan konkurensi

Pada Databricks, LLM yang melayani titik akhir dapat menskalakan agar sesuai dengan beban yang dikirim oleh klien dengan beberapa permintaan bersamaan. Ada trade-off antara latensi dan throughput. Ini karena, pada LLM yang melayani titik akhir, permintaan bersamaan dapat dan diproses secara bersamaan. Pada beban permintaan bersamaan rendah, latensi adalah serendah mungkin. Namun, jika Anda meningkatkan beban permintaan, latensi mungkin naik, tetapi throughput kemungkinan juga naik. Ini karena dua permintaan bernilai token per detik dapat diproses dalam waktu kurang dari dua kali lipat.

Oleh karena itu, mengontrol jumlah permintaan paralel ke dalam sistem Anda adalah inti untuk menyeimbangkan latensi dengan throughput. Jika Anda memiliki kasus penggunaan latensi rendah, Anda ingin mengirim lebih sedikit permintaan bersamaan ke titik akhir untuk menjaga latensi tetap rendah. Jika Anda memiliki kasus penggunaan throughput yang tinggi, Anda ingin menjenuhkan titik akhir dengan banyak permintaan konkurensi, karena throughput yang lebih tinggi sepadan bahkan dengan mengorbankan latensi.

Databricks tolok ukur harness

Contoh notebook tolok ukur yang dibagikan sebelumnya adalah tolok ukur Databricks. Notebook menampilkan metrik latensi dan throughput, dan memplot throughput versus kurva latensi di berbagai jumlah permintaan paralel. Penskalaan otomatis titik akhir Databricks didasarkan pada strategi "seimbang" antara latensi dan throughput. Di buku catatan, Anda mengamati bahwa karena lebih banyak pengguna bersamaan mengkueri titik akhir pada saat yang sama latensi naik serta throughput.

Grafik Latensi Throughput

Detail lebih lanjut tentang filosofi Databricks tentang tolok ukur performa LLM dijelaskan dalam blog Rekayasa Performa Inferensi LLM: Praktik Terbaik.