Aracılığıyla paylaş


Sağlanan aktarım hızındaki saniye başına belirteçler ne anlama gelir?

Bu makalede Databricks'in Temel Model API'leri için sağlanan aktarım hızı iş yükleri için saniye başına belirteçleri nasıl ve neden ölçtğleri açıklanmaktadır.

Büyük dil modellerinin (LLM' ler) performansı genellikle saniyedeki belirteçler açısından ölçülür. Uç noktalara hizmet veren üretim modelini yapılandırırken, uygulamanızın uç noktaya gönderdiği istek sayısını göz önünde bulundurmanız önemlidir. Bunun yapılması, gecikme süresini etkilememek için uç noktanızın ölçeklendirilecek şekilde yapılandırılması gerekip gerekmediğini anlamanıza yardımcı olur.

Sağlanan aktarım hızıyla dağıtılan uç noktalar için ölçek genişletme aralıklarını yapılandırırken Databricks, belirteçleri kullanarak sisteminize giren girişlerin nedenini belirlemeyi daha kolay buldu.

Belirteçler nedir?

LLM'ler belirteç olarak adlandırılan metinleri okur ve oluşturur. Belirteçler sözcükler veya alt sözcükler olabilir ve metni belirteçlere bölmenin tam kuralları modelden modele farklılık gösterir. Örneğin, Llama'nın belirteç oluşturucuslarının sözcükleri belirteçlere nasıl dönüştürdüğünü görmek için çevrimiçi araçları kullanabilirsiniz.

LlM performansını saniyedeki belirteçler açısından neden ölçmeli?

Geleneksel olarak, sunum uç noktaları saniye başına eşzamanlı istek sayısına (RPS) göre yapılandırılır. Ancak, bir LLM çıkarım isteği, kaç belirtecin geçirildiğine ve kaç belirteç oluşturduğuna bağlı olarak farklı bir zaman alır ve bu istekler arasında dengelenebilir. Bu nedenle, uç noktanızın ölçeğini ne kadar genişletme gereksinimine karar vermek için, isteğinizin içeriği (belirteçler) açısından uç nokta ölçeğinin ölçülmesi gerekir.

Farklı kullanım örnekleri farklı giriş ve çıkış belirteci oranlarına sahiptir:

  • Farklı giriş bağlamları uzunlukları: Bazı istekler yalnızca birkaç giriş belirteci içerebilir, örneğin kısa bir soru, bazıları ise özetleme için uzun bir belge gibi yüzlerce, hatta binlerce belirteç içerebilir. Bu değişkenlik, farklı isteklerin değişen işleme taleplerini hesaba eklemediğinden yalnızca RPS'ye dayalı bir hizmet uç noktası yapılandırmayı zorlaştırır.
  • Kullanım örneğine bağlı olarak farklı çıkış uzunlukları: LLM'ler için farklı kullanım örnekleri, çok farklı çıkış belirteci uzunluklarına yol açabilir. Çıkış belirteçleri oluşturmak, LLM çıkarımının en yoğun zaman alan bölümüdür, bu nedenle aktarım hızını önemli ölçüde etkileyebilir. Örneğin özetleme daha kısa ve daha basit yanıtlar içerir, ancak makale veya ürün açıklamaları yazma gibi metin oluşturma işlemi çok daha uzun yanıtlar oluşturabilir.

Uç noktam için saniyedeki belirteç aralığını Nasıl yaparım? seçin?

Sağlanan aktarım hızı sunan uç noktalar, uç noktaya gönderebileceğiniz saniye başına belirteç aralığı açısından yapılandırılır. Uç nokta, üretim uygulamanızın yükünü işlemek için ölçeği artırıp küçültür. Uç noktanızın ölçeklendirilen saniyedeki belirteç aralığına göre saat başına ücretlendirilirsiniz.

Sağlanan aktarım hızı sunan uç noktanızda saniye başına hangi belirteçlerin çalıştığını öğrenmenin en iyi yolu, temsili bir veri kümesiyle yük testi gerçekleştirmektir. Bkz. Kendi LLM uç nokta karşılaştırmanızı gerçekleştirme.

Dikkate alınması gereken iki önemli faktör vardır:

  • Databricks LLM'nin saniye başına belirteç performansını nasıl ölçer?

    Databricks, alma artırılmış oluşturma kullanım örnekleri için ortak olan özetleme görevlerini temsil eden bir iş yüküyle uç noktaları karşılaştırır. İş yükü özellikle şunlardan oluşur:

    • 2048 giriş belirteçleri
    • 256 çıkış belirteci

    Görüntülenen belirteç aralıkları giriş ve çıkış belirteci aktarım hızını birleştirir ve varsayılan olarak aktarım hızını ve gecikme süresini dengelemek için en iyi duruma getirir.

    Databricks, kullanıcıların istek başına 1 toplu iş boyutundaki uç noktaya saniyede aynı anda çok sayıda belirteç gönderebildiğini kıyaslar. Bu, uç noktaya aynı anda birden çok isteğin benzetimini yapar ve bu da üretimde uç noktayı nasıl kullanacağınızı daha doğru bir şekilde temsil eder.

  • Otomatik ölçeklendirme nasıl çalışır?

    Model Sunma, uygulamanızın saniye başına belirteç talebini karşılamak için temel alınan işlemi ölçeklendirin hızlı bir otomatik ölçeklendirme sistemi içerir. Databricks, sağlanan aktarım hızını saniye başına belirteç öbekleri halinde artırdığından, sağlanan aktarım hızının ek birimleri için yalnızca bunları kullandığınızda ücretlendirilirsiniz.