إجراء قياس نقطة نهاية LLM الخاص بك

توفر هذه المقالة مثال دفتر ملاحظات موصى به ل Databricks لقياس نقطة نهاية LLM. كما يتضمن مقدمة موجزة حول كيفية أداء Databricks لاستدلال LLM وحساب زمن الانتقال ومعدل النقل كمقاييس أداء نقطة النهاية.

يقيس استدلال LLM على Databricks الرموز المميزة في الثانية لوضع معدل النقل المقدم لواجهات برمجة تطبيقات نموذج المؤسسة. راجع ما هي الرموز المميزة في النطاقات الثانية في متوسط معدل النقل المقدم؟.

مثال على مقياس دفتر الملاحظات

يمكنك استيراد دفتر الملاحظات التالي إلى بيئة Databricks وتحديد اسم نقطة نهاية LLM لتشغيل اختبار التحميل.

قياس نقطة نهاية LLM

الحصول على دفتر الملاحظات

مقدمة استدلال LLM

تقوم LLMs بإجراء الاستدلال في عملية من خطوتين:

  • الملء المسبق، حيث تتم معالجة الرموز المميزة في مطالبة الإدخال بالتوازي.
  • فك التشفير، حيث يتم إنشاء نص رمز مميز واحد في كل مرة بطريقة انحدار تلقائي. يتم إلحاق كل رمز مميز تم إنشاؤه إلى الإدخال وتغذية مرة أخرى في النموذج لإنشاء الرمز المميز التالي. يتوقف الجيل عندما يقوم LLM بإخراج رمز إيقاف مميز خاص أو عند استيفاء شرط معرف من قبل المستخدم.

تحتوي معظم تطبيقات الإنتاج على ميزانية زمن انتقال، ويوصي Databricks بتكبير معدل النقل نظرا لموازنة زمن الانتقال هذه.

  • عدد رموز الإدخال المميزة له تأثير كبير على الذاكرة المطلوبة لمعالجة الطلبات.
  • يهيمن عدد رموز الإخراج المميزة على زمن انتقال الاستجابة الإجمالي.

تقسم Databricks استنتاج LLM إلى المقاييس الفرعية التالية:

  • وقت الرمز المميز الأول (TTFT): هذه هي سرعة بدء المستخدمين في رؤية إخراج النموذج بعد إدخال الاستعلام الخاص بهم. تعد أوقات الانتظار المنخفضة للاستجابة ضرورية في التفاعلات في الوقت الحقيقي، ولكنها أقل أهمية في أحمال العمل دون اتصال. يعتمد هذا المقياس على الوقت المطلوب لمعالجة المطالبة ثم إنشاء أول رمز مميز للإخراج.
  • الوقت لكل رمز مميز للإخراج (TPOT): وقت إنشاء رمز مميز للإخراج لكل مستخدم يقوم بالاستعلام عن النظام. يتوافق هذا المقياس مع كيفية إدراك كل مستخدم ل "سرعة" النموذج. على سبيل المثال، سيكون TPOT 100 مللي ثانية لكل رمز مميز 10 رموز مميزة في الثانية، أو حوالي 450 كلمة في الدقيقة، وهو أسرع مما يمكن للشخص المعتاد قراءته.

استنادا إلى هذه المقاييس، يمكن تعريف إجمالي زمن الانتقال ومعدل النقل على النحو التالي:

  • زمن الانتقال = TTFT + (TPOT) * (عدد الرموز المميزة التي سيتم إنشاؤها)
  • معدل النقل = عدد الرموز المميزة للإخراج في الثانية عبر جميع طلبات التزامن

في Databricks، يمكن لنقاط نهاية خدمة LLM التحجيم لمطابقة الحمل المرسل من قبل العملاء مع طلبات متزامنة متعددة. هناك مفاضلة بين زمن الانتقال ومعدل النقل. ويرجع ذلك إلى أنه في LLM التي تخدم نقاط النهاية، يمكن معالجة الطلبات المتزامنة ومعالجتها في نفس الوقت. عند تحميل الطلب المتزامن المنخفض، يكون زمن الانتقال هو أدنى زمن ممكن. ومع ذلك، إذا قمت بزيادة تحميل الطلب، فقد يرتفع زمن الانتقال، ولكن من المحتمل أن يرتفع معدل النقل أيضا. وذلك لأنه يمكن معالجة طلبين بقيمة الرموز المميزة في الثانية في أقل من ضعف الوقت.

لذلك، فإن التحكم في عدد الطلبات المتوازية في النظام الخاص بك هو أمر أساسي لموازنة زمن الانتقال مع معدل النقل. إذا كان لديك حالة استخدام زمن انتقال منخفض، فأنت تريد إرسال عدد أقل من الطلبات المتزامنة إلى نقطة النهاية للحفاظ على زمن الانتقال منخفضا. إذا كانت لديك حالة استخدام عالية الإنتاجية، فأنت تريد تشبع نقطة النهاية بالكثير من طلبات التزامن، لأن معدل النقل الأعلى يستحق ذلك حتى على حساب زمن الانتقال.

تسخير قياس Databricks

دفتر الملاحظات المثال لقياس الأداء المشترك سابقا هو تسخير قياس بيانات Databricks. يعرض دفتر الملاحظات مقاييس زمن الانتقال ومعدل النقل، ويرسم معدل النقل مقابل منحنى زمن الانتقال عبر أعداد مختلفة من الطلبات المتوازية. يستند التحجيم التلقائي لنقطة نهاية Databricks إلى استراتيجية "متوازنة" بين زمن الانتقال ومعدل النقل. في دفتر الملاحظات، تلاحظ أنه نظرا لأن المزيد من المستخدمين المتزامنين يقومون بالاستعلام عن نقطة النهاية في نفس الوقت الذي يرتفع فيه زمن الانتقال بالإضافة إلى معدل النقل.

Throughput-Latency Graph

يتم وصف مزيد من التفاصيل حول فلسفة Databricks حول قياس أداء LLM في مدونة LLM Inference Performance Engineering: Best Practices.