ماذا تعني الرموز المميزة في الثانية في معدل النقل المقدم؟

توضح هذه المقالة كيف ولماذا يقيس Databricks الرموز المميزة في الثانية لأحمال العمل الإنتاجية المقدمة لواجهات برمجة تطبيقات نموذج المؤسسة.

غالبا ما يتم قياس أداء نماذج اللغات الكبيرة (LLMs) من حيث الرموز المميزة في الثانية. عند تكوين نموذج الإنتاج الذي يخدم نقاط النهاية، من المهم مراعاة عدد الطلبات التي يرسلها تطبيقك إلى نقطة النهاية. يساعدك القيام بذلك على فهم ما إذا كانت نقطة النهاية الخاصة بك تحتاج إلى تكوين لتوسيع نطاقها حتى لا تؤثر على زمن الانتقال.

عند تكوين نطاقات التوسيع لنقاط النهاية الموزعة مع معدل النقل المقدم، وجد Databricks أنه من الأسهل التفكير في المدخلات التي تدخل إلى النظام الخاص بك باستخدام الرموز المميزة.

ما هي الرموز المميزة؟

تقرأ LLMs النص وتنشئه من حيث ما يسمى الرمز المميز. يمكن أن تكون الرموز المميزة كلمات أو كلمات فرعية، وتختلف القواعد الدقيقة لتقسيم النص إلى رموز مميزة من نموذج إلى آخر. على سبيل المثال، يمكنك استخدام الأدوات عبر الإنترنت لمعرفة كيفية تحويل الرمز المميز الخاص ب Llama للكلمات إلى رموز مميزة.

لماذا تقيس أداء LLM من حيث الرموز المميزة في الثانية؟

تقليديا، يتم تكوين نقاط نهاية الخدمة استنادا إلى عدد الطلبات المتزامنة في الثانية (RPS). ومع ذلك، يستغرق طلب استدلال LLM مقدارا مختلفا من الوقت استنادا إلى عدد الرموز المميزة التي يتم تمريرها وعدد الرموز المميزة التي ينشئها، والتي يمكن أن تكون غير متوازنة عبر الطلبات. لذلك، فإن تحديد مقدار حجم احتياجات نقطة النهاية يتطلب بالفعل قياس مقياس نقطة النهاية من حيث محتوى طلبك - الرموز المميزة.

تتميز حالات الاستخدام المختلفة بنسب مختلفة للرمز المميز للإخراج والإخراج:

  • أطوال مختلفة لسياقات الإدخال: في حين أن بعض الطلبات قد تتضمن عددا قليلا فقط من رموز الإدخال المميزة، على سبيل المثال سؤال قصير، قد يتضمن البعض الآخر مئات أو حتى آلاف الرموز المميزة، مثل مستند طويل للتلخيص. يجعل هذا التغير تكوين نقطة نهاية خدمة استنادا إلى RPS صعبا فقط لأنه لا يمثل متطلبات المعالجة المختلفة للطلبات المختلفة.
  • أطوال الإخراج المختلفة اعتمادا على حالة الاستخدام: يمكن أن تؤدي حالات الاستخدام المختلفة ل LLMs إلى أطوال رمز إخراج مختلفة إلى حد كبير. إنشاء الرموز المميزة للإخراج هو الجزء الأكثر كثافة زمنيا من استدلال LLM، لذلك يمكن أن يؤثر هذا بشكل كبير على معدل النقل. على سبيل المثال، يتضمن التلخيص استجابات أقصر، ولكن إنشاء النص، مثل كتابة المقالات أو أوصاف المنتج، يمكن أن يولد إجابات أطول بكثير.

كيف أعمل تحديد الرموز المميزة في النطاق الثاني لنقطة النهاية الخاصة بي؟

يتم تكوين نقاط نهاية خدمة معدل النقل المتوفرة من حيث مجموعة من الرموز المميزة في الثانية التي يمكنك إرسالها إلى نقطة النهاية. تتوسع نقطة النهاية لأعلى ولأسفل للتعامل مع تحميل تطبيق الإنتاج الخاص بك. يتم تحصيل الرسوم منك في الساعة استنادا إلى نطاق الرموز المميزة في الثانية التي يتم تحجيم نقطة النهاية إليها.

أفضل طريقة لمعرفة الرموز المميزة في النطاق الثاني على نقطة نهاية خدمة معدل النقل المقدمة تعمل لحالة الاستخدام الخاصة بك هي إجراء اختبار تحميل مع مجموعة بيانات تمثيلية. راجع إجراء قياس نقطة نهاية LLM الخاص بك.

هناك عاملان مهمان يجب أخذهما في الاعتبار:

  • كيف يقيس Databricks الرموز المميزة في الثانية من أداء LLM

    نقاط نهاية معايير Databricks مقابل حمل العمل الذي يمثل مهام التلخيص الشائعة لحالات استخدام الجيل المعزز للاسترداد. على وجه التحديد، يتكون حمل العمل من:

    • الرموز المميزة لإدخال 2048
    • 256 رمزا مميزا للإخراج

    تجمع نطاقات الرموز المميزة المعروضة بين معدل نقل رمز الإدخال والإخراج، وبشكل افتراضي، تحسين موازنة معدل النقل وزمن الانتقال.

    معايير Databricks التي يمكن للمستخدمين إرسال العديد من الرموز المميزة في الثانية بشكل متزامن إلى نقطة النهاية بحجم دفعة 1 لكل طلب. وهذا يحاكي طلبات متعددة تصل إلى نقطة النهاية في نفس الوقت، والتي تمثل بشكل أكثر دقة كيفية استخدام نقطة النهاية فعليا في الإنتاج.

  • كيفية عمل التحجيم التلقائي

    تتميز خدمة النموذج بنظام تحجيم تلقائي سريع يتوسع في الحوسبة الأساسية لتلبية الرموز المميزة في الثانية من التطبيق الخاص بك. يقوم Databricks بزيادة معدل النقل المقدم في مجموعات من الرموز المميزة في الثانية، لذلك يتم تحصيل رسوم منك مقابل وحدات إضافية من معدل النقل المقدم فقط عند استخدامها.