مقدمة

مكتمل

يقوم فريقك بنشر وكيل ذكاء اصطناعي يتعامل مع استفسارات العملاء، وفي البداية يؤدي أداء جيدا. ولكن مع ارتفاع التكاليف وتسليط الضوء على ملاحظات العملاء في جودة الاستجابة، تواجه تحديا حاسما: كيف تحسن الوكيل بشكل منهجي دون توقع أي التغييرات ستساعد؟

محاولات التحسين العشوائية تضيع الوقت والموارد. قد تغير النماذج على أمل تحسين الأداء، لكن بدون قياس التأثير، لا يمكنك تحديد ما إذا كانت الجودة قد تحسنت أو انخفضت التكاليف، أو تغيرت أوقات الاستجابة بشكل ملحوظ. يقوم أعضاء الفريق المختلفون بتقييم استجابات نفس الوكيل بشكل مختلف، مما يجعل من المستحيل مقارنة التجارب بشكل موضوعي.

يتطلب تحسين الوكيل الفعال تقييما منظما: مقاييس واضحة تكشف عن خصائص الجودة والتكلفة والأداء؛ تجارب محكمة تختبر تغييرا واحدا في كل مرة؛ وطرق تسجيل متسقة تقضي على التحيز البشري. بدون هذا النهج المنهجي، يصبح التحسين مجرد تخمين بدلا من هندسة قائمة على الأدلة.

تدير شركة أدفنتشر ووركس، وهي شركة مغامرات خارجية، وكيل دليل المسارات يساعد العملاء في تخطيط رحلات المشي مع توصيات للمسار، وحجوزات الإقامة، واقتراحات للمعدات. يريد الفريق تقليل تكاليف التشغيل من خلال التحول من GPT-4 إلى GPT-4 mini، لكنهم بحاجة للتحقق من أن الجودة لا تتدهور عن هدف رضا العملاء 4.2/5.0 وأن أوقات الاستجابة تبقى أقل من 30 ثانية. هم بحاجة إلى نهج منظم لاختبار هذا التغيير بشكل موضوعي.

الأهداف التعليمية

في هذه الوحدة، تتعلم ما يلي:

  • تجارب تقييم التصميم مع مقاييس واضحة للجودة والتكلفة والأداء
  • تطبيق سير العمل المعتمد على git لتنظيم ومقارنة متغيرات الوكلاء بشكل منهجي
  • أنشئ معايير تقييم تضمن النقاط المتسقة بين المقيمين البشريين

لنبدأ باكتشاف كيفية تصميم تجارب تقييم تقيس أداء الوكيل بشكل موضوعي.