مراقبة النموذج لتطبيقات الذكاء الاصطناعي التوليدية (معاينة)

تعد نماذج المراقبة في الإنتاج جزءا أساسيا من دورة حياة الذكاء الاصطناعي. يمكن أن تؤثر التغييرات في البيانات وسلوك المستهلك على تطبيق الذكاء الاصطناعي التوليدي بمرور الوقت، ما يؤدي إلى أنظمة قديمة تؤثر سلبا على نتائج الأعمال وتعرض المؤسسات لمخاطر التوافق والاقتصاد والسمعة.

هام

مراقبة النموذج لتطبيقات الذكاء الاصطناعي التوليدية حاليا في المعاينة العامة. يتم توفير هذه المعاينات دون اتفاقية على مستوى الخدمة، ولا يوصى بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع ⁧⁩شروط الاستخدام التكميلية لمعاينات Microsoft Azure⁧⁩.

تسهل مراقبة نموذج Azure التعلم الآلي لتطبيقات الذكاء الاصطناعي التوليدية مراقبة تطبيقات LLM الخاصة بك في الإنتاج من أجل السلامة والجودة على إيقاع لضمان تحقيق أقصى تأثير على الأعمال. تساعد المراقبة في النهاية على الحفاظ على جودة وسلامة تطبيقات الذكاء الاصطناعي التوليدية. تتضمن القدرات والتكاملات ما يلي:

  • جمع بيانات الإنتاج باستخدام مجمع بيانات النموذج.
  • مقاييس تقييم الذكاء الاصطناعي المسؤولة مثل الترسيخ والاتساق والطلاقة والصلة والتشابه، والتي يمكن استخدامها بشكل متداخل مع Azure التعلم الآلي مقاييس تقييم التدفق الفوري.
  • القدرة على تكوين التنبيهات للانتهاكات استنادا إلى أهداف تنظيمية وتشغيل المراقبة على أساس متكرر
  • استهلاك النتائج في لوحة معلومات غنية داخل مساحة عمل في استوديو Azure التعلم الآلي.
  • التكامل مع Azure التعلم الآلي مقاييس تقييم التدفق الفوري، وتحليل بيانات الإنتاج المجمعة لتوفير تنبيهات في الوقت المناسب، وتصور المقاييس بمرور الوقت. ​

للحصول على المفاهيم الأساسية لمراقبة النموذج بشكل عام، راجع مراقبة النموذج باستخدام Azure التعلم الآلي (معاينة). في هذه المقالة، ستتعلم كيفية مراقبة تطبيق الذكاء الاصطناعي إنشاء مدعوم بنقطة نهاية مدارة عبر الإنترنت. الخطوات التي تتخذها هي:

مقاييس تقييم

يتم إنشاء المقاييس بواسطة أحدث نماذج لغة GPT التي تم تكوينها باستخدام إرشادات تقييم محددة (قوالب المطالبة) التي تعمل كنماذج تقييم لمهام التسلسل إلى التسلسل. وقد أظهرت هذه التقنية نتائج تجريبية قوية وارتباطا عاليا مع الحكم البشري عند مقارنتها بمقاييس التقييم الذكاء الاصطناعي التوليدية القياسية. شكل المزيد من المعلومات حول تقييم تدفق المطالبة، راجع إرسال اختبار مجمع وتقييم التدفق (معاينة) لمزيد من المعلومات حول تقييم التدفق السريع.

يتم دعم نماذج GPT هذه، وسيتم تكوينها كمورد Azure OpenAI:

  • GPT-3.5 Turbo
  • GPT-4
  • GPT-4-32k

يتم دعم المقاييس التالية. لمزيد من المعلومات التفصيلية حول كل مقياس، راجع مراقبة أوصاف مقاييس التقييم وحالات الاستخدام

  • الأساس: يقيم مدى توافق إجابات النموذج التي تم إنشاؤها مع المعلومات من مصدر الإدخال.
  • الصلة: تقيم مدى صلة الردود التي تم إنشاؤها للنموذج وترتبط ارتباطا مباشرا بالأسئلة المحددة.
  • الاتساق: يقيم مدى جودة نموذج اللغة الذي يمكن أن ينتج تدفقات الإخراج بسلاسة، ويقرأ بشكل طبيعي، ويشبه اللغة التي يشبهها الإنسان.
  • الطلاقة: تقيم كفاءة اللغة للإجابة المتوقعة الذكاء الاصطناعي التوليدية. وهو يقيم مدى التزام النص المنشأ بالقواعد النحوية والهياكل التركيبية والاستخدام المناسب للمفردات، مما يؤدي إلى استجابات صحيحة لغويا وطبيعية.
  • التشابه: يقيم التشابه بين جملة الحقيقة الأساسية (أو المستند) وجملة التنبؤ التي تم إنشاؤها بواسطة نموذج الذكاء الاصطناعي.

متطلبات تكوين القياس

المدخلات التالية (أسماء أعمدة البيانات) مطلوبة لقياس أمان الجيل وجودته:

  • نص المطالبة - المطالبة الأصلية المحددة (المعروفة أيضا باسم "المدخلات" أو "السؤال")
  • نص الإكمال - الإكمال النهائي من استدعاء واجهة برمجة التطبيقات الذي يتم إرجاعه (المعروف أيضا باسم "المخرجات" أو "الإجابة")
  • سياق النص - أي بيانات سياق يتم إرسالها إلى استدعاء واجهة برمجة التطبيقات، جنبا إلى جنب مع المطالبة الأصلية. على سبيل المثال، إذا كنت تأمل في الحصول على نتائج البحث فقط من مصادر/مواقع ويب معينة معتمدة للمعلومات، يمكنك تحديدها في خطوات التقييم. هذه خطوة اختيارية يمكن تكوينها من خلال تدفق المطالبة.
  • نص الحقيقة الأساسية - النص المعرف من قبل المستخدم على أنه "مصدر الحقيقة" (اختياري)

تحدد المعلمات التي تم تكوينها في أصل البيانات المقاييس التي يمكنك إنتاجها، وفقا لهذا الجدول:

Metric المطالبة الإكمال السياق الحقيقة الأرضية
التماسك المطلوب المطلوب - -
الطلاقه المطلوب المطلوب - -
الترضية المطلوب مطلوبة المطلوب -
الصلة المطلوب مطلوبة المطلوب -
التشابه المطلوب مطلوبة - المطلوب

المتطلبات الأساسية

  1. مورد Azure OpenAI: يجب أن يكون لديك مورد Azure OpenAI تم إنشاؤه بحصة نسبية كافية. يتم استخدام هذا المورد كنقطة نهاية التقييم.
  2. الهوية المدارة: إنشاء هوية مدارة معينة من قبل المستخدم (UAI) وإرفاقها بمساحة العمل الخاصة بك باستخدام الإرشادات في إرفاق الهوية المدارة المعينة من قبل المستخدم باستخدام CLI v2مع وصول دور كاف، كما هو محدد في الخطوة التالية.
  3. الوصول إلى الدور لتعيين دور بالأذونات المطلوبة، تحتاج إلى الحصول على إذن المالك أو Microsoft.Authorization/roleAssignments/write على المورد الخاص بك. قد يستغرق تحديث الاتصالات والأذونات عدة دقائق حتى يصبح ساري المفعول. يجب تعيين هذه الأدوار الإضافية إلى UAI الخاص بك:
    • المورد: مساحة العمل
    • الدور: Azure التعلم الآلي Data Scientist
  4. اتصال مساحة العمل: باتباع هذه الإرشادات، يمكنك استخدام هوية مدارة تمثل بيانات الاعتماد إلى نقطة نهاية Azure OpenAI المستخدمة لحساب مقاييس المراقبة. لا تحذف الاتصال بمجرد استخدامه في التدفق.
    • إصدار واجهة برمجة التطبيقات: 2023-03-15-preview
  5. نشر تدفق المطالبة: إنشاء وقت تشغيل تدفق موجه باتباع هذه الإرشادات، وتشغيل التدفق الخاص بك، والتأكد من تكوين النشر الخاص بك باستخدام هذه المقالة كدليل
    • مدخلات ومخرجات التدفق: تحتاج إلى تسمية مخرجات التدفق بشكل مناسب وتذكر أسماء الأعمدة هذه عند إنشاء جهاز العرض الخاص بك. في هذه المقالة، نستخدم ما يلي:
      • المدخلات (مطلوب): "مطالبة"
      • المخرجات (مطلوب): "إكمال"
        • المخرجات (اختياري): "السياق" | "الحقيقة الأساسية"
    • جمع البيانات: في "النشر" (الخطوة رقم 2 من معالج نشر تدفق المطالبة)، يجب تمكين تبديل "جمع بيانات الاستدلال" باستخدام Model Data Collector
    • المخرجات: في المخرجات (الخطوة رقم 3 من معالج نشر تدفق المطالبة)، تأكد من تحديد المخرجات المطلوبة المذكورة أعلاه (على سبيل المثال، الإكمال | السياق | ground_truth) التي تفي بمتطلبات تكوين المقياس

إشعار

إذا كان مثيل الحساب الخاص بك خلف VNet، فشاهد عزل الشبكة في تدفق سريع.

إنشاء جهاز العرض

إنشاء جهاز العرض في صفحة نظرة عامة على المراقبة لقطة شاشة توضح كيفية إنشاء جهاز عرض للتطبيق الخاص بك.

تكوين إعدادات المراقبة الأساسية

في معالج إنشاء المراقبة، قم بتغيير نوع مهمة النموذج لمطالبة الإكمال، كما هو موضح في (A) في لقطة الشاشة. لقطة شاشة توضح كيفية تكوين إعدادات المراقبة الأساسية الذكاء الاصطناعي التوليدية.

تكوين أصل البيانات

إذا كنت قد استخدمت Model Data Collector، فحدد أصلي البيانات (المدخلات والمخرجات). لقطة شاشة توضح كيفية تكوين أصل البيانات الذكاء الاصطناعي التوليدية.

تحديد إشارات المراقبة

لقطة شاشة تعرض خيارات تكوين إشارة المراقبة في مربع حوار إعدادات المراقبة.

  1. تكوين اتصال مساحة العمل (A) في لقطة الشاشة.
    1. تحتاج إلى تكوين اتصال مساحة العمل بشكل صحيح، أو ترى ما يلي: لقطة شاشة تعرض إشارة مراقبة غير مكونة.
  2. أدخل اسم توزيع مقيم Azure OpenAI (B) الخاص بك.
  3. (اختياري) انضم إلى مدخلات ومخرجات بيانات الإنتاج: يتم ربط مدخلات ومخرجات نموذج الإنتاج تلقائيا بواسطة خدمة المراقبة (C). يمكنك تخصيص هذا إذا لزم الأمر، ولكن لا يلزم اتخاذ أي إجراء. بشكل افتراضي، يكون عمود الصلة معرفا ارتباطيا.
  4. (اختياري) تكوين حدود القياس: يتم إصلاح درجة مقبولة لكل مثيل في 3/5. يمكنك ضبط نسبة النجاح الإجمالية المقبولة بين النطاق [1,99] ٪
  • أدخل أسماء الأعمدة يدويا من تدفق المطالبة (E). الأسماء القياسية هي ("موجه" | "الانتهاء" | "السياق" | "ground_truth") ولكن يمكنك تكوينه وفقا لأصل البيانات.

  • (اختياري) تعيين معدل أخذ العينات (F)

  • بمجرد تكوينها، لن تظهر الإشارة تحذيرا بعد الآن. لقطة شاشة تعرض تكوينات إشارة المراقبة دون تحذير.

تكوين الإشعارات

لا توجد أية إجراءات مطلوبة. يمكنك تكوين المزيد من المستلمين إذا لزم الأمر. لقطة شاشة تعرض مراقبة تكوينات الإعلامات.

تأكيد مراقبة تكوين الإشارة

عند تكوينه بنجاح، يجب أن يبدو جهاز العرض كما يلي: لقطة شاشة تعرض إشارة مراقبة مكونة.

تأكيد حالة المراقبة

إذا تم تكوينها بنجاح، تظهر مهمة مسار المراقبة ما يلي: لقطة شاشة تعرض إشارة مراقبة تم تكوينها بنجاح.

استهلاك النتائج

صفحة نظرة عامة على جهاز العرض

توفر نظرة عامة على جهاز العرض نظرة عامة على أداء الإشارة. يمكنك إدخال صفحة تفاصيل الإشارة للحصول على مزيد من المعلومات. لقطة شاشة تعرض نظرة عامة على جهاز العرض.

صفحة تفاصيل الإشارة

تتيح لك صفحة تفاصيل الإشارة عرض المقاييس بمرور الوقت (A) وعرض المدرجات التكرارية للتوزيع (B).

لقطة شاشة تعرض صفحة تفاصيل الإشارة.

حل التنبيهات

من الممكن فقط ضبط حدود الإشارة. يتم تصحيح النتيجة المقبولة في 3/5، ومن الممكن فقط ضبط حقل "معدل النجاح الإجمالي المقبول٪". لقطة شاشة تضبط حدود الإشارة.

الخطوات التالية