مشاركة عبر


إمكانية الملاحظة في الذكاء الاصطناعي التوليدية

مهم

العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام التكميلية لمعاينات Microsoft Azure.

في عالم اليوم القائم على الذكاء الاصطناعي، تعمل عمليات الذكاء الاصطناعي التوليدية (GenAIOps) على إحداث ثورة في كيفية بناء المؤسسات للأنظمة الذكية ونشرها. مع تزايد استخدام الشركات الذكاء الاصطناعي لتحويل عملية صنع القرار، وتعزيز تجارب العملاء، وتغذية الابتكار، فإن أحد العناصر له أهمية قصوى: أطر التقييم القوية. التقييم ليس مجرد نقطة تفتيش. إنه أساس الثقة في التطبيقات الذكاء الاصطناعي. بدون تقييم صارم، يمكن للأنظمة الذكاء الاصطناعي إنتاج محتوى:

  • ملفقة أو غير مؤرضة في الواقع
  • غير ذي صلة أو غير متصل باحتياجات المستخدم
  • ضارة في إدامة مخاطر المحتوى والقوالب النمطية
  • خطير في نشر المعلومات المضللة
  • عرضة للاستغلال الأمني

هذا هو المكان الذي يصبح فيه المقيمون أساسيين. تقيس هذه الأدوات المتخصصة كلا من تواتر المخاطر وشدتها في مخرجات الذكاء الاصطناعي، ما يتيح للفرق معالجة المخاوف المتعلقة بالجودة والسلامة والأمان بشكل منهجي طوال رحلة التطوير الذكاء الاصطناعي بأكملها - بدءا من اختيار النموذج الصحيح لمراقبة أداء الإنتاج وجودته وسلامته.

ما هم المقيمون؟

المقيمون هم أدوات متخصصة تقيس جودة الاستجابات الذكاء الاصطناعي وسلامتها وموثوقيتها. من خلال تنفيذ تقييمات منهجية طوال دورة حياة التطوير الذكاء الاصطناعي، يمكن للفرق تحديد ومعالجة المشكلات المحتملة قبل أن تؤثر على المستخدمين. يوفر المقيمون المدعومون التاليون قدرات تقييم شاملة عبر أنواع الذكاء الاصطناعي المختلفة والمخاوف:

RAG (استرداد الجيل المعزز):

مقيم الغرض
استرداد يقيس مدى فعالية النظام في استرداد المعلومات ذات الصلة.
استرداد المستند يقيس الدقة في نتائج الاسترداد نظرا للحقيقة الأساسية.
الارتباط بالواقع يقيس مدى اتساق الاستجابة فيما يتعلق بالسياق المسترد.
الأرضية Pro يقيس ما إذا كانت الاستجابة متسقة فيما يتعلق بالسياق المسترد.
الصلة يقيس مدى صلة الاستجابة بالاستعلام.
اكتمال الاستجابة تدابير إلى أي مدى تكون الاستجابة كاملة (لا تفتقد إلى معلومات هامة) فيما يتعلق بالحقيقة الواقعية.

العوامل (معاينة):

مقيم الغرض
دقة الهدف يقيس مدى دقة العامل في تحديد أهداف المستخدم وعالجها.
الالتزام بالمهمة يقيس مدى تبعية العامل للمهام المحددة.
دقة استدعاء الأداة يقيس مدى جودة اختيار العامل واستدعاء الأدوات الصحيحة له.

الغرض العام:

مقيم الغرض
الطلاقة يقيس جودة اللغة الطبيعية وقابلية القراءة.
الاتساق يقيس الاتساق المنطقي وتدفق الاستجابات.
سؤالجواب تدابير شاملة مختلف جوانب الجودة في الإجابة على الأسئلة.

السلامة والأمان (معاينة):

مقيم الغرض
عنف يكتشف محتوى عنيفا أو تحريضا.
جنسي تحديد المحتوى الجنسي غير المناسب.
إيذاء النفس الكشف عن المحتوى الذي يروج للضرر الذاتي أو يصفه.
الكراهية والظلم تحديد المحتوى المتحيز أو التمييزي أو البغيض.
سمات غير مؤرضة يكتشف معلومات ملفقة أو هلوسة مستنتجة من تفاعلات المستخدم.
ثغرة أمنية في التعليمات البرمجية تحديد مشكلات الأمان في التعليمات البرمجية التي تم إنشاؤها.
المواد المحمية الكشف عن الاستخدام غير المصرح به للمحتوى المحمي أو المحمي أو المحمي.
أمان المحتوى تقييم شامل لمختلف الشواغل المتعلقة بالسلامة.

التشابه النصي:

مقيم الغرض
التشابه قياس التشابه النصي بمساعدة الذكاء الاصطناعي.
درجة F1 يتداخل الوسط التوافقي للدقة والاسترجاع في الرمز المميز بين الاستجابة والحقيقة الأرضية.
بلو تتداخل درجة التقييم ثنائية اللغة لمقاييس جودة الترجمة في n-غرام بين الاستجابة والحقيقة الأساسية.
GLEU ويتداخل Google-BLEU المتغير لتدابير التقييم على مستوى الجملة بين الاستجابة والحقيقة الأساسية.
روج Recall-Oriented تتداخل مقاييس التقييم الناضغة في n-غرام بين الاستجابة والحقيقة الأساسية.
نيزك يتداخل مقياس تقييم الترجمة مع مقاييس الترتيب الصريح بالجرام n بين الاستجابة والحقيقة الأساسية.

درجات Azure OpenAI (معاينة):

مقيم الغرض
تسمية النموذج تصنيف المحتوى باستخدام إرشادات وتسميات مخصصة.
Model Scorer إنشاء درجات رقمية (نطاق مخصص) للمحتوى استنادا إلى إرشادات مخصصة.
مدقق السلسلة إجراء عمليات التحقق من صحة النص المرنة ومطابقة الأنماط.
التشابه النصي تقييم جودة النص أو تحديد التقارب الدلالي.

باستخدام هؤلاء المقيمين استراتيجيا طوال دورة حياة التطوير، يمكن للفرق بناء تطبيقات الذكاء الاصطناعي أكثر موثوقية وأمانا وفعالية تلبي احتياجات المستخدم مع تقليل المخاطر المحتملة.

رسم تخطيطي لدورة حياة GenAIOps للمؤسسة، يظهر اختيار النموذج، وبناء تطبيق الذكاء الاصطناعي، وتشغيله.

المراحل الثلاث لتقييم GenAIOps

تحديد النموذج الأساسي

قبل إنشاء التطبيق الخاص بك، تحتاج إلى تحديد الأساس الصحيح. يساعدك هذا التقييم الأولي على مقارنة نماذج مختلفة استنادا إلى:

  • الجودة والدقة: ما مدى أهمية واتساق استجابات النموذج؟
  • أداء المهمة: هل يتعامل النموذج مع حالات الاستخدام المحددة بكفاءة؟
  • الاعتبارات الأخلاقية: هل النموذج خال من التحيزات الضارة؟
  • ملف تعريف الأمان: ما هو خطر إنشاء محتوى غير آمن؟

الأدوات المتوفرة: معيار Azure الذكاء الاصطناعي Foundry لمقارنة النماذج على مجموعات البيانات العامة أو بياناتك الخاصة، وAzure الذكاء الاصطناعي Evaluation SDK لاختبار نقاط نهاية نموذج محددة.

تقييم ما قبل الإنتاج

بعد تحديد نموذج أساسي، فإن الخطوة التالية هي تطوير تطبيق الذكاء الاصطناعي - مثل روبوت دردشة يعمل الذكاء الاصطناعي أو تطبيق الجيل المعزز باسترداد (RAG) أو تطبيق الذكاء الاصطناعي عاملي أو أي أداة الذكاء الاصطناعي إنشاءية أخرى. بمجرد اكتمال التطوير، يبدأ التقييم قبل الإنتاج. قبل النشر في بيئة إنتاج، يعد الاختبار الشامل ضروريا لضمان أن النموذج جاهز للاستخدام في العالم الحقيقي.

يتضمن تقييم ما قبل الإنتاج ما يلي:

  • الاختبار باستخدام مجموعات بيانات التقييم: تحاكي مجموعات البيانات هذه تفاعلات المستخدم الواقعية لضمان أداء تطبيق الذكاء الاصطناعي كما هو متوقع.
  • تحديد حالات الحافة: العثور على سيناريوهات حيث قد تؤدي جودة استجابة تطبيق الذكاء الاصطناعي إلى تدهور أو إنتاج مخرجات غير مرغوب فيها.
  • تقييم القوة: التأكد من أن النموذج يمكنه التعامل مع مجموعة من تباينات الإدخال دون انخفاضات كبيرة في الجودة أو الأمان.
  • قياس المقاييس الرئيسية: يتم تقييم مقاييس مثل أساس الاستجابة والأهمية والسلامة لتأكيد الاستعداد للإنتاج.

رسم تخطيطي لتقييم ما قبل الإنتاج للنماذج والتطبيقات مع الخطوات الست.

تعمل مرحلة ما قبل الإنتاج كتحقق نهائي من الجودة، ما يقلل من مخاطر نشر تطبيق الذكاء الاصطناعي لا يفي بمعايير الأداء أو السلامة المطلوبة.

أدوات التقييم ونهجه:

  • إحضار بياناتك الخاصة: يمكنك تقييم تطبيقاتك الذكاء الاصطناعي في مرحلة ما قبل الإنتاج باستخدام بيانات التقييم الخاصة بك مع المقيمين المدعومين، بما في ذلك جودة الجيل أو السلامة أو المقيمين المخصصين، وعرض النتائج عبر مدخل Azure الذكاء الاصطناعي Foundry. استخدم معالج تقييم Azure الذكاء الاصطناعي Foundry أو مقيمي Azure الذكاء الاصطناعي Evaluation SDK المدعومين، بما في ذلك جودة الجيل أو السلامة أو المقيمين المخصصين، وعرض النتائج عبر مدخل Azure الذكاء الاصطناعي Foundry.
  • المحاكيات وعامل الفريق الأحمر الذكاء الاصطناعي (معاينة): إذا لم يكن لديك بيانات تقييم (بيانات الاختبار)، يمكن أن تساعد محاكيات Azure الذكاء الاصطناعي Evaluation SDK عن طريق إنشاء استعلامات متعلقة بالموضوع أو استعلامات خصومية. تختبر هذه المحاكيات استجابة النموذج للاستعلامات المناسبة للحالة أو التي تشبه الهجوم (حالات الحافة).
    • تقوم أجهزة المحاكاة المتطفلة بإدخال استعلامات ثابتة تحاكي مخاطر السلامة المحتملة أو الهجمات الأمنية مثل أو محاولة اختراق السجن، مما يساعد على تحديد القيود وإعداد النموذج لظروف غير متوقعة.
    • تنشئ المحاكيات المناسبة للسياق محادثات نموذجية ذات صلة تتوقعها من المستخدمين لاختبار جودة الاستجابات. باستخدام المحاكيات المناسبة للسياق، يمكنك تقييم مقاييس مثل الأساس والصلة والاتساق وطلاقة الاستجابات التي تم إنشاؤها.
    • الذكاء الاصطناعي عامل الفريق الأحمر (معاينة) يحاكي الهجمات الخصومية المعقدة ضد نظام الذكاء الاصطناعي الخاص بك باستخدام مجموعة واسعة من هجمات الأمان والأمان باستخدام إطار عمل Microsoft المفتوح ل Python Risk Identity Tool أو PyRIT. تعمل عمليات الفحص التلقائية باستخدام عامل الفريق الأحمر الذكاء الاصطناعي على تحسين تقييم مخاطر ما قبل الإنتاج من خلال الاختبار المنهجي لتطبيقات الذكاء الاصطناعي للمخاطر. تتضمن هذه العملية سيناريوهات هجوم محاكاة لتحديد نقاط الضعف في استجابات النموذج قبل النشر في العالم الحقيقي. من خلال تشغيل الذكاء الاصطناعي عمليات فحص الفريق الأحمر، يمكنك الكشف عن مشكلات الأمان المحتملة والتخفيف منها قبل النشر. يوصى باستخدام هذه الأداة مع العمليات البشرية في الحلقة مثل فحص الفريق الأحمر الذكاء الاصطناعي التقليدي للمساعدة في تسريع تحديد المخاطر والمساعدة في التقييم من قبل خبير بشري.

بدلا من ذلك، يمكنك أيضا استخدام عنصر واجهة مستخدم تقييم مدخل Microsoft Azure الذكاء الاصطناعي Foundry لاختبار تطبيقات الذكاء الاصطناعي التوليدية.

بمجرد تحقيق نتائج مرضية، يمكن نشر تطبيق الذكاء الاصطناعي في الإنتاج.

مراقبة ما بعد الإنتاج

بعد التوزيع، تضمن المراقبة المستمرة أن التطبيق الذكاء الاصطناعي الخاص بك يحافظ على الجودة في ظروف العالم الحقيقي:

  • تتبع الأداء: القياس المنتظم للمقاييس الرئيسية.
  • الاستجابة للحوادث: إجراء Swift عند حدوث مخرجات ضارة أو غير مناسبة.

تساعد المراقبة الفعالة على الحفاظ على ثقة المستخدم وتسمح بحل المشكلة بسرعة.

توفر Azure الذكاء الاصطناعي Foundry Observability إمكانات مراقبة شاملة ضرورية للمشهد الذكاء الاصطناعي المعقد والسريع التطور اليوم. متكامل بسلاسة مع Azure Monitor Application Insights، يتيح هذا الحل المراقبة المستمرة لتطبيقات الذكاء الاصطناعي المنشورة لضمان الأداء الأمثل والسلامة والجودة في بيئات الإنتاج. توفر لوحة معلومات Foundry Observability رؤى في الوقت الحقيقي للمقاييس الهامة، ما يسمح للفرق بتحديد مشكلات الأداء أو مخاوف السلامة أو تدهور الجودة ومعالجتها بسرعة. بالنسبة للتطبيقات المستندة إلى العامل، يوفر Foundry قدرات تقييم مستمر محسنة يمكن تمكينها لتوفير رؤية أعمق لمقاييس الجودة والسلامة، ما يخلق نظام بيئي قوي للمراقبة يتكيف مع الطبيعة الديناميكية لتطبيقات الذكاء الاصطناعي مع الحفاظ على معايير عالية من الأداء والموثوقية.

من خلال مراقبة سلوك التطبيق الذكاء الاصطناعي باستمرار في الإنتاج، يمكنك الحفاظ على تجارب المستخدم عالية الجودة ومعالجة أي مشكلات تظهر بسرعة.

بناء الثقة من خلال التقييم المنهجي

ينشئ GenAIOps عملية موثوقة لإدارة تطبيقات الذكاء الاصطناعي طوال دورة حياتها. من خلال تنفيذ تقييم شامل في كل مرحلة - من اختيار النموذج من خلال النشر وما بعده - يمكن للفرق إنشاء حلول الذكاء الاصطناعي ليست قوية فحسب ولكنها جديرة بالثقة وآمنة.

ورقة المعلومات المرجعية للتقييم

الغرض عملية المعلمات
ما الذي تقيمه؟ تحديد أو بناء المقيمين ذوي الصلة - دفتر ملاحظات نموذجي للجودة والأداء

- جودة استجابة العوامل

- السلامة والأمان (دفتر ملاحظات عينة الأمان والسلامة)

- مخصص (نموذج مخصص لدفتر الملاحظات)
ما هي البيانات التي يجب استخدامها؟ تحميل أو إنشاء مجموعة بيانات ذات صلة جهاز محاكاة عام لقياس الجودة والأداء (نموذج محاكي عام لدفتر الملاحظات)

- جهاز محاكاة متطفل لقياس السلامة والأمان (نموذج دفتر ملاحظات محاكاة متطفل)

الذكاء الاصطناعي عامل فريق أحمر لتشغيل عمليات الفحص التلقائية لتقييم الثغرات الأمنية والسلامة (الذكاء الاصطناعي دفتر ملاحظات عينة عامل الفريق الأحمر)
ما هي الموارد التي يجب أن تجري التقييم؟ تشغيل التقييم - التشغيل المحلي

- تشغيل السحابة عن بعد
كيف كان أداء النموذج/التطبيق الخاص بي؟ تحليل النتائج عرض الدرجات الإجمالية، وعرض التفاصيل، وتفاصيل النتيجة، ومقارنة عمليات التقييم
كيف يمكنني التحسين؟ إجراء تغييرات على النموذج أو التطبيق أو المقيمين - إذا لم تتوافق نتائج التقييم مع التعليقات البشرية، فاضبط المقيم.

- إذا كانت نتائج التقييم تتماشى مع التعليقات البشرية ولكنها لم تفي بحدود الجودة/الأمان، فطبق عوامل التخفيف المستهدفة. مثال على عوامل التخفيف التي يجب تطبيقها: Azure الذكاء الاصطناعي Content Safety

دعم المنطقة

يتوفر حاليا بعض المقيمين بمساعدة الذكاء الاصطناعي فقط في المناطق التالية:

المنطقة الكراهية وعدم الإنصاف، الجنسي، العنيف، إيذاء النفس، الهجوم غير المباشر، نقاط الضعف في التعليمات البرمجية، سمات غير مؤرضة الأرضية Pro مواد محمية
شرق الولايات المتحدة 2 مدعوم مدعوم مدعوم
منطقة السويد الوسطى مدعوم مدعوم غير متوفر
وسط شمال الولايات المتحدة مدعوم غير متوفر غير متوفر
وسط فرنسا مدعوم غير متوفر غير متوفر
غرب سويسرا مدعوم غير متوفر غير متوفر

التسعير

تتم فوترة ميزات إمكانية المراقبة مثل تقييمات المخاطر والسلامة والتقييمات المستمرة استنادا إلى الاستهلاك كما هو موضح في صفحة تسعير Azure. حدد علامة التبويب المسماة Complete الذكاء الاصطناعي Toolchain لعرض تفاصيل التسعير للتقييمات.