مشاركة عبر


قابلية الملاحظة في الذكاء الاصطناعي التوليدي (الكلاسيكي)

المشاهدة الحالية:نسخة - التحويل إلى النسخة الخاصة ببوابة Foundry الجديدة

مهم

العناصر التي تم وضع علامة عليها (إصدار أولي) في هذه المقالة موجودة حالياً في الإصدار الأولي العام. يتم توفير هذه المعاينة دون اتفاقية على مستوى الخدمة، ولا نوصي بها لأحمال عمل الإنتاج. بعض الميزات ربما لا تكون مدعمة أو بها بعض القدرات المقيدة. لمزيد من المعلومات، راجع شروط الاستخدام الإضافية لمعاينات Microsoft Azure.

تتطلب دورة حياة تطبيقات الذكاء الاصطناعي أطر تقييم قوية لضمان أن أنظمة الذكاء الاصطناعي تقدم مخرجات دقيقة وذات صلة وموثوقة. بدون تقييم دقيق، تخاطر أنظمة الذكاء الاصطناعي بتوليد ردود غير دقيقة، أو غير متسقة، أو غير مبنية على الأرض، أو قد تكون ضارة. تمكن قابلية الرصد الفرق من قياس وتحسين جودة وسلامة مخرجات الذكاء الاصطناعي طوال دورة حياة التطوير—من اختيار النماذج مرورا بمراقبة الإنتاج.

‏‫ملاحظة‬

حزمة تطوير تطوير Microsoft Foundry للتقييم وبوابة Foundry في وضع معاينة عامة، لكن واجهات برمجة التطبيقات متاحة عموما لتقييم النماذج ومجموعات البيانات (لا يزال تقييم الوكيل قيد المعاينة العامة). حزمة تقييم Azure AI SDK والمقيمون الذين تم تمييزهم (معاينة) في هذا المقال موجودون حاليا في معاينة عامة في كل مكان.

ما هي قابلية الملاحظة؟

تشير قابلية الذكاء الاصطناعي للرصد إلى القدرة على مراقبة وفهم وحل المشكلات في أنظمة الذكاء الاصطناعي طوال دورة حياتها. يمكن للفرق تتبع وتقييم ودمج بوابات الجودة الآلية في خطوط أنابيب CI/CD، وجمع إشارات مثل مقاييس التقييم، والسجلات، والتتبعات، ومخرجات النماذج للحصول على رؤية للأداء والجودة والسلامة والصحة التشغيلية.

قدرات الملاحظة الأساسية

توفر Microsoft Foundry ثلاث قدرات أساسية تعمل معا لتوفير ملاحظة شاملة عبر دورة حياة تطبيقات الذكاء الاصطناعي:

التقييم

يقيس المقيمون جودة وسلامة وموثوقية استجابات الذكاء الاصطناعي طوال فترة التطوير. توفر Microsoft Foundry مقيمين مدمجين لمقاييس الجودة العامة (التماسك، الطلاقة)، ومقاييس خاصة ب RAG (الثبات، الصلة)، والسلامة والأمن (الكراهية/الظلم، العنف، المواد المحمية)، ومقاييس خاصة بالوكلاء (دقة استدعاء الأدوات، إكمال المهام). يمكن للفرق أيضا بناء مقيمين مخصصين يتناسب مع متطلباتهم الخاصة بالمجال.

للحصول على قائمة كاملة بالمقيمين المدمجين، انظر مرجع المقيمين المدمجين.

Monitoring

تضمن مراقبة الإنتاج أن تحافظ تطبيقات الذكاء الاصطناعي المنتشرة على الجودة والأداء في ظروف العالم الحقيقي. مدمجة مع Azure Monitor Application Insights، يقدم Microsoft Foundry لوحات معلومات في الوقت الحقيقي تتبع مقاييس التشغيل، واستهلاك الرموز، وفترة التأخير، ومعدلات الأخطاء، ودرجات الجودة. يمكن للفرق إعداد تنبيهات عندما تفشل المخرجات في حدود الجودة أو تنتج محتوى ضارا، مما يتيح حل سريع للمشكلات.

للحصول على تفاصيل حول إعداد مراقبة الإنتاج، راجع مراقبة تطبيقات الذكاء الاصطناعي التوليدي وتقييموكلاء الذكاء الاصطناعي بشكل مستمر.

Tracing

يلتقط التتبع الموزع تدفق تنفيذ تطبيقات الذكاء الاصطناعي، مما يوفر رؤية لاستدعاءات نماذج اللغة الكبيرة (LLM)، واستدعاءات الأدوات، وقرارات الوكلاء، والتبعيات بين الخدمات. مبني على معايير OpenTelemetry ومدمجه مع Application Insights، يتيح التتبع تصحيح سلوكيات الوكلاء المعقدة، وتحديد عنق الاختناقات في الأداء، وفهم سلاسل الاستدلال متعددة الخطوات. يدعم Microsoft Foundry تتبع الأطر الشائعة مثل LangChain وSemantic Kernel وOpenAI Agents SDK.

للحصول على إرشادات حول تنفيذ التتبع، راجع تتبع تطبيقكوتتبع SDK مع الوكلاء.

ما هم المقيمون؟

المقيمون هم أدوات متخصصة تقيس جودة وسلامة وموثوقية استجابات الذكاء الاصطناعي طوال دورة حياة التطوير.

للحصول على قائمة كاملة بالمقيمين المدمجين، انظر مرجع المقيمين المدمجين.

يندمج المقيمون في كل مرحلة من مراحل دورة حياة الذكاء الاصطناعي لضمان الموثوقية والسلامة والفعالية.

مخطط لدورة حياة تطبيق الذكاء الاصطناعي، يوضح اختيار النموذج، وبناء تطبيق الذكاء الاصطناعي، وتشغيله.

المراحل الثلاث لتقييم دورة حياة تطبيقات الذكاء الاصطناعي

تحديد النموذج الأساسي

اختر النموذج الأساسي المناسب من خلال مقارنة الجودة، وأداء المهمة، والاعتبارات الأخلاقية، وملفات السلامة عبر نماذج مختلفة.

Tools المتاحة: Microsoft Foundry Benchmark لمقارنة النماذج على مجموعات البيانات العامة أو بياناتك الخاصة، وحزمة تطوير البرمجيات لتقييم الذكاء الاصطناعي Azure ل testing نقاط نهاية محددة للنموذج.

تقييم ما قبل الإنتاج

قبل النشر، يضمن الاختبار الدقيق أن وكيل الذكاء الاصطناعي أو تطبيقك جاهز للإنتاج. تقوم هذه المرحلة بالتحقق من الأداء من خلال مجموعات بيانات التقييم، وتحدد الحالات النادرة، وتقيم المتانة، وتقيس المقاييس الرئيسية بما في ذلك الالتزام بالمهام، وثباتها، والملاءمة، والسلامة. لبناء وكلاء جاهزين للإنتاج مع محادثات متعددة الأدوار، واستدعاء الأدوات، وإدارة الحالة، راجع خدمة وكلاء المسبك.

مخطط تقييم ما قبل الإنتاج للنماذج والتطبيقات مع الخطوات الست.

أدوات وأساليب التقييم:

  • أحضر بياناتك الخاصة: قيم وكلاء وتطبيقات الذكاء الاصطناعي باستخدام بياناتك الخاصة مع مقيمين بجودة أو أمان أو مخصصين. استخدم معالج تقييم Foundry أو Azure AI Evaluation SDK ونتائج view في بوابة Foundry.

  • وكيل الفريق الأحمر الذكاء الاصطناعي: يقوم وكيل الفريق الأحمر الذكي بمحاكاة الهجمات العدائية المعقدة باستخدام إطار عمل PyRIT من مايكروسوفت لتحديد ثغرات السلامة والأمن. أفضل استخدام مع عمليات الإنسان في الحلقة.

بدلا من ذلك، يمكنك أيضا استخدام بوابة Foundry لاختبار تطبيقات الذكاء الاصطناعي التوليدي الخاصة بك.

مراقبة ما بعد الإنتاج

بعد النشر، تضمن المراقبة المستمرة أن تطبيق الذكاء الاصطناعي الخاص بك يحافظ على الجودة في الظروف الواقعية:

  • المقاييس التشغيلية: قياس منتظم للمقاييس التشغيلية الرئيسية لوكلاء الذكاء الاصطناعي
  • التقييم المستمر: تقييم الجودة والسلامة لحركة الإنتاج بمعدل مأخذ عينات
  • التقييم المجدول: تقييم الجودة والسلامة المجدول باستخدام مجموعات بيانات الاختبار لاكتشاف انحراف النظام
  • الفرق الحمراء المجدولة: اختبارات عدائية مجدولة للتحقيق في ثغرات السلامة والأمن
  • Azure Monitor تنبيهات: الإشعارات عندما تفشل المخرجات في حدود الجودة أو تنتج محتوى ضار

مدمجة مع Azure Monitor Application Insights، تقدم لوحة تحكم Foundry Observability رؤى فورية حول الأداء والسلامة ومقاييس الجودة، مما يتيح حل المشكلات بسرعة والحفاظ على ثقة المستخدمين.

ورقة المعلومات المرجعية للتقييم

الغرض عملية المعايير، الإرشاد، والعينات
كيف أضبط التتبع؟ تكوين التتبع الموزع تتبع طلبك

تتبع مع مجموعة SDK للوكلاء
ما الذي تقيمه؟ تحديد أو بناء المقيمين ذوي الصلة المقيمون المدمجين

المقيمون المخصصون

Python عينات SDK
<عينات SDK c0 />C#‎
ما هي البيانات التي يجب استخدامها؟ تحميل أو إنشاء مجموعة بيانات ذات صلة توليد مجموعات البيانات الاصطناعية

شغل فريق الذكاء الاصطناعي الأحمر في السحابة
كيف أجري التقييمات؟ تشغيل التقييم تقييمات الوكيل

التشغيل السحابي عن بعد

تشغيل محلي
كيف كان أداء النموذج/التطبيق الخاص بي؟ تحليل النتائج عرض نتائج التقييم
كيف يمكنني التحسين؟ تحليل نتائج التقييم وتحسين الوكلاء تحسين الوكلاء من خلال إعادة تشغيل التقييمات، راجع تقييم نماذج وتطبيقات الذكاء الاصطناعي التوليدي في البوابة.

حلل نتائج التقييم.

دعم المنطقة، حدود الأسعار، ودعم الشبكة الافتراضية

لمعرفة المناطق التي تدعم المقيمين المدعومين بالذكاء الاصطناعي، وحدود المعدل التي تنطبق على عمليات التقييم، وكيفية تكوين دعم الشبكة الافتراضية لعزل الشبكة، راجع دعم المناطق، وحدود المعدل، ودعم الشبكة الافتراضية للتقييم.

التسعير

يتم احتساب ميزات الملاحظة مثل تقييمات المخاطر والسلامة والتقييمات المستمرة بناء على الاستهلاك كما هو موضح في صفحة التسعير Azure لدينا.

مهم

يتم تفعيل التقييمات في ساحة الوكلاء بشكل افتراضي لجميع مشاريع Foundry وتدرج في الفوترة القائمة على الاستهلاك. لإيقاف تقييمات الملاعب، اختر مربع المقاييس في ملعب الوكلاء وألغ تحديد جميع المقيمين.

لقطة شاشة لبوابة Foundry تظهر ملعب العملاء مع اختيار مربع المقاييس.