إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
تتطلب دورة حياة تطبيقات الذكاء الاصطناعي أطر تقييم قوية لضمان أن أنظمة الذكاء الاصطناعي تقدم مخرجات دقيقة وذات صلة وموثوقة. بدون تقييم دقيق، تخاطر أنظمة الذكاء الاصطناعي بتوليد ردود غير دقيقة، أو غير متسقة، أو غير مبنية على الأرض، أو قد تكون ضارة. تمكن قابلية الرصد الفرق من قياس وتحسين جودة وسلامة مخرجات الذكاء الاصطناعي طوال دورة حياة التطوير—من اختيار النماذج مرورا بمراقبة الإنتاج.
ما هي قابلية الملاحظة؟
تشير قابلية الذكاء الاصطناعي للرصد إلى القدرة على مراقبة وفهم وحل المشكلات في أنظمة الذكاء الاصطناعي طوال دورة حياتها. يمكن للفرق تتبع وتقييم ودمج بوابات الجودة الآلية في خطوط أنابيب CI/CD، وجمع إشارات مثل مقاييس التقييم، والسجلات، والتتبعات، ومخرجات النماذج للحصول على رؤية للأداء والجودة والسلامة والصحة التشغيلية.
قدرات الملاحظة الأساسية
توفر Microsoft Foundry ثلاث قدرات أساسية تعمل معا لتوفير ملاحظة شاملة عبر دورة حياة تطبيقات الذكاء الاصطناعي:
التقييم
يقيس المقيمون جودة وسلامة وموثوقية استجابات الذكاء الاصطناعي طوال فترة التطوير. توفر Microsoft Foundry مقيمين مدمجين لمقاييس الجودة العامة (التماسك، الطلاقة)، ومقاييس خاصة ب RAG (الثبات، الصلة)، والسلامة والأمن (الكراهية/الظلم، العنف، المواد المحمية)، ومقاييس خاصة بالوكلاء (دقة استدعاء الأدوات، إكمال المهام). يمكن للفرق أيضا بناء مقيمين مخصصين يتناسب مع متطلباتهم الخاصة بالمجال.
للحصول على قائمة كاملة بالمقيمين المدمجين، انظر مرجع المقيمين المدمجين.
مراقبة
تضمن مراقبة الإنتاج أن تحافظ تطبيقات الذكاء الاصطناعي المنتشرة على الجودة والأداء في ظروف العالم الحقيقي. مدمجة مع Azure Monitor Application Insights، يقدم Microsoft Foundry لوحات معلومات في الوقت الحقيقي تتبع مقاييس التشغيل، واستهلاك الرموز، وفترة التأخير، ومعدلات الأخطاء، ودرجات الجودة. يمكن للفرق إعداد تنبيهات عندما تفشل المخرجات في حدود الجودة أو تنتج محتوى ضارا، مما يتيح حل سريع للمشكلات.
للحصول على تفاصيل حول إعداد مراقبة الإنتاج، راجع لوحة تحكم الوكلاء في المراقبة.
Tracing
يلتقط التتبع الموزع تدفق تنفيذ تطبيقات الذكاء الاصطناعي، مما يوفر رؤية لاستدعاءات نماذج اللغة الكبيرة (LLM)، واستدعاءات الأدوات، وقرارات الوكلاء، والتبعيات بين الخدمات. مبني على معايير OpenTelemetry ومدمجه مع Application Insights، يتيح التتبع تصحيح سلوكيات الوكلاء المعقدة، وتحديد عنق الاختناقات في الأداء، وفهم سلاسل الاستدلال متعددة الخطوات. يدعم Microsoft Foundry تتبع الأطر الشائعة مثل LangChain وSemantic Kernel وOpenAI Agents SDK.
للحصول على إرشادات حول تنفيذ التتبع، راجع نظرة عامة على وكيل التتبع.
ما هم المقيمون؟
المقيمون هم أدوات متخصصة تقيس جودة وسلامة وموثوقية استجابات الذكاء الاصطناعي طوال دورة حياة التطوير.
للحصول على قائمة كاملة بالمقيمين المدمجين، انظر مرجع المقيمين المدمجين.
يندمج المقيمون في كل مرحلة من مراحل دورة حياة الذكاء الاصطناعي لضمان الموثوقية والسلامة والفعالية.
المراحل الثلاث لتقييم دورة حياة تطبيقات الذكاء الاصطناعي
تحديد النموذج الأساسي
اختر النموذج الأساسي المناسب من خلال مقارنة الجودة، وأداء المهمة، والاعتبارات الأخلاقية، وملفات السلامة عبر نماذج مختلفة.
Tools المتاحة: Microsoft Foundry Benchmark لمقارنة النماذج على مجموعات البيانات العامة أو بياناتك الخاصة، وحزمة تطوير البرمجيات لتقييم الذكاء الاصطناعي Azure ل testing نقاط نهاية محددة للنموذج.
تقييم ما قبل الإنتاج
قبل النشر، يضمن الاختبار الدقيق أن وكيل الذكاء الاصطناعي أو تطبيقك جاهز للإنتاج. تقوم هذه المرحلة بالتحقق من الأداء من خلال مجموعات بيانات التقييم، وتحدد الحالات النادرة، وتقيم المتانة، وتقيس المقاييس الرئيسية بما في ذلك الالتزام بالمهام، وثباتها، والملاءمة، والسلامة. لبناء وكلاء جاهزين للإنتاج مع محادثات متعددة الأدوار، واستدعاء الأدوات، وإدارة الحالة، راجع خدمة وكلاء المسبك.
أدوات وأساليب التقييم:
أحضر بياناتك الخاصة: قيم تطبيقات الذكاء الاصطناعي باستخدام بياناتك الخاصة مع مقيمين ذوي جودة أو أمان أو مقيم مخصص. استخدم معالج تقييم بوابة Foundry أو Foundry SDKواطلع على النتائج في بوابة Foundry.
وكيل الفريق الأحمر الذكاء الاصطناعي: يقوم وكيل الفريق الأحمر الذكي بمحاكاة الهجمات المعقدة باستخدام إطار عمل PyRIT من مايكروسوفت لتحديد ثغرات السلامة والأمان قبل النشر. أفضل استخدام مع عمليات الإنسان في الحلقة.
مراقبة ما بعد الإنتاج
بعد النشر، تضمن المراقبة المستمرة أن تطبيق الذكاء الاصطناعي الخاص بك يحافظ على الجودة في الظروف الواقعية:
- المقاييس التشغيلية: قياس منتظم للمقاييس التشغيلية الرئيسية لوكلاء الذكاء الاصطناعي
- التقييم المستمر: تقييم الجودة والسلامة لحركة الإنتاج بمعدل مأخذ عينات
- التقييم المجدول: تقييم الجودة والسلامة المجدول باستخدام مجموعات بيانات الاختبار لاكتشاف انحراف النظام
- الفرق الحمراء المجدولة: اختبارات عدائية مجدولة للتحقيق في ثغرات السلامة والأمن
- Azure Monitor تنبيهات: الإشعارات عندما تفشل المخرجات في حدود الجودة أو تنتج محتوى ضار
مدمجة مع Azure Monitor Application Insights، تقدم لوحة تحكم Foundry Observability رؤى فورية حول الأداء والسلامة ومقاييس الجودة، مما يتيح حل المشكلات بسرعة والحفاظ على ثقة المستخدمين.
ورقة المعلومات المرجعية للتقييم
| الغرض | عملية | المعايير، الإرشاد، والعينات |
|---|---|---|
| كيف أضبط التتبع؟ | تكوين التتبع الموزع |
نظرة عامة على الأثر تتبع مع مجموعة SDK للوكلاء |
| ما الذي تقيمه؟ | تحديد أو بناء المقيمين ذوي الصلة |
المقيمون المدمجين المقيمون المخصصون Python عينات SDK <عينات SDK c0 /> |
| ما هي البيانات التي يجب استخدامها؟ | تحميل أو إنشاء مجموعة بيانات ذات صلة | اختر أو أنشئ مجموعة بيانات |
| كيف أجري التقييمات؟ | تشغيل التقييم |
تقييمات الوكيل التشغيل السحابي عن بعد |
| كيف كان أداء تطبيقي للنموذج/الذكاء الاصطناعي؟ | تحليل النتائج |
عرض نتائج التقييم تحليل التجمع |
| كيف يمكنني التحسين؟ | تحليل النتائج وتحسين الوكلاء | تحليل فشل التقييم باستخدام تحليل العنقود. تحسين الوكلاء وإعادة التقييم. راجع نتائج التقييم. |
دعم المنطقة، حدود الأسعار، ودعم الشبكة الافتراضية
لمعرفة المناطق التي تدعم المقيمين المدعومين بالذكاء الاصطناعي، وحدود المعدل التي تنطبق على عمليات التقييم، وكيفية تكوين دعم الشبكة الافتراضية لعزل الشبكة، راجع دعم المناطق، وحدود المعدل، ودعم الشبكة الافتراضية للتقييم.
التسعير
يتم احتساب ميزات الملاحظة مثل تقييمات المخاطر والسلامة وتقييمات الوكلاء بناء على الاستهلاك كما هو مذكور في صفحة تسعير Azure لدينا.
مهم
يتم تفعيل التقييمات في ساحة الوكلاء بشكل افتراضي لجميع مشاريع Foundry وتدرج في الفوترة القائمة على الاستهلاك. لإيقاف تقييمات الملاعب، اختر المقاييس في أعلى يمين ملعب الوكلاء وألغ تحديد جميع المقيمين.