إشعار
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
توضح هذه المقالة كيفية استخدام مكون Cross Validate Model في مصمم التعلم الآلي من Microsoft Azure. التحقق المشترك هو تقنية غالبا ما تستخدم في التعلم الآلي لتقييم كل من تغير مجموعة البيانات وموثوقية أي نموذج تم تدريبه من خلال تلك البيانات.
يأخذ مكون Cross Validate Model كمدخل لمجموعة بيانات مسماة، جنبا إلى جنب مع نموذج تصنيف أو تراجع غير مدرب. يقسم مجموعة البيانات إلى عدد من المجموعات الفرعية (الطيات)، ويبني نموذجا على كل طية، ثم يرجع مجموعة من إحصائيات الدقة لكل طية. من خلال مقارنة إحصائيات الدقة لجميع الطيات، يمكنك تفسير جودة مجموعة البيانات. يمكنك بعد ذلك فهم ما إذا كان النموذج عرضة للتباينات في البيانات.
يقوم Cross Validate Model أيضا بإرجاع النتائج والاحتمالات المتوقعة لمجموعة البيانات، بحيث يمكنك تقييم موثوقية التنبؤات.
كيفية عمل التحقق المتقاطع
يقسم التحقق المتقاطع بيانات التدريب عشوائيا إلى طيات.
يتم تعيين الخوارزمية افتراضيا إلى 10 طيات إذا لم تقم مسبقا بتقسيم مجموعة البيانات. لتقسيم مجموعة البيانات إلى عدد مختلف من الطيات، يمكنك استخدام المكون Partition و Sample والإشارة إلى عدد الطيات التي يجب استخدامها.
يخصص المكون البيانات الموجودة في الطي 1 لاستخدامها في التحقق من الصحة. (يسمى هذا أحيانا طية التعليق.) يستخدم المكون الطيات المتبقية لتدريب نموذج.
على سبيل المثال، إذا قمت بإنشاء خمسة طيات، يقوم المكون بإنشاء خمسة نماذج أثناء التحقق من الصحة المتقاطع. يدرب المكون كل نموذج باستخدام أربعة أخماس البيانات. يختبر كل نموذج على الخمس المتبقي.
أثناء اختبار النموذج لكل طية، يقيم المكون إحصائيات دقة متعددة. تعتمد الإحصائيات التي يستخدمها المكون على نوع النموذج الذي تقوم بتقييمه. تستخدم إحصائيات مختلفة لتقييم نماذج التصنيف مقابل نماذج الانحدار.
عند اكتمال عملية الإنشاء والتقييم لجميع الطيات، ينشئ Cross Validate Model مجموعة من مقاييس الأداء والنتائج المسجلة لجميع البيانات. راجع هذه المقاييس لمعرفة ما إذا كان أي طية واحدة ذات دقة عالية أو منخفضة.
مزايا التحقق المشترك
هناك طريقة مختلفة ومشتركة لتقييم النموذج وهي تقسيم البيانات إلى مجموعة تدريب واختبار باستخدام Split Data، ثم التحقق من صحة النموذج على بيانات التدريب. ولكن التحقق المتبادل يوفر بعض المزايا:
يستخدم التحقق التبادلي المزيد من بيانات الاختبار.
يقيس التحقق التبادلي أداء النموذج مع المعلمات المحددة في مساحة بيانات أكبر. أي أن التحقق المتبادل يستخدم مجموعة بيانات التدريب بأكملها لكل من التدريب والتقييم، بدلا من جزء. في المقابل، إذا قمت بالتحقق من صحة نموذج باستخدام البيانات التي تم إنشاؤها من تقسيم عشوائي، عادة ما تقوم بتقييم النموذج على 30 بالمائة فقط أو أقل من البيانات المتاحة.
ومع ذلك، نظرا لأن التحقق المتبادل يدرب النموذج ويتحقق من صحته عدة مرات عبر مجموعة بيانات أكبر، فهو أكثر كثافة من الناحية الحسابية. يستغرق وقتا أطول بكثير من التحقق من صحة تقسيم عشوائي.
يقوم التحقق المتقاطع بتقييم كل من مجموعة البيانات والنموذج.
لا يقيس التحقق التبادلي دقة النموذج ببساطة. كما أنه يمنحك فكرة عن مدى تمثيل مجموعة البيانات ومدى حساسية النموذج للتباينات في البيانات.
كيفية استخدام نموذج التحقق المتقاطع
يمكن أن يستغرق التحقق المتقاطع وقتا طويلا للتشغيل إذا كانت مجموعة البيانات كبيرة. لذلك، يمكنك استخدام Cross Validate Model في المرحلة الأولية من بناء النموذج واختباره. في هذه المرحلة، يمكنك تقييم حسن معلمات النموذج (بافتراض أن وقت الحساب مقبول). يمكنك بعد ذلك تدريب نموذجك وتقييمه باستخدام المعلمات المنشأة مع مكونات Train Model و Evaluate Model .
في هذا السيناريو، يمكنك تدريب النموذج واختباره باستخدام Cross Validate Model.
أضف مكون Cross Validate Model إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك. يمكنك العثور عليه في مصمم التعلم الآلي من Azure، في فئة Model Scoring & Evaluation .
قم بتوصيل إخراج أي نموذج تصنيف أو تراجع.
على سبيل المثال، إذا كنت تستخدم شجرة القرارات المعززة من فئتين للتصنيف، فكون النموذج بالمعلمات التي تريدها. ثم اسحب موصلا من منفذ النموذج غير المدرب للمصنف إلى المنفذ المطابق ل Cross Validate Model.
تلميح
ليس عليك تدريب النموذج، لأن Cross-Validate Model يدرب النموذج تلقائيا كجزء من التقييم.
في منفذ Dataset ل Cross Validate Model، قم بتوصيل أي مجموعة بيانات تدريب مسماة.
في اللوحة اليسرى من Cross Validate Model، انقر فوق Edit column. حدد العمود الفردي الذي يحتوي على تسمية الفئة أو القيمة التي يمكن التنبؤ بها.
قم بتعيين قيمة للمعلمة الأولية العشوائية إذا كنت تريد تكرار نتائج التحقق المشترك عبر عمليات التشغيل المتتالية على نفس البيانات.
إرسال البنية الأساسية.
راجع قسم النتائج للحصول على وصف للتقارير.
النتائج
بعد اكتمال جميع التكرارات، ينشئ Cross Validate Model درجات لمجموعة البيانات بأكملها. كما أنه ينشئ مقاييس الأداء التي يمكنك استخدامها لتقييم جودة النموذج.
النتائج المسجلة
يوفر الإخراج الأول للمكون بيانات المصدر لكل صف، جنبا إلى جنب مع بعض القيم المتوقعة والاحتمالات ذات الصلة.
لعرض النتائج، في المسار، انقر بزر الماوس الأيمن فوق مكون Cross Validate Model. حدد Visualize Scored results.
| اسم العمود الجديد | وصف |
|---|---|
| التسميات المسجلة | تتم إضافة هذا العمود في نهاية مجموعة البيانات. يحتوي على القيمة المتوقعة لكل صف. |
| الاحتمالات المسجلة | تتم إضافة هذا العمود في نهاية مجموعة البيانات. يشير إلى الاحتمال المقدر للقيمة في التسميات المسجلة. |
| طي الرقم | يشير إلى الفهرس المستند إلى الصفر للطية التي تم تعيين كل صف من البيانات إليها أثناء التحقق التبادلي. |
نتائج التقييم
يتم تجميع التقرير الثاني حسب الطيات. تذكر أنه أثناء التنفيذ، يقسم Cross Validate Model بيانات التدريب عشوائيا إلى n folds (افتراضيا، 10). في كل تكرار عبر مجموعة البيانات، يستخدم Cross Validate Model طية واحدة كمجموعة بيانات التحقق من الصحة. ويستخدم طيات n-1 المتبقية لتدريب نموذج. يتم اختبار كل نموذج من نماذج n مقابل البيانات في جميع الطيات الأخرى.
في هذا التقرير، يتم سرد الطيات حسب قيمة الفهرس، بترتيب تصاعدي. للطلب على أي عمود آخر، يمكنك حفظ النتائج كمجموعة بيانات.
لعرض النتائج، في المسار، انقر بزر الماوس الأيمن فوق مكون Cross Validate Model. حدد Visualize Evaluation results by fold.
| اسم العمود | وصف |
|---|---|
| طي الرقم | معرف لكل طية. إذا قمت بإنشاء خمسة طيات، سيكون هناك خمس مجموعات فرعية من البيانات، تم ترقيمها من 0 إلى 4. |
| عدد الأمثلة المطوية | عدد الصفوف المعينة لكل طية. يجب أن تكون متساوية تقريبا. |
يتضمن المكون أيضا المقاييس التالية لكل طية، اعتمادا على نوع النموذج الذي تقوم بتقييمه:
نماذج التصنيف: الدقة والاستدعاء وF-score و AUC والدقة
نماذج الانحدار: متوسط الخطأ المطلق، والخطأ التربيعي المتوسط للجذر، والخطأ المطلق النسبي، والخطأ التربيعي النسبي، ومعامل التحديد
الملاحظات التقنية
من أفضل الممارسات تطبيع مجموعات البيانات قبل استخدامها للتحقق المشترك.
يعد Cross Validate Model أكثر كثافة حسابيا ويستغرق وقتا أطول لإكماله مما إذا قمت بالتحقق من صحة النموذج باستخدام مجموعة بيانات مقسمة عشوائيا. والسبب هو أن Cross Validate Model يدرب النموذج ويتحقق من صحته عدة مرات.
ليست هناك حاجة لتقسيم مجموعة البيانات إلى مجموعات تدريب واختبار عند استخدام التحقق المتقاطع لقياس دقة النموذج.
الخطوات التالية
راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.