ملاحظة
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تسجيل الدخول أو تغيير الدلائل.
يتطلب الوصول إلى هذه الصفحة تخويلاً. يمكنك محاولة تغيير الدلائل.
يعد الإفراط في جمع البيانات واختلال توازنها مخاطر شائعة عند إنشاء نماذج التعلم الآلي. بشكل افتراضي، توفر ميزة التعلم الآلي التلقائي في Azure التعلم الآلي مخططات ومقاييس لمساعدتك في تحديد هذه المخاطر. توضح هذه المقالة كيف يمكنك تنفيذ أفضل الممارسات في التعلم الآلي التلقائي للمساعدة في التخفيف من المشكلات الشائعة.
تحديد الإفراط في جمع البيانات
يحدث الإفراط في الملاءمة في التعلم الآلي عندما يناسب النموذج بيانات التدريب بشكل جيد جدا. ونتيجة لذلك، لا يمكن للنموذج إجراء تنبؤات دقيقة على بيانات الاختبار غير المرئية. حفظ النموذج أنماطا وضوضاء محددة في بيانات التدريب، وهو ليس مرنا بما يكفي لإجراء تنبؤات على البيانات الحقيقية.
ضع في اعتبارك النماذج المدربة التالية ومسرعات التدريب والاختبار المقابلة لها:
النموذج | دقة التدريب | دقة الاختبار |
---|---|---|
A | 99.9% | 95% |
B | ٪87 | ٪87 |
C | 99.9% | 45% |
النموذج أ: ينتج عن اختبار هذا النموذج دقة أقل قليلا من تدريب النموذج. هناك اعتقاد خاطئ شائع بأنه إذا كانت دقة الاختبار على البيانات غير المرئية أقل من دقة التدريب، فإن النموذج مناسب بشكل مفرط. ومع ذلك، يجب أن تكون دقة الاختبار دائما أقل من دقة التدريب. ويكمن التمييز بين الملاءمة الزائدة مقابل ملاءمة البيانات بشكل مناسب في قياس الدقة.
النموذج أ مقابل النموذج B: النموذج أ هو نموذج أفضل لأنه يتمتع بدقة اختبار أعلى. على الرغم من أن دقة الاختبار أقل قليلا عند 95٪، إلا أنه ليس فرقا كبيرا يشير إلى وجود فرط في المكيف. لا يفضل النموذج B لأن سرعات القطار والاختبار متشابهة.
النموذج ج: يمثل هذا النموذج حالة واضحة من الإفراط في الماحتواء. دقة التدريب عالية ودقة الاختبار منخفضة. هذا التمييز غير موضوعي، ولكنه يأتي من معرفة مشكلتك وبياناتك، وما هي المقادير المقبولة للخطأ.
منع الإفراط في جمع البيانات
في معظم الحالات الفظيعة، يفترض النموذج المتجاوز للاحتواء أن مجموعات قيم الميزات المرئية أثناء التدريب تؤدي دائما إلى نفس الإخراج الدقيق للهدف. لتجنب الإفراط في ملاءمة بياناتك، فإن التوصية هي اتباع أفضل ممارسات التعلم الآلي. هي عدة طرق يمكنك تكوينها في تنفيذ النموذج الخاص بك. يوفر التعلم الآلي التلقائي أيضا خيارات أخرى بشكل افتراضي للمساعدة في منع الإفراط في الاحتواء.
يلخص الجدول التالي أفضل الممارسات الشائعة:
أفضل ممارسات | تنفيذ | التعلم الآلي التلقائي |
---|---|---|
استخدام المزيد من بيانات التدريب، والقضاء على التحيز الإحصائي | X | |
منع تسرب الهدف | X | |
دمج ميزات أقل | X | |
دعم الانتظام وتحسين المعلمات الفائقة | X | |
تطبيق قيود تعقيد النموذج | X | |
استخدام التحقق من الصحة المتقاطع | X |
تطبيق أفضل الممارسات لمنع الإفراط في الماحتواء
تصف الأقسام التالية أفضل الممارسات التي يمكنك استخدامها في تنفيذ نموذج التعلم الآلي لمنع الإفراط في الماحتواء.
استخدام المزيد من البيانات
استخدام المزيد من البيانات هو أبسط وأفضل طريقة ممكنة لمنع الإفراط في التهيئة، وعادة ما يزيد هذا النهج من الدقة. عند استخدام المزيد من البيانات، يصبح من الصعب على النموذج حفظ الأنماط الدقيقة. يجبر النموذج على الوصول إلى حلول أكثر مرونة لاستيعاب المزيد من الشروط. من المهم أيضا التعرف على التحيز الإحصائي، للتأكد من أن بيانات التدريب الخاصة بك لا تتضمن أنماطا معزولة غير موجودة في بيانات التنبؤ المباشر. قد يكون من الصعب حل هذا السيناريو لأنه يمكن أن يكون هناك إفراط في الملاءمة عند مقارنتها ببيانات الاختبار المباشر.
منع تسرب الهدف
تسرب الهدف هو مشكلة مماثلة. قد لا ترى الإفراط في الماحتواء بين مجموعات التدريب والاختبار، ولكن تظهر مشكلة التسرب في وقت التنبؤ. يحدث التسرب الهدف عندما "يخدع" النموذج الخاص بك أثناء التدريب عن طريق الوصول إلى البيانات التي لا ينبغي أن يكون لها عادة في وقت التنبؤ. ومن الأمثلة على ذلك أن يتنبأ النموذج يوم الاثنين بسعر السلعة ليوم الجمعة. إذا كانت ميزاتك تتضمن بيانات من أيام الخميس عن طريق الخطأ، فإن النموذج لديه حق الوصول إلى البيانات غير المتوفرة في وقت التنبؤ لأنه لا يمكن رؤيته في المستقبل. تسرب الهدف هو خطأ سهل أن تفوت. غالبا ما يكون مرئيا حيث يكون لديك دقة عالية بشكل غير طبيعي لمشكلتك. إذا كنت تحاول التنبؤ بسعر الأسهم وتدريب نموذج بدقة 95٪، فمن المحتمل أن يكون هناك تسرب مستهدف في مكان ما في ميزاتك.
دمج ميزات أقل
يمكن أن تساعد إزالة الميزات أيضًا في الإفراط في جمع البيانات من خلال منع النموذج من الحصول على عدد كبير جدًا من الحقول لاستخدامها في حفظ أنماط معينة، مما يؤدي إلى أن يكون أكثر مرونة. قد يكون من الصعب قياسه كميا. إذا كان بإمكانك إزالة الميزات والاحتفاظ بنفس الدقة، يمكن أن يكون النموذج الخاص بك أكثر مرونة ويقلل من خطر الإفراط في الماحتواء.
مراجعة ميزات التعلم الآلي التلقائي لمنع الممايزة الزائدة
تصف الأقسام التالية أفضل الممارسات المقدمة بشكل افتراضي في التعلم الآلي التلقائي للمساعدة في منع الإفراط في التهيئة.
دعم الانتظام وضبط المعلمات الفائقة
التنظيم هي عملية تقليل وظيفة التكلفة إلى أدنى حد لفرض عقوبة على النماذج المعقدة والتي تفرط في جمع البيانات. هناك أنواع مختلفة من وظائف الانتظام. بشكل عام، تعاقب جميع الوظائف حجم معامل النموذج والتباين والتعقيد. يستخدم التعلم الآلي التلقائي L1 (Lasso) وL2 (Ridge) وElasticNet (L1 وL2 في وقت واحد) في مجموعات مختلفة مع إعدادات المعلمات الفائقة للنموذج المختلفة التي تتحكم في الإفراط في جمع البيانات. التعلم الآلي الآلي يختلف مقدار تنظيم النموذج ويختار أفضل نتيجة.
تطبيق قيود تعقيد النموذج
ينفذ التعلم الآلي التلقائي أيضًا حدود تعقيد النموذج الصريحة لمنع الإفراط في جمع البيانات. في معظم الحالات، يكون هذا التنفيذ مخصصا لخوارزميات شجرة القرار أو الغابة. الحد الأقصى للعمق الشجري الفردي محدود، والعدد الإجمالي للأشجار المستخدمة في تقنيات الغابة أو المجموعة محدود.
استخدام التحقق من الصحة المتقاطع
التحقق المقطعي (CV) هو عملية أخذ العديد من المجموعات الفرعية لبيانات التدريب الكاملة الخاصة بك وتدريب نموذج على كل مجموعة فرعية. الفكرة هي أن النموذج قد يكون "محظوظا" ولديه دقة كبيرة مع مجموعة فرعية واحدة، ولكن باستخدام العديد من المجموعات الفرعية، لا يمكن للنموذج تحقيق دقة عالية في كل مرة. عند القيام بالسيرة الذاتية، يمكنك توفير مجموعة بيانات تعليق التحقق من الصحة، وتحديد طيات السيرة الذاتية (عدد المجموعات الفرعية) ويدرب التعلم الآلي الآلي النموذج الخاص بك ويضبط المعلمات الفائقة لتقليل الخطأ في مجموعة التحقق من الصحة الخاصة بك. قد تكون إحدى طيات السيرة الذاتية أكثر من احتواء، ولكن باستخدام العديد منها، تقلل العملية من احتمال أن يكون النموذج النهائي الخاص بك مفرطا في الاحتواء. المفاضلة هي أن السيرة الذاتية تؤدي إلى أوقات تدريب أطول وتكلفة أكبر، لأنك تقوم بتدريب نموذج مرة واحدة لكل n في مجموعات CV الفرعية.
ملاحظة
لا يتم تمكين التحقق المشترك بشكل افتراضي. يجب تكوين هذه الميزة في إعدادات التعلم الآلي التلقائي. ومع ذلك، بعد تكوين التحقق المتقاطع وتوفير مجموعة بيانات التحقق من الصحة، تتم أتمتة العملية لك.
تحديد النماذج ذات البيانات غير المتوازنة
توجد البيانات غير المتوازنة عادة في البيانات الخاصة بسيناريوهات تصنيف التعلم الآلي، وتشير إلى البيانات التي تحتوي على نسبة غير متناسبة من الملاحظات في كل فئة. يمكن أن يؤدي عدم التوازن هذا إلى تأثير إيجابي متصور بشكل خاطئ لدقة النموذج، لأن بيانات الإدخال لديها تحيز تجاه فئة واحدة، ما يؤدي إلى النموذج المدرب لمحاكاة هذا التحيز.
بالإضافة إلى ذلك، تنشئ وظائف التعلم الآلي التلقائي المخططات التالية تلقائيا. تساعدك هذه المخططات على فهم صحة تصنيفات النموذج الخاص بك، وتحديد النماذج التي قد تتأثر بالبيانات غير المتوازنة.
مخطط | وصف |
---|---|
مصفوفة الإرباك | قيم التسميات المصنفة بشكل صحيح مقابل التسميات الفعلية للبيانات. |
الاسترجاع-الدقة | تقييم نسبة التسميات الصحيحة مقابل نسبة مثيلات التسمية التي تم العثور عليها للبيانات. |
منحنيات ROC | قيم نسبة التسميات الصحيحة مقابل نسبة التسميات الإيجابية الخاطئة. |
معالجة البيانات غير المتوازنة
كجزء من الهدف لتبسيط سير عمل التعلم الآلي، يوفر التعلم الآلي إمكانات مدمجة للمساعدة في التعامل مع البيانات غير المتوازنة:
ينشئ التعلم الآلي التلقائي عمودا من الأوزان كإدخل للتسبب في ترجيح الصفوف في البيانات لأعلى أو لأسفل، والتي يمكن استخدامها لجعل فئة أكثر أو أقل "مهمة".
تكتشف الخوارزميات المستخدمة من قبل التعلم الآلي التلقائي عدم التوازن عندما يكون عدد العينات في فئة الأقلية مساويا أو أقل من 20٪ من عدد العينات في فئة الأغلبية. فئة الأقلية تشير إلى واحد مع أقل عينات وفئة الأغلبية تشير إلى واحد مع معظم العينات. في وقت لاحق، يقوم التعلم الآلي التلقائي بتشغيل تجربة مع بيانات ذات طابع فرعي للتحقق مما إذا كان استخدام أوزان الفصل يمكن أن يعالج هذه المشكلة ويحسن الأداء. إذا تأكد من أداء أفضل من خلال هذه التجربة، فإنه يطبق العلاج.
استخدم قياس الأداء الذي يتعامل بشكل أفضل مع البيانات غير المتوازنة. على سبيل المثال، AUC_weighted هو مقياس أساسي يحسب مساهمة كل فئة استنادا إلى العدد النسبي للعينات التي تمثل تلك الفئة. هذا المقياس أكثر قوة ضد عدم التوازن.
التقنيات التالية هي خيارات أخرى للتعامل مع البيانات غير المتوازنة خارج التعلم الآلي التلقائي:
إعادة الطابع حتى إلى عدم التوازن الفئة. يمكنك لأعلى عينة من الفئات الأصغر أو عينة لأسفل الفئات الأكبر. تتطلب هذه الأساليب خبرة في المعالجة والتحليل.
راجع مقاييس الأداء للبيانات غير المتوازنة. على سبيل المثال، مقياس f1 هي الوسيلة التوافقية للدقة والاسترجاع. تقيس الدقة دقة المصنف، حيث تشير الدقة الأعلى إلى عدد أقل من الإيجابيات الخاطئة. يقيس الاستدعاء اكتمال المصنف، حيث يشير الاستدعاء الأعلى إلى عدد أقل من السلبيات الخاطئة.