مرحلة إنشاء النماذج لدورة حياة Team Data Science Process

توضح هذه المقالة الأهداف والمهام والنواتج المرتبطة بمرحلة إنشاء النماذج لـ Team Data Science Process (TDSP). توفر هذه العملية دورة حياة موصى بها يمكن لفريقك استخدامها لهيكلة مشاريع علوم البيانات. توضح دورة الحياة المراحل الرئيسية التي يقوم بها فريقك، غالبا بشكل متكرر:

  • فهم الأعمال
  • اكتساب البيانات وفهمها
  • النمذجه
  • النشر
  • قبول العملاء

فيما يلي تمثيل مرئي لدورة حياة TDSP:

Diagram that shows the stages of the TDSP lifecycle.

الأهداف

أهداف مرحلة النمذجة هي:

  • تحديد ميزات البيانات المثلى لنموذج التعلم الآلي.

  • إنشاء نموذج تعلم آلي إعلامي يتنبأ بالهدف بدقة أكبر.

  • إنشاء نموذج تعلم آلي مناسب للإنتاج.

كيفية إكمال المهام

تحتوي مرحلة النمذجة على ثلاث مهام رئيسية:

  • هندسة الميزات: إنشاء ميزات البيانات من البيانات الأولية لتسهيل تدريب النموذج.

  • تدريب النموذج: ابحث عن النموذج الذي يجيب على السؤال بدقة أكبر من خلال مقارنة مقاييس نجاح النماذج.

  • تقييم النموذج: تحديد ما إذا كان نموذجك مناسبا للإنتاج.

هندسة الميزات

تشمل هندسة الميزات تضمين المتغيرات الأولية وتجميعها وتحويلها لإنشاء الميزات المستخدمة في التحليل. إذا كنت تريد نظرة ثاقبة حول كيفية بناء نموذج، فأنت بحاجة إلى دراسة الميزات الأساسية للنموذج.

هذه الخطوة تتطلب مزيجاً مبتكراً من الخبرة في المجال والرؤى التي تم الحصول عليها من خطوة استكشاف البيانات. هندسة الميزات هي عملية موازنة للعثور على المتغيرات بما في ذلك المتغيرات الإعلامية ولكن في نفس الوقت تحاول تجنب الكثير من المتغيرات غير المرتبطة. تعمل المتغيرات المفيدة على تحسين نتيجتك. تقدم المتغيرات غير المرتبطة ضوضاء غير ضرورية في النموذج. تحتاج أيضاً إلى إنشاء هذه الميزات لأي بيانات جديدة تم الحصول عليها أثناء التسجيل. ونتيجة لذلك، يمكن أن يعتمد إنشاء هذه الميزات فقط على البيانات المتوفرة في وقت التسجيل.

تدريب النموذج

هناك العديد من خوارزميات النمذجة التي يمكنك استخدامها، اعتمادا على نوع السؤال الذي تحاول الإجابة عنه. للحصول على إرشادات حول اختيار خوارزمية تم إنشاؤها مسبقا، راجع التعلم الآلي ورقة الغش الخوارزمية لمصمم Azure التعلم الآلي. تتوفر خوارزميات أخرى من خلال حزم مفتوحة المصدر في R أو Python. على الرغم من أن هذه المقالة تركز على Azure التعلم الآلي، فإن الإرشادات التي توفرها مفيدة للعديد من مشاريع التعلم الآلي.

تتضمن عملية تدريب النموذج الخطوات التالية:

  • تقسيم بيانات الإدخال عشوائياً لإنشاء النماذج إلى مجموعة بيانات تدريب ومجموعة بيانات اختبار.

  • إنشاء النماذج باستخدام مجموعة بيانات التدريب.

  • تقييم التدريب ومجموعة بيانات الاختبار. استخدم سلسلة من خوارزميات التعلم الآلي المتنافسة. استخدم معلمات الضبط المرتبطة المختلفة (المعروفة باسم مسح المعلمات) الموجهة نحو الإجابة عن سؤال الاهتمام بالبيانات الحالية.

  • حدد أفضل حل للإجابة على السؤال من خلال مقارنة مقاييس النجاح بين الأساليب البديلة.

لمزيد من المعلومات، راجع تدريب النماذج باستخدام التعلم الآلي.

إشعار

تجنب التسرب: قد تتسبب في تسرب البيانات إذا قمت بتضمين بيانات من خارج مجموعة بيانات التدريب التي تسمح لنموذج أو خوارزمية التعلم الآلي بإجراء تنبؤات جيدة بشكل غير واقعي. تسرب البيانات أحد الأسباب الشائعة لتوتر علماء البيانات عند الحصول على نتائج تنبؤية جيدة جداً يصعب تصديقها. قد يكون من الصعب اكتشاف هذه التبعيات. غالبا ما يتطلب تجنب التسرب التكرار بين إنشاء مجموعة بيانات تحليل وإنشاء نموذج وتقييم دقة النتائج.

تقييم النماذج

بعد تدريب النموذج، يركز عالم البيانات في فريقك على تقييم النموذج.

  • اتخاذ قرار: تقييم ما إذا كان النموذج يعمل بشكل كاف للإنتاج. تشمل أمثلة الأسئلة الرئيسية التي يمكن طرحها:

    • هل يجيب النموذج عن السؤال بثقة كافية بالمقارنة مع بيانات الاختبار؟

    • هل يجب عليك تجربة أي نهج بديل؟

    • هل يجب عليك جمع المزيد من البيانات أو إجراء المزيد من هندسة الميزات أو تجربة خوارزميات أخرى؟

  • تفسير النموذج: استخدم التعلم الآلي Python SDK لتنفيذ المهام التالية:

    • اشرح سلوك النموذج بالكامل أو التنبؤات الفردية على جهازك الشخصي محلياً.

    • تمكين التقنيات القابلية للتفسير للميزات المهندسة.

    • اشرح سلوك النموذج بأكمله والتنبؤات الفردية في Azure.

    • تحميل تفسيرات إلى محفوظات التشغيل التعلم الآلي.

    • استخدم لوحة معلومات المرئيات للتفاعل مع تفسيرات النموذج، سواء في دفتر ملاحظات Jupyter أو في مساحة عمل التعلم الآلي.

    • وزع شرحاً للدرجات جنباً إلى جنب مع نموذجك لملاحظة التفسيرات أثناء الاستنتاج.

  • تقييم الإنصاف: استخدم حزمة Python مفتوحة المصدر fairlearn مع التعلم الآلي لتنفيذ المهام التالية:

    • قيِّم إنصاف تنبؤات النموذج خاصتك. تساعد هذه العملية فريقك على معرفة المزيد حول الإنصاف في التعلم الآلي.

    • تحميل نتائج تحليلات تقييم الإنصاف وإدراجها وتنزيلها من وإلى التعلم الآلي studio.

    • راجع لوحة معلومات تقييم الإنصاف في التعلم الآلي studio للتفاعل مع رؤى الإنصاف الخاصة بنماذجك.

التكامل مع MLflow

يتكامل التعلم الآلي مع MLflow لدعم دورة حياة النمذجة. ويستخدم تتبع MLflow للتجارب، ونشر المشروع، وإدارة النموذج، وسجل النموذج. يضمن هذا التكامل سير عمل التعلم الآلي السلس والفعال. تساعد الميزات التالية في التعلم الآلي في دعم عنصر دورة حياة النمذجة هذا:

  • تعقب التجارب: تستخدم وظائف MLflow الأساسية على نطاق واسع في مرحلة النمذجة لتتبع التجارب والمعلمات والمقاييس والبيانات الاصطناعية المختلفة.

  • توزيع المشاريع: تضمن تعليمة التعبئة البرمجية مع مشاريع MLflow عمليات تشغيل متسقة ومشاركة سهلة بين أعضاء الفريق، وهو أمر ضروري أثناء تطوير النموذج التكراري.

  • إدارة النماذج: تعد إدارة النماذج وتعيين إصدارها أمرا بالغ الأهمية في هذه المرحلة حيث يتم إنشاء نماذج مختلفة وتقييمها وتحسينها.

  • نماذج التسجيل: يستخدم سجل النموذج لإصدار النماذج وإدارتها طوال دورة حياتها.

أدب مراجع من قبل الأقران

ينشر الباحثون دراسات حول TDSP في الأدب الذي يراجعه الأقران. توفر الاقتباسات فرصة للتحقيق في تطبيقات أخرى أو أفكار مشابهة ل TDSP، بما في ذلك مرحلة دورة حياة النمذجة.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.

تصف هذه المقالات المراحل الأخرى من دورة حياة TDSP: