مرحلة اكتساب البيانات وفهمها لدورة حياة عملية علوم بيانات الفريق

توضح هذه المقالة الأهداف والمهام والنواتج المرتبطة بمرحلة الحصول على البيانات وفهمها لـ Team Data Science Process (TDSP). توفر هذه العملية دورة حياة موصى بها يمكن لفريقك استخدامها لهيكلة مشاريع علوم البيانات. توضح دورة الحياة المراحل الرئيسية التي يقوم بها فريقك، غالبا بشكل متكرر:

  • فهم الأعمال
  • اكتساب البيانات وفهمها
  • النمذجه
  • النشر
  • قبول العملاء

فيما يلي تمثيل مرئي لدورة حياة TDSP:

رسم تخطيطي يوضح مراحل دورة حياة TDSP.

الأهداف

أهداف مرحلة اكتساب البيانات وفهمها هي:

  • إنتاج مجموعة بيانات نظيفة وعالية الجودة تتعلق بوضوح بالمتغيرات المستهدفة. حدد موقع مجموعة البيانات في بيئة التحليلات المناسبة حتى يكون فريقك جاهزا لمرحلة النمذجة.

  • تطوير هيكل حل للبينة الأساسية للبيانات المسؤولة عن تحديث البيانات وتسجيلها بانتظام.

كيفية إكمال المهام

مرحلة الحصول على البيانات وفهمها لها ثلاث مهام رئيسية:

  • استيعاب البيانات في البيئة التحليلية المستهدفة.

  • استكشف البيانات لتحديد ما إذا كانت البيانات يمكنها الإجابة عن السؤال.

  • إعداد تدفقات بيانات لتسجيل بيانات جديدة أو محدثة بانتظام.

استيعاب البيانات

قم بإعداد عملية لنقل البيانات من مواقع المصدر إلى المواقع المستهدفة حيث تقوم بتشغيل عمليات التحليلات، مثل التدريب والتنبؤات.

استكشاف البيانات

قبل تدريب النماذج، يجب أن يكون لديك فهم سليم للبيانات. غالبا ما تكون مجموعات البيانات في العالم الحقيقي مزعجة أو مفقودة القيم أو لديها مجموعة من التناقضات الأخرى. يمكنك استخدام تلخيص البيانات والتصور لتدقيق جودة بياناتك وجمع المعلومات لمعالجة البيانات قبل أن تكون جاهزة للنمذجة. غالباً ما تكون هذه العملية متكررة.

بعد أن تكون راضيا عن جودة البيانات التي تم تنظيفها، فإن الخطوة التالية هي فهم الأنماط في البيانات بشكل أفضل. يساعدك تحليل البيانات هذا على اختيار نموذج تنبؤي مناسب لهدفك وتطويره. تحديد مقدار ما تتوافق البيانات مع الهدف. ثم حدد ما إذا كان لدى فريقك بيانات كافية للمضي قدما في خطوات النمذجة التالية. مرة أخرى، غالباً ما تكون هذه العملية متكررة. قد تحتاج إلى العثور على مصادر بيانات جديدة ببيانات أكثر دقة أو أكثر صلة لضبط مجموعة البيانات المحددة في البداية في المرحلة السابقة.

إعداد تدفق بيانات

بالإضافة إلى استيعاب البيانات وتنظيفها، تحتاج عادة إلى إعداد عملية لتسجيل بيانات جديدة أو تحديث البيانات بانتظام كجزء من عملية تعلم مستمرة. يمكنك استخدام مسار بيانات أو سير عمل لتسجيل البيانات. نوصي بمسار يستخدم Azure Data Factory.

في هذه المرحلة، يمكنك تطوير هيكل حل لتدفقات البيانات. يمكنك إنشاء البنية الأساسية لبرنامج ربط العمليات التجارية بالتوازي مع المرحلة التالية من مشروع علم البيانات. اعتمادا على احتياجات عملك والقيود المفروضة على الأنظمة الحالية التي يتم دمج هذا الحل فيها، يمكن أن يكون المسار:

  • مقسّمة إلى دُفعات
  • منقولة باستمرار أو في الوقت الحقيقي
  • مختلط

التكامل مع MLflow

أثناء مرحلة فهم البيانات، يمكنك استخدام تتبع تجربة MLflow لتعقب وتوثيق استراتيجيات المعالجة المسبقة المختلفة للبيانات وتحليل البيانات الاستكشافية.

البيانات الاصطناعية

في هذه المرحلة، يقدم فريقك ما يلي:

  • تقرير جودة البيانات الذي يتضمن ملخصات البيانات والعلاقات بين كل سمة وهدف وترتيب المتغيرات والمزيد.

  • بنية الحل، مثل رسم تخطيطي أو وصف لمسار البيانات الذي يستخدمه فريقك لتشغيل التنبؤات على بيانات جديدة. يحتوي هذا الرسم التخطيطي أيضا على البنية الأساسية لبرنامج ربط العمليات التجارية لإعادة تدريب النموذج الخاص بك استنادا إلى بيانات جديدة. عند استخدام قالب بنية دليل TDSP، قم بتخزين المستند في دليل المشروع.

  • قرار نقطة تفتيش. قبل البدء في هندسة كاملة الميزات وبناء النموذج، يمكنك إعادة تقييم المشروع لتحديد ما إذا كانت القيمة المتوقعة كافية لمواصلة متابعته. على سبيل المثال، قد تكون مستعدا للمتابعة، أو تحتاج إلى جمع المزيد من البيانات، أو التخلي عن المشروع إذا لم تتمكن من العثور على البيانات التي تجيب على الأسئلة.

أدب مراجع من قبل الأقران

ينشر الباحثون دراسات حول TDSP في الأدب الذي يراجعه الأقران. توفر الاقتباسات فرصة للتحقيق في التطبيقات الأخرى أو الأفكار المماثلة ل TDSP، بما في ذلك مرحلة الحصول على البيانات وفهم دورة الحياة.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.

تصف هذه المقالات المراحل الأخرى من دورة حياة TDSP: