ما المقصود بعملية علوم بيانات الفريق؟

Azure Machine Learning

عملية علوم بيانات الفريق (TDSP) هي منهجية مرنة وتكيرية لعلوم البيانات يمكنك استخدامها لتقديم حلول تحليلات تنبؤية وتطبيقات الذكاء الاصطناعي بكفاءة. يساعد TDSP على تحسين تعاون الفريق والتعلم من خلال اقتراح كيفية عمل أدوار الفريق بشكل أفضل معا. يتضمن TDSP أفضل الممارسات والهياكل من Microsoft وقادة الصناعة الآخرين لمساعدة فريقك على تنفيذ مبادرات علوم البيانات بنجاح وتحقيق فوائد برنامج التحليلات الخاص بك بشكل كامل.

تقدم هذه المقالة نظرة عامة على عملية علوم بيانات الفريق ومكوناتها الرئيسية. يقدم إرشادات حول كيفية تنفيذ TDSP باستخدام أدوات Microsoft والبنية الأساسية. يمكنك العثور على موارد أكثر تفصيلا خلال المقالة.

المكونات الرئيسية لعملية علوم بيانات الفريق

يحتوي TDSP على المكونات الرئيسية التالية:

  • تعريف دورة حياة علم البيانات
  • بنية مشروع موحدة
  • البنية الأساسية والموارد الموصى بها لمشاريع علوم البيانات
  • الأدوات والأدوات المساعدة الموصى بها لتنفيذ المشروع

دورة حياة علم البيانات

يوفر TDSP دورة حياة يمكنك استخدامها لهيكلة تطوير مشاريع علوم البيانات الخاصة بك. تحدد دورة الحياة الخطوات الكاملة التي تسير عليها المشروعات الناجحة.

يمكنك الجمع بين TDSP المستند إلى المهام ودورات حياة علم البيانات الأخرى، مثل العملية القياسية عبر الصناعة لاستخراج البيانات (CRISP-DM)، أو عملية اكتشاف المعرفة في قواعد البيانات (KDD) أو عملية مخصصة أخرى. وتشترك هذه المنهجيات المختلفة إلى حدٍ كبير في الكثير من سماتها.

يجب عليك استخدام دورة الحياة هذه إذا كان لديك مشروع علم بيانات يشكل جزءا من تطبيق ذكي. تنشر التطبيقات الذكية التعلم الآلي أو نماذج الذكاء الاصطناعي للتحليقات التنبؤية. يمكنك أيضا استخدام هذه العملية لمشاريع علوم البيانات الاستكشافية ومشاريع التحليلات المرتجلة.

تتكون دورة حياة TDSP من خمس مراحل رئيسية يقوم بها فريقك بشكل متكرر. وتتضمن هذه المراحل ما يلي:

فيما يلي تمثيل مرئي لدورة حياة TDSP:

Diagram that shows the stages of the TDSP lifecycle.

للحصول على معلومات حول الأهداف والمهام وبيانات الوثائق لكل مرحلة، راجع دورة حياة عملية علوم بيانات الفريق.

ترتبط هذه المهام والبيانات الاصطناعية بأدوار المشروع، على سبيل المثال:

  • مهندس الحلول.
  • مدير المشروع.
  • مهندس البيانات.
  • عالم البيانات.
  • مطور التطبيق.
  • عميل متوقع للمشروع.

يوضح الرسم التخطيطي التالي المهام (باللون الأزرق) والبيانات الاصطناعية (باللون الأخضر) المرتبطة بكل مرحلة من مراحل دورة الحياة (على المحور الأفقي) لهذه الأدوار (على المحور العمودي).

Diagram that shows the tasks and artifacts for each stage.

الهيكل الموحد للمشروع

يمكن لفريقك استخدام البنية الأساسية ل Azure لتنظيم أصول علم البيانات.

يدعم Azure التعلم الآلي تدفق MLflow مفتوح المصدر. نوصي باستخدام MLflow لعلوم البيانات وإدارة المشاريع الذكاء الاصطناعي. تم تصميم MLflow لإدارة دورة حياة التعلم الآلي الكاملة. فهو يدرب النماذج ويخدمها على منصات مختلفة، حتى تتمكن من استخدام مجموعة متسقة من الأدوات بغض النظر عن مكان تشغيل تجاربك. يمكنك استخدام MLflow محليا على جهاز الكمبيوتر الخاص بك، أو على هدف حساب بعيد، أو على جهاز ظاهري، أو على مثيل حساب التعلم الآلي.

يتكون MLflow من عدة وظائف رئيسية:

  • تعقب التجارب: باستخدام MLflow، يمكنك تعقب التجارب، بما في ذلك المعلمات وإصدارات التعليمات البرمجية والمقاييس وملفات الإخراج. تساعدك هذه الميزة على مقارنة عمليات التشغيل المختلفة وإدارة عملية التجريب بكفاءة.

  • رمز الحزمة: يوفر تنسيقا موحدا للتعليمات البرمجية للتعلم الآلي للتغليف، والتي تتضمن التبعيات والتكوينات. تسهل هذه العبوة إعادة إنتاج عمليات التشغيل ومشاركة التعليمات البرمجية مع الآخرين.

  • إدارة النماذج: يوفر MLflow وظائف لإدارة النماذج وتعيين إصداراتها. وهو يدعم أطر عمل التعلم الآلي المختلفة، حتى تتمكن من تخزين النماذج وإصدارها وخدمتها.

  • خدمة النماذج ونشرها: يدمج MLflow قدرات خدمة النموذج ونشره، حتى تتمكن من نشر النماذج بسهولة في بيئات متنوعة.

  • تسجيل النماذج: يمكنك إدارة دورة حياة النموذج، بما في ذلك تعيين الإصدار وانتقالات المرحلة والتعليقات التوضيحية. MLflow مفيد للحفاظ على مخزن نموذج مركزي في بيئة تعاونية.

  • استخدام واجهة برمجة التطبيقات وواجهة المستخدم: داخل Azure، يتم تجميع MLflow ضمن التعلم الآلي API الإصدار 2، حتى تتمكن من التفاعل مع النظام برمجيا. يمكنك استخدام مدخل Microsoft Azure للتفاعل مع واجهة المستخدم.

يهدف MLflow إلى تبسيط وتوحيد عملية تطوير التعلم الآلي، من التجريب إلى النشر.

يتكامل التعلم الآلي مع مستودعات Git، بحيث يمكنك استخدام الخدمات المتوافقة مع Git: GitHub أو GitLab أو Bitbucket أو Azure DevOps أو خدمة أخرى متوافقة مع Git. بالإضافة إلى الأصول التي تم تعقبها بالفعل في التعلم الآلي، يمكن لفريقك تطوير تصنيفه الخاص ضمن خدمته المتوافقة مع Git لتخزين معلومات المشروع الأخرى، مثل:

  • الوثائق
    • Project، على سبيل المثال تقرير المشروع النهائي
    • تقرير البيانات، على سبيل المثال قاموس البيانات أو تقارير جودة البيانات
    • نموذج، على سبيل المثال تقارير النموذج
  • التعليمات البرمجيه
    • تحضير البيانات
    • تطوير النموذج
    • التشغيل، بما في ذلك الأمان والتوافق

البنية الأساسية والموارد

يوفر TDSP توصيات لإدارة التحليلات المشتركة والبنية الأساسية للتخزين مثل:

  • أنظمة الملفات السحابية لتخزين مجموعات البيانات
  • قواعد البيانات
  • مجموعات البيانات الضخمة، على سبيل المثال SQL أو Spark
  • خدمات التعلم الآلي

يمكنك وضع البنية الأساسية للتحليات والتخزين، حيث يتم تخزين مجموعات البيانات الأولية والمعالجة، في السحابة أو في الموقع. وتتيح هذه البنية التحتية إجراء تحليل قابل للاستنساخ. كما أنه يمنع الازدواجية، التي يمكن أن تؤدي إلى عدم الاتساق وتكاليف البنية التحتية غير الضرورية. تحتوي البنية الأساسية على أدوات لتوفير الموارد المشتركة وتتبعها والسماح لكل عضو في الفريق بالاتصال بهذه الموارد بشكل آمن. من الممارسات الجيدة أيضا أن يقوم أعضاء المشروع بإنشاء بيئة حوسبة متسقة. يمكن لأعضاء الفريق المختلفين بعد ذلك نسخ التجارب والتحقق من صحتها.

فيما يلي مثال لفريق يعمل على مشاريع متعددة ومشاركة مختلف مكونات البنية التحتية لتحليلات السحابة:

Diagram that shows the infrastructure of a team.

الأدوات والمرافق

في معظم المؤسسات، من الصعب إدخال العمليات. توفر البنية الأساسية أدوات لتنفيذ TDSP ودورة الحياة للمساعدة في خفض الحواجز وزيادة اتساق اعتمادها.

باستخدام التعلم الآلي، يمكن لعلماء البيانات تطبيق الأدوات مفتوحة المصدر كجزء من مسار علم البيانات أو سير العمل. ضمن التعلم الآلي، تعزز Microsoft أدوات الذكاء الاصطناعي المسؤولة، مما يساعد على تحقيق معيار الذكاء الاصطناعي المسؤول من Microsoft.

الاقتباسات التي تمت مراجعتها من قبل الأقران

TDSP هو منهجية راسخة تستخدم عبر مفاوضات Microsoft، وبالتالي تم توثيقها ودراسة في المؤلفات التي تمت مراجعتها من قبل الأقران. توفر هذه الاقتباسات فرصة للتحقيق في ميزات وتطبيقات TDSP. راجع صفحة نظرة عامة على دورة الحياة للحصول على قائمة بالاقتباسات.

الأدوار والمهام في عملية علوم بيانات الفريق