كيف يدعم Databricks CI/CD للتعلم الآلي؟

يشير CI/CD (التكامل المستمر والتسليم المستمر) إلى عملية تلقائية لتطوير تطبيقاتك ونشرها ومراقبتها وصيانتها. من خلال أتمتة إنشاء التعليمات البرمجية واختبارها ونشرها، يمكن لفرق التطوير تقديم الإصدارات بشكل أكثر تكرارا وموثوقية من العمليات اليدوية التي لا تزال سائدة عبر العديد من فرق هندسة البيانات وعلوم البيانات. يجمع CI/CD للتعلم الآلي بين تقنيات MLOps وDataOps و ModelOps وDevOps.

توضح هذه المقالة كيفية دعم Databricks CI/CD لحلول التعلم الآلي. في تطبيقات التعلم الآلي، يعد CI/CD مهما ليس فقط لأصول التعليمات البرمجية، ولكن يتم تطبيقه أيضا على مسارات البيانات، بما في ذلك بيانات الإدخال والنتائج التي تم إنشاؤها بواسطة النموذج.

رسم تخطيطي لدورة حياة MLOps من طرف إلى طرف يعرض عناصر CI/CD ل ML.

عناصر التعلم الآلي التي تحتاج إلى CI/CD

أحد تحديات تطوير التعلم الآلي هو أن الفرق المختلفة تمتلك أجزاء مختلفة من العملية. قد تعتمد الفرق على أدوات مختلفة ولديها جداول إصدار مختلفة. يوفر Azure Databricks منصة واحدة وموحدة للبيانات وML مع أدوات متكاملة لتحسين كفاءة الفرق وضمان اتساق البيانات وتدفقات التعلم الآلي وقابليتها للتكرار.

بشكل عام لمهام التعلم الآلي، يجب تعقب ما يلي في سير عمل CI/CD تلقائي:

  • بيانات التدريب، بما في ذلك جودة البيانات وتغييرات المخطط وتغييرات التوزيع.
  • إدخال البنية الأساسية لبرنامج ربط العمليات التجارية لبيانات الإدخال.
  • التعليمات البرمجية لتدريب النموذج والتحقق من صحته وخدمته.
  • تنبؤات النموذج والأداء.

دمج Databricks في عمليات CI/CD

تشير عمليات MLOps وDataOps و ModelOps وDevOps إلى تكامل عمليات التطوير مع "العمليات" - ما يجعل العمليات والبنية الأساسية قابلة للتنبؤ وموثوق بها. توضح هذه المجموعة من المقالات كيفية دمج مبادئ العمليات ("العمليات") في مهام سير عمل التعلم الآلي على النظام الأساسي Databricks.

تتضمن Databricks جميع المكونات المطلوبة لدورة حياة التعلم الآلي بما في ذلك أدوات لبناء "التكوين كتعليمة برمجية" لضمان إعادة الإنتاج و"البنية الأساسية كتعليمة برمجية" لأتمتة توفير الخدمات السحابية. كما يتضمن خدمات التسجيل والتنبيه لمساعدتك في اكتشاف المشكلات واستكشاف الأخطاء وإصلاحها عند حدوثها.

DataOps: بيانات موثوقة وآمنة

تعتمد نماذج التعلم الآلي الجيدة على البنية الأساسية والبنية الأساسية للبيانات الموثوق بها. باستخدام Databricks Data Intelligence Platform، يكون مسار البيانات بأكمله من استيعاب البيانات إلى المخرجات من النموذج المقدم على نظام أساسي واحد ويستخدم نفس مجموعة الأدوات، ما يسهل الإنتاجية وقابلية إعادة الإنتاج والمشاركة واستكشاف الأخطاء وإصلاحها.

رسم تخطيطي ل DataOps

مهام وأدوات DataOps في Databricks

يسرد الجدول مهام وأدوات DataOps الشائعة في Databricks:

مهمة DataOps الأداة في Databricks
استيعاب البيانات وتحويلها التحميل التلقائي وApache Spark
تعقب التغييرات التي تطرأ على البيانات بما في ذلك تعيين الإصدارات والنواة جداول دلتا
إنشاء مسارات معالجة البيانات وإدارتها ومراقبتها Delta Live Tables
ضمان أمان البيانات وحوكمتها كتالوج Unity
تحليل البيانات الاستكشافية ولوحات المعلومات دفاتر ملاحظات Databricks SQL ولوحات المعلومات وDatabricks
الترميز العام دفاتر ملاحظات Databricks SQL وDatabricks
جدولة مسارات البيانات وظائف Databricks
أتمتة مهام سير العمل العامة وظائف Databricks
إنشاء ميزات للتدريب النموذجي وتخزينها وإدارتها واكتشافها مخزن ميزات Databricks
مراقبة البيانات Lakehouse Monitoring

ModelOps: تطوير النموذج ودورة الحياة

يتطلب تطوير نموذج سلسلة من التجارب وطريقة لتتبع ومقارنة شروط ونتائج تلك التجارب. يتضمن Databricks Data Intelligence Platform MLflow لتتبع تطوير النموذج وسجل نموذج MLflow لإدارة دورة حياة النموذج بما في ذلك التقسيم المرحلي وتقديم وتخزين البيانات الاصطناعية للنموذج.

بعد إصدار نموذج للإنتاج، يمكن أن تتغير العديد من الأشياء التي قد تؤثر على أدائه. بالإضافة إلى مراقبة أداء التنبؤ بالنموذج، يجب عليك أيضا مراقبة بيانات الإدخال للتغييرات في الجودة أو الخصائص الإحصائية التي قد تتطلب إعادة تدريب النموذج.

رسم تخطيطي ل ModelOps

مهام وأدوات ModelOps في Databricks

يسرد الجدول مهام ModelOps الشائعة والأدوات التي يوفرها Databricks:

مهمة ModelOps الأداة في Databricks
تطوير نموذج المسار تتبع نموذج MLflow
إدارة دورة حياة النموذج النماذج في كتالوج Unity
التحكم في إصدار التعليمات البرمجية النموذجية ومشاركته مجلدات Databricks Git
تطوير نموذج بدون تعليمات برمجية Databricks AutoML
مراقبة النموذج Lakehouse Monitoring

DevOps: الإنتاج والأتمتة

يدعم النظام الأساسي Databricks نماذج التعلم الآلي في الإنتاج مع ما يلي:

  • البيانات الشاملة و دورة حياة النموذج: من النماذج في الإنتاج مرة أخرى إلى مصدر البيانات الخام، على نفس النظام الأساسي.
  • خدمة النموذج على مستوى الإنتاج: تتوسع تلقائيا لأعلى أو لأسفل بناء على احتياجات عملك.
  • الوظائف: أتمتة الوظائف وإنشاء مهام سير عمل مجدولة للتعلم الآلي.
  • مجلدات Git: تعيين إصدار التعليمات البرمجية ومشاركتها من مساحة العمل، يساعد أيضا الفرق على اتباع أفضل ممارسات هندسة البرامج.
  • موفر Databricks Terraform: يعمل على أتمتة البنية الأساسية للتوزيع عبر السحب لوظائف الاستدلال على التعلم الآلي، وخدمة نقاط النهاية، ووظائف التمييز.

خدمة النموذج

لنشر النماذج في الإنتاج، يبسط MLflow العملية بشكل كبير، ما يوفر النشر بنقرة واحدة كمهمة دفعية لكميات كبيرة من البيانات أو كنقطة نهاية REST على مجموعة مقياس تلقائي. كما يضمن تكامل Databricks Feature Store مع MLflow اتساق ميزات التدريب والخدمات؛ أيضا، يمكن لنماذج MLflow البحث تلقائيا عن الميزات من 'متجر الميزات'، حتى بالنسبة لخدمة زمن الانتقال المنخفض عبر الإنترنت.

يدعم النظام الأساسي Databricks العديد من خيارات نشر النموذج:

  • التعليمات البرمجية والحاويات.
  • خدمة الدفعة.
  • خدمة عبر الإنترنت ذات زمن انتقال منخفض.
  • خدمة على الجهاز أو الحافة.
  • متعددة السحابة، على سبيل المثال، تدريب النموذج على سحابة واحدة ونشره مع سحابة أخرى.

لمزيد من المعلومات، راجع الفسيفساء الذكاء الاصطناعي خدمة النموذج.

المهام

تسمح لك وظائف Databricks بأتمتة وجدولة أي نوع من أحمال العمل، من ETL إلى التعلم الآلي. يدعم Databricks أيضا عمليات التكامل مع منسقي الجهات الخارجية الشائعين مثل Airflow.

مجلدات Git

يتضمن النظام الأساسي Databricks دعم Git في مساحة العمل لمساعدة الفرق على اتباع أفضل ممارسات هندسة البرمجيات من خلال تنفيذ عمليات Git من خلال واجهة المستخدم. يمكن للمسؤولين ومهندسي DevOps استخدام واجهات برمجة التطبيقات لإعداد الأتمتة باستخدام أدوات CI/CD المفضلة لديهم. يدعم Databricks أي نوع من نشر Git بما في ذلك الشبكات الخاصة.

لمزيد من المعلومات حول أفضل الممارسات لتطوير التعليمات البرمجية باستخدام مجلدات Databricks Git، راجع سير عمل CI/CD مع تكامل Git ومجلدات Databricks Git واستخدام CI/CD. تتيح لك هذه التقنيات، جنبا إلى جنب مع Databricks REST API، إنشاء عمليات نشر تلقائية باستخدام GitHub Actions أو البنية الأساسية لبرنامج ربط العمليات التجارية Azure DevOps أو وظائف Jenkins.

كتالوج Unity للحوكمة والأمان

يتضمن النظام الأساسي Databricks كتالوج Unity، والذي يتيح للمسؤولين إعداد التحكم الدقيق في الوصول ونهج الأمان والحوكمة لجميع البيانات والأصول الذكاء الاصطناعي عبر Databricks.