ما هو CI/CD على Azure Databricks؟

هذه المقالة هي مقدمة إلى CI/CD على Databricks. يشير التكامل المستمر والتسليم المستمر (CI/CD) إلى عملية تطوير البرامج وتسليمها في دورات قصيرة ومتكررة من خلال استخدام البنية الأساسية لبرنامج ربط العمليات التجارية للأتمتة. CI/CD شائع في تطوير البرمجيات، وأصبح ضروريا بشكل متزايد لهندسة البيانات وعلوم البيانات. من خلال أتمتة إنشاء التعليمات البرمجية واختبارها ونشرها، فإن فرق التطوير قادرة على تقديم الإصدارات بشكل أكثر موثوقية من العمليات اليدوية التي لا تزال شائعة لدى فرق هندسة البيانات وعلوم البيانات.

توصي Azure Databricks باستخدام حزم أصول Databricks ل CI/CD، والتي تمكن من تطوير ونشر البيانات المعقدة والتحليلات ومشاريع التعلم الآلي لمنصة Azure Databricks. تسمح لك الحزم بإدارة العديد من التكوينات المخصصة بسهولة وأتمتة البنيات والاختبارات والنشرات لمشاريعك إلى مساحات عمل تطوير Azure Databricks والتقسيم المرحلي والإنتاج.

للحصول على نظرة عامة على CI/CD لمشاريع التعلم الآلي على Azure Databricks، راجع كيف يدعم Databricks CI/CD للتعلم الآلي؟.

ماذا يوجد في البنية الأساسية لبرنامج ربط العمليات التجارية CI/CD على Azure Databricks؟

يمكنك استخدام Databricks Asset Bundles لتحديد وإدارة تنفيذ Azure Databricks CI/CD برمجيا، والذي يتضمن عادة:

  • دفاتر الملاحظات: غالبا ما تكون دفاتر ملاحظات Azure Databricks جزءا أساسيا من سير عمل هندسة البيانات وعلوم البيانات. يمكنك استخدام التحكم بالإصدار لدفاتر الملاحظات، وكذلك التحقق من صحتها واختبارها كجزء من مسار CI/CD. يمكنك تشغيل الاختبارات التلقائية مقابل دفاتر الملاحظات للتحقق مما إذا كانت تعمل كما هو متوقع.
  • المكتبات: إدارة تبعيات المكتبة المطلوبة لتشغيل التعليمات البرمجية المنشورة. استخدم التحكم بالإصدار في المكتبات وقم بتضمينها في الاختبار التلقائي والتحقق من الصحة.
  • مهام سير العمل: تتكون مهام سير عمل Databricks من وظائف تسمح لك بجدولة المهام التلقائية وتشغيلها باستخدام دفاتر الملاحظات أو مهام Spark.
  • مسارات البيانات: يمكنك أيضا تضمين مسارات البيانات في أتمتة CI/CD، باستخدام Delta Live Tables، وهو إطار العمل في Databricks للإعلان عن مسارات البيانات.
  • البنية الأساسية: يتضمن تكوين البنية الأساسية التعريفات ومعلومات التوفير للمجموعات ومساحات العمل والتخزين للبيئات المستهدفة. يمكن التحقق من صحة تغييرات البنية الأساسية واختبارها كجزء من البنية الأساسية لبرنامج ربط العمليات التجارية CI/CD، مما يضمن أنها متسقة وخالية من الأخطاء.

خطوات CI/CD على Azure Databricks

يتضمن التدفق النموذجي لمسار Azure Databricks CI/CD الخطوات التالية:

  1. المتجر: قم بتخزين التعليمات البرمجية ودفاتر ملاحظات Azure Databricks في نظام التحكم بالإصدار مثل Git. يسمح لك هذا بتعقب التغييرات بمرور الوقت والتعاون مع أعضاء الفريق الآخرين. راجع تقنيات CI/CD مع مجلدات Git وDatabricks Git (Repos) وإعدادات Git المجمعة.
  2. التعليمات البرمجية: تطوير اختبارات التعليمات البرمجية والوحدة في دفتر ملاحظات Azure Databricks في مساحة العمل أو محليا باستخدام IDE خارجي. يوفر Azure Databricks ملحق Visual Studio Code الذي يسهل تطوير ونشر التغييرات على مساحات عمل Azure Databricks.
  3. البناء: استخدم إعدادات Databricks Asset Bundles لإنشاء عناصر معينة تلقائيا أثناء عمليات النشر. راجع البيانات الاصطناعية.
  4. النشر: نشر التغييرات على مساحة عمل Azure Databricks باستخدام حزم أصول Databricks بالاقتران مع أدوات مثل Azure DevOps أو Jenkins أو GitHub Actions. راجع أوضاع نشر مجموعة أصول Databricks.
  5. الاختبار: تطوير الاختبارات التلقائية وتشغيلها للتحقق من صحة تغييرات التعليمات البرمجية باستخدام أدوات مثل pytest.
  6. التشغيل: استخدم Databricks CLI بالاقتران مع حزم أصول Databricks لأتمتة عمليات التشغيل في مساحات عمل Azure Databricks. راجع تشغيل مجموعة.
  7. المراقبة: مراقبة أداء التعليمات البرمجية وسير العمل في Azure Databricks باستخدام أدوات مثل Azure Monitor أو Datadog. يساعدك هذا في تحديد أي مشكلات تنشأ في بيئة الإنتاج وحلها.
  8. التكرار: قم بإجراء تكرارات صغيرة ومتكررة لتحسين وتحديث مشروع هندسة البيانات أو علوم البيانات. التغييرات الصغيرة أسهل في التراجع عن التغييرات الكبيرة.

لمزيد من المعلومات حول إدارة دورة حياة أصول وبيانات Azure Databricks، راجع الوثائق التالية حول CI/CD وأدوات البنية الأساسية لبرنامج ربط العمليات التجارية للبيانات.

المنطقة استخدم هذه الأدوات عندما تريد...
حزم أصول Databricks تعريف وظائف Azure Databricks وخطوط أنابيب Delta Live Tables وMLOps Stacks ونشرها وتشغيلها برمجيا باستخدام أفضل ممارسات CI/CD وسير العمل.
مهام سير عمل CI/CD مع مجلدات Git وDatabricks Git استخدم مجلدات GitHub وDatabricks Git للتحكم بالمصادر وسير عمل CI/CD.
التكامل والتسليم المستمر على Azure Databricks باستخدام Azure DevOps تطوير بايبلين CI/CD ل Azure Databricks الذي يستخدم Azure DevOps.
التكامل والتسليم المستمر باستخدام GitHub Actions تطوير سير عمل CI/CD على GitHub يستخدم إجراءات GitHub التي تم تطويرها ل Azure Databricks.
CI/CD مع Jenkins على Azure Databricks تطوير مسار CI/CD ل Azure Databricks الذي يستخدم Jenkins.
تنسيق وظائف Azure Databricks باستخدام Apache Airflow إدارة وجدولة مسار بيانات يستخدم Apache Airflow.
كيانات الخدمة ل CI/CD استخدم كيانات الخدمة، بدلا من المستخدمين، مع أنظمة CI/CD.