أفكار الحل
تصف هذه المقالة فكرة الحل. يمكن لمهندس السحابة الخاص بك استخدام هذه الإرشادات للمساعدة في تصور المكونات الرئيسية لتنفيذ نموذجي لهذه البنية. استخدم هذه المقالة كنقطة بداية لتصميم حل جيد التصميم يتوافق مع المتطلبات المحددة لحمل العمل الخاص بك.
توضح هذه البنية كيف يمكنك تحسين العمليات باستخدام Azure Databricks وData Lake وMLflow لعلوم البيانات والتعلم الآلي. يمكنك تحسين كفاءتك الشاملة وتجربة العملاء من خلال تطوير نماذج التعلم الآلي والتدريب عليها ونشرها.
بناء الأنظمة
يحتوي الرسم التخطيطي على ثلاثة مستطيلات رمادية: واحدة تُسمى Process، وواحدة تُسمى Serve، وواحدة تُسمى Store. تُوجد مستطيلات Process وServe بجانب بعضها البعض في الجزء العلوي من الرسم التخطيطي. يحتوي مستطيل Serve على مربع أبيض مع أيقونات للتعلّم الآلي وAzure Kubernetes Service. هناك مربع أبيض آخر يجتاز مستطيلات Process وServe. يحتوي على أيقونات لـ Azure Databricks وMLflow. يشير السهم من ذلك المربع إلى المربع الأبيض في مستطيل Serve. أسفل مستطيل Process، يُوجد مستطيل Store. يحتوي على مربع أبيض مع أيقونات لـ Data Lake Storage وDelta Lake وثلاثة جداول قاعدة بيانات تُسمى برونزية وفضية وذهبية. هناك ثلاثة خطوط تربط مستطيلات Process وStore، مع أسهم في كل نهاية من كل سطر.
قم بتنزيل ملف Visio لهذه البنية.
يخزن الحل البيانات ويعالجها ويخدمها:
تدفق البيانات
متجر
يخزن Data Lake Storage البيانات بتنسيق Delta Lake. تشكل Delta Lake الطبقة المنسقة من مستودع البيانات. ينظم تصميم الميدالية البيانات في ثلاث طبقات:
- تحتوي الجداول البرونزية على بيانات أولية.
- تحتوي الجداول الفضية على بيانات تم تنظيفها وتصفيتها.
- تخزن الجداول الذهبية البيانات المُجمعة الجاهزة للتحليات وإعداد التقارير.
معالجة
تُعِد التعليمات البرمجية من لغات وأُطر عمل ومكتبات مختلفة البيانات الأولية وتحسنها وتنظفها (1). تتضمن إمكانيات الترميز Python وR SQL وSpark وPandas وKoalas.
يشغّل Azure Databricks أحمال عمل علم البيانات. هذا النظام الأساسي أيضاً يبني ويدرب نماذج التعلم الآلي (2). يستخدم Azure Databricks مكتبات مثبتة مسبقاً ومُحسَّنة. تتضمن الأمثلة scikit-learn وTensorFlow وPyTorch وXGBoost.
يسجل تعقب MLflow تجارب التعلّم الآلي وتشغيل النماذج والنتائج (3). عندما يكون أفضل نموذج جاهزاً للتشغيل، يوزع Azure Databricks هذا النموذج إلى مستودع نموذج MLflow. يخزن هذا السجل المركزي معلومات عن نماذج التشغيل. يجعل السجل أيضاً النماذج متاحة للمكونات الأخرى:
- يمكن لمسارات Spark وPython استيعاب النماذج. تعالج هذه المسارات أحمال العمل الدفعية أو عمليات ETL المتدفقة.
- توفر واجهات برمجة تطبيقات REST الوصول إلى النماذج لأغراض عديدة. تشمل الأمثلة الاختبار والتسجيل التفاعلي في تطبيقات الهاتف والويب.
الخدمة
يمكن لـ Azure Databricks توزيع نماذج إلى خدمات أخرى، مثل التعلّم الآلي وAKS (4).
المكونات
Azure Databricksهو نظام أساسي لتحليلات البيانات. تشغل نُظم مجموعات Spark المُدارة بالكامل أحمال عمل علم البيانات. يستخدم Azure Databricks أيضاً مكتبات مثبتة مسبقاً ومُحسَّنة لإنشاء نماذج التعلم الآلي وتدريبها. يوفر تكامل MLflow مع Azure Databricks طريقة لتتبع التجارب وتخزين النماذج في المستودعات وإتاحة النماذج للخدمات الأخرى. يوفر Azure Databricks قابلية التوسع:
- تتعامل نُظم مجموعات الحوسبة أحادية العُقدة مع مجموعات البيانات الصغيرة وتشغيل النموذج الواحد.
- بالنسبة لمجموعات البيانات الكبيرة، تتوفر مجموعات الحوسبة متعددة العُقد أو نُظم مجموعات وحدة معالجة الرسومات (GPU). تستخدم هذه المجموعات المكتبات وأُطر العمل مثل HorovodRunner وHyperopt لتشغيل النموذج المتوازي.
Data Lake Storage هو مستودع بيانات قابل للتوسع وآمن لأحمال عمل التحليلات عالية الأداء. هذه الخدمة تدير مجموعات عديدة من وحدات البيتابايت من المعلومات مع الحفاظ على المئات من وحدات الجيجابت من معدل النقل. يمكن أن يكون للبيانات هذه الخصائص:
- منظمة أو شبه منظمة البنية أو غير منظمة البنية.
- تأتي من مصادر متعددة غير متجانسة مثل السجلات والملفات والوسائط.
- ثابتةً، من دُفعات، أو دفق.
Delta Lake هي طبقة تخزين تستخدم تنسيق ملف مفتوح. تعمل هذه الطبقة فوق التخزين السحابي مثل Data Lake Storage. تم تحسين Delta Lake لتحويل وتنظيف الدُفعات وتدفق البيانات. يدعم هذا النظام الأساسي هذه الميزات والوظائف:
- تعيين إصدار البيانات والعودة إلى الحالة السابقة.
- معاملات الذرية والاتساق والعزل والمتانة (ACID) للموثوقية.
- معيار متسق لإعداد البيانات وتدريب النموذج وخدمة النموذج.
- السفر عبر الزمن للحصول على لقطات متسقة من بيانات المصدر. يمكن لعلماء البيانات تدريب النماذج على اللقطات بدلاً من إنشاء نُسخ منفصلة.
MLflow هو نظام أساسي مفتوح المصدر لدورة حياة التعلّم الآلي (ML). تراقب مكونات MLflow نماذج التعلّم الآلي أثناء التدريب والتشغيل. تتضمن المعلومات المُخزَّنة التعليمات البرمجية والبيانات ومعلومات التكوين والنتائج. يخزن MLflow أيضاً النماذج ويحملها أثناء التشغيل. نظراً لأن MLflow يستخدم أطر عمل مفتوحة، يمكن أن تستهلك الخدمات المختلفة والتطبيقات وأطر العمل والأدوات النماذج.
Machine Learning هي بيئة مستندة إلى السحابة تساعدك على إنشاء حلول التحليلات التنبؤية ونشرها وإدارتها. باستخدام هذه النماذج، يمكنك توقع السلوك والنتائج والاتجاهات.
AKS هي خدمة Kubernetes عالية التوفر وآمنة ومدارة بشكل كامل. تسهل AKS نشر وإدارة التطبيقات الحاوية.
تفاصيل السيناريو
نظراً لأن مؤسستك تدرك قوة علم البيانات والتعلّم الآلي، يمكنك تحسين الكفاءة وتحسين تجارب العملاء والتنبؤ بالتغييرات. لتحقيق هذه الأهداف في حالات الاستخدام الحرجة للأعمال، تحتاج إلى نمط متسق وموثوق به من أجل:
- تعقب التجارب.
- إعادة تشغيل النتائج.
- توزيع نماذج التعلّم الآلي في التشغيل.
توضح هذه المقالة حلاً لإطار عمل التعلّم الآلي المتسق والموثوق به. يشكل Azure Databricks جوهر التصميم. تلعب طبقة التخزين Delta Lake ومنصة التعلّم الآلي MLflow أيضاً أدواراً كبيرةً. تتكامل هذه المكونات بسلاسةٍ مع خدمات أخرى مثل Azure Data Lake Storage والتعلّم الآلي Azure وAzure Kubernetes Service (AKS).
توفر هذه الخدمات معاً حلاً لعلوم البيانات والتعلّم الآلي، وهو ما يلي:
بسيط: تبسِّط مستودع البيانات المفتوحة التصميم. تحتوي مستودع البيانات على طبقةٍ منسقةٍ، Delta Lake. توفر هذه الطبقة الوصول إلى البيانات بتنسيق مفتوح المصدر.
مفتوح: يدعم الحل التعليمات البرمجية مفتوحة المصدر والمعايير المفتوحة والأطر المفتوحة. يقلل هذا النهج من الحاجة إلى التحديثات المستقبلية. يدعم Azure Databricks والتعلّم الآلي في الأصل MLflow وDelta Lake. توفر هذه المكونات معاً عمليات التعلّم الآلي الرائدة في الصناعة (MLOps) أو DevOps للتعلم الآلي. يتكامل نطاق واسع من أدوات التوزيع مع تنسيق النموذج المُوحَّد للحل.
التعاون: تعمل فرق علوم البيانات وMLOps معاً مع هذا الحل. تستخدم هذه الفرق تعقب MLflow لتسجيل التجارب والاستعلام عنها. توزع الفرق أيضاً النماذج في سجل نموذج MLflow المركزي. ثم يستخدم مهندسو البيانات النماذج المُوزَّعة في استيعاب البيانات وعمليات استخراج وتحويل وتحميل (ETL) ومسارات التدفق.
حالات الاستخدام المحتملة
ألهم النظام الأساسي الذي أنشأته AGL للتنبؤ بالطاقة هذا الحل. يوفر هذا النظام الأساسي التدريب السريع والفعال من حيث التكلفة والتوزيع وإدارة دورة الحياة لآلاف النماذج المتوازية.
بالإضافة إلى موفري الطاقة، يمكن أن يفيد هذا الحل أي مؤسسة:
- تستخدم علم البيانات.
- تبني نماذج التعلم الآلي وتدربها.
- تشغل نماذج التعلم الآلي أثناء التشغيل.
الأمثلة تتضمن المؤسسات في:
- البيع بالتجزئة والتجارة الإلكترونية.
- الخدمات المصرفية والمالية.
- الرعاية الصحية وعلوم الحياة.
- صناعات السيارات والتصنيع.
الخطوات التالية
- AGL Energy تبني نظاماً أساسياً موحداً لآلاف النماذج المتوازية. يوفر هذا النظام الأساسي التدريب السريع والفعال من حيث التكلفة والتوزيع وإدارة دورة الحياة للنماذج.
- شركة Open Grid Europe (OGE) تستخدم نماذج الذكاء الاصطناعي لمراقبة خطوط أنابيب الغاز. شركة OGE تستخدم Azure Databricks وMLflow لتطوير النماذج.
- الخطوط الجوية الاسكندنافية (SAS) تستخدم Azure Databricks أثناء مرحلة البحث التعاوني. كما تستخدم شركة الطيران التعلّم الآلي لتطوير نماذج تنبؤية. من خلال تحديد الأنماط في بيانات الشركة، تحسِّن النماذج العمليات اليومية.