تسجيل الدفعات لنماذج Spark على Azure Databricks

Microsoft Entra ID

Azure Databricks

Azure Data Factory

مساحة تخزين Azure Blob

توضح هذه البنية المرجعية كيفية إنشاء حل قابل للتطوير لتسجيل الدفعات لنموذج تصنيف Apache Spark على جدول باستخدام Azure Databricks. Azure Databricks هو نظام أساسي للتحليلات قائم على Apache Spark ومُحسَّنة لـ Azure. توفر Azure Databricks ثلاث بيئات لتطوير تطبيقات كثيفة البيانات: SQL Databricks، وDatabricks Data Science & Engineering، وDatabricks Machine Learning. التعلم الآلي Databricks Machine Learning هو بيئة متكاملة للتعلم الآلي من البداية إلى النهاية تتضمن خدمات مدارة لتتبع التجارب، والتدريب على النماذج، وتطوير الميزات وإدارتها، وعرض الميزات والنماذج. يمكنك استخدام هذه البنية المرجعية كقالب يمكن تعميمه على سيناريوهات أخرى. يتوفر تطبيق مرجعي لهذه البنية على GitHub.

Apache® وApache Spark® إما علامات تجارية مسجلة أو علامات تجارية لمؤسسة برامج Apache في الولايات المتحدة و/أو بلدان أخرى. لا توجد موافقة ضمنية من Apache Software Foundation باستخدام هذه العلامات.

بناء الأنظمة

رسم تخطيطي يوضح تسجيل الدفعات لنماذج تصنيف Apache Spark على Azure Databricks.

قم بتنزيل ملف Visio لهذه البنية.

‏‏سير العمل‬

تحدد البنية تدفق البيانات المضمن بالكامل داخل Azure Databricks استنادا إلى مجموعة من دفاتر الملاحظات المنفذة بشكل تسلسلي. يتكون من المكونات التالية:

ملفات البيانات . يستخدم التطبيق المرجعي مجموعة بيانات محاكاة متضمنة في خمسة ملفات بيانات ثابتة.

استيعاب. يقوم دفتر ملاحظات استيعاب البيانات بتنزيل ملفات بيانات الإدخال في مجموعة من مجموعات بيانات Databricks. في سيناريو العالم الحقيقي، ستتدفق البيانات من أجهزة IoT إلى التخزين الذي يمكن الوصول إليه بواسطة Databricks مثل Azure SQL أو تخزين Azure Blob. يدعم Databricks مصادر بيانات متعددة.

مسار التدريب. ينفذ دفتر الملاحظات هذا دفتر الملاحظات الهندسي للميزات لإنشاء مجموعة بيانات تحليل من البيانات التي تم استيعابها. ثم ينفذ دفتر ملاحظات بناء نموذج يدرب نموذج التعلم الآلي باستخدام مكتبة التعلم الآلي القابلة للتطوير Apache Spark MLlib.

مسار تسجيل النقاط. يقوم دفتر الملاحظات هذا بتنفيذ دفتر الملاحظات الهندسي للميزات لإنشاء مجموعة بيانات تسجيل من البيانات التي تم استيعابها وتنفيذ دفتر ملاحظات التسجيل. يستخدم دفتر ملاحظات التسجيل نموذج Spark MLlib المدرب لإنشاء تنبؤات للملاحظات في مجموعة بيانات التسجيل. يتم تخزين التنبؤات في مخزن النتائج، وهي مجموعة بيانات جديدة على مخزن بيانات Databricks.

المجدول. تعالج وظيفة Databricks المجدولة تسجيل الدفعات باستخدام نموذج Spark. تنفذ المهمة دفتر ملاحظات مسار تسجيل النقاط، وتمرير الوسيطات المتغيرة من خلال معلمات دفتر الملاحظات لتحديد تفاصيل إنشاء مجموعة بيانات التسجيل ومكان تخزين مجموعة بيانات النتائج.

تفاصيل الحل

يتم إنشاء السيناريو كتدفق البنية الأساسية لبرنامج ربط العمليات التجارية. تم تحسين كل دفتر ملاحظات لتنفيذه في إعداد دفعة لكل عملية من العمليات: الاستيعاب وهندسة الميزات وبناء النموذج وتسجيلات النماذج. تم تصميم دفتر ملاحظات هندسة الميزات لإنشاء مجموعة بيانات عامة لأي من عمليات التدريب أو المعايرة أو الاختبار أو التسجيل. في هذا السيناريو، نستخدم استراتيجية تقسيم زمني لهذه العمليات، لذلك يتم استخدام معلمات دفتر الملاحظات لتعيين تصفية نطاق التاريخ.

نظرا لأن السيناريو ينشئ مسار دفعة، فإننا نقدم مجموعة من دفاتر ملاحظات الفحص الاختيارية لاستكشاف إخراج دفاتر ملاحظات البنية الأساسية لبرنامج ربط العمليات التجارية. يمكنك العثور على دفاتر الملاحظات هذه في مجلد دفاتر ملاحظات المستودع GitHub:

1a_raw-data_exploring.ipynb
2a_feature_exploration.ipynb
2b_model_testing.ipynb
3b_model_scoring_evaluation.ipynb

حالات الاستخدام المحتملة

ترغب الشركة في صناعة كثيفة الأصول في تقليل التكاليف ووقت التوقف المرتبط بالأعطال الميكانيكية غير المتوقعة. باستخدام بيانات IoT التي تم جمعها من أجهزتهم، يمكنهم إنشاء نموذج صيانة تنبؤي. يمكّن هذا النموذج الشركة من الحفاظ على المكونات بشكل استباقي وإصلاحها قبل فشلها. من خلال تعظيم استخدام المكونات الميكانيكية، يمكنهم التحكم في التكاليف وتقليل وقت التعطل.

يقوم نموذج الصيانة التنبؤية بجمع البيانات من الآلات ويحتفظ بأمثلة تاريخية لأعطال المكونات. يمكن بعد ذلك استخدام النموذج لمراقبة الحالة الحالية للمكونات والتنبؤ بما إذا كان مكون معين سيفشل قريبًا. للحصول على حالات الاستخدام الشائعة ونهج النمذجة، راجع دليل Azure الذكاء الاصطناعي لحلول الصيانة التنبؤية.

تم تصميم هذا الهيكل المرجعي لأعباء العمل التي يتم تشغيلها من خلال وجود بيانات جديدة من آلات المكونات. تشمل المعالجة الخطوات التالية:

استوعب البيانات من مخزن البيانات الخارجي على مخزن بيانات Azure Databricks.
تدريب نموذج التعلم الآلي من خلال تحويل البيانات إلى مجموعة بيانات تدريبية، ثم بناء نموذج Spark MLlib. يتكون MLlib من معظم خوارزميات التعلم الآلي الشائعة والمرافق المحسنة للاستفادة من إمكانات قابلية توسيع بيانات Spark.
تطبيق النموذج المدرب للتنبؤ بفشل مكون (تصنيف) من خلال تحويل البيانات إلى مجموعة بيانات تسجيل. سجل البيانات باستخدام نموذج Spark MLLib.
تخزين النتائج على مخزن بيانات Databricks لاستهلاك ما بعد المعالجة.

تتوفر دفاتر الملاحظات على GitHub لأداء كل مهمة من هذه المهام.

التوصيات

تم إعداد Databricks حتى تتمكن من تحميل ونشر نماذجك المدربة لإجراء تنبؤات ببيانات جديدة. يوفر Databricks أيضا مزايا أخرى:

دعم تسجيل الدخول الأحادي باستخدام بيانات اعتماد Microsoft Entra.
مجدول الوظائف لتنفيذ مهام البنية الأساسية لبرنامج ربط العمليات التجارية للإنتاج.
دفتر ملاحظات تفاعلي بالكامل مع التعاون ولوحات المعلومات وواجهات برمجة تطبيقات REST.
مجموعات غير محدودة يمكنها التوسع إلى أي حجم.
الأمان المتقدم وعناصر التحكم في الوصول المستندة إلى الأدوار وسجلات التدقيق.

للتفاعل مع خدمة Azure Databricks، استخدم واجهة مساحة عمل Databricks في مستعرض ويب أو واجهة سطر الأوامر (CLI). الوصول إلى Databricks CLI من أي نظام أساسي يدعم Python 2.7.9 إلى 3.6.

يستخدم التنفيذ المرجعي دفاتر الملاحظات لتنفيذ المهام بالتسلسل. يخزن كل دفتر ملاحظات البيانات الاصطناعية الوسيطة (التدريب أو الاختبار أو تسجيل النقاط أو مجموعات بيانات النتائج) إلى نفس مخزن البيانات مثل بيانات الإدخال. الهدف هو تسهيل استخدامه حسب الحاجة في حالة الاستخدام الخاصة بك. في الممارسة العملية، يمكنك توصيل مصدر البيانات بمثيل Azure Databricks الخاص بك لدفاتر الملاحظات للقراءة والكتابة مباشرة إلى التخزين الخاص بك.

مراقبة تنفيذ المهمة من خلال واجهة مستخدم Databricks أو مخزن البيانات أو Databricks CLI حسب الضرورة. مراقبة نظام المجموعة باستخدام سجل الأحداث والمقاييس الأخرى التي يوفرها Databricks.

الاعتبارات

تنفذ هذه الاعتبارات ركائز Azure Well-Architected Framework، وهو عبارة عن مجموعة من المبادئ التوجيهية التي يمكن استخدامها لتحسين جودة حمل العمل. لمزيد من المعلومات، يرجى مراجعةMicrosoft Azure Well-Architected Framework.

الأداء

يتيح نظام مجموعة Azure Databricks التوسع التلقائي بشكل افتراضي بحيث يقوم Databricks أثناء وقت التشغيل بإعادة تخصيص العاملين بشكل ديناميكي لحساب خصائص وظيفتك. قد تكون أجزاء معينة من البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك أكثر تطلبا من غيرها من الناحية الحسابية. يضيف Databricks عمالا إضافيين خلال هذه المراحل من وظيفتك (ويزيلهم عندما لا تكون هناك حاجة إليهم). يجعل التحجيم التلقائي من السهل تحقيق استخدام نظام المجموعة العالي، لأنك لا تحتاج إلى توفير نظام المجموعة لمطابقة حمل العمل.

تطوير مسارات مجدولة أكثر تعقيدا باستخدام Azure Data Factory مع Azure Databricks.

التخزين

في هذا التنفيذ المرجعي، يتم تخزين البيانات مباشرة داخل تخزين Databricks للتبسيط. ومع ذلك، في إعداد الإنتاج، يمكنك تخزين البيانات على تخزين البيانات السحابية مثل Azure Blob Storage. يدعم Databricks أيضا Azure Data Lake Store وAzure Synapse Analytics وAzure Cosmos DB وApache Kafka وApache Hadoop.

تحسين التكلفة

يركز تحسين التكلفة على البحث عن طرق للحد من النفقات غير الضرورية وتحسين الكفاءة التشغيلية. لمزيد من المعلومات، راجع نظرة عامة على ركيزة تحسين التكلفة.

بشكل عام، استخدم حاسبة أسعار Azure لتقدير التكاليف. تم توضيح الاعتبارات الأخرى في قسم التكلفة في Microsoft Azure Well-Architected Framework.

Azure Databricks هو عرض Spark متميز بتكلفة مقترنة. بالإضافة إلى ذلك، هناك مستويات تسعير Databricks قياسية ومميزة.

بالنسبة لهذا السيناريو، مستوى التسعير القياسي كاف. ومع ذلك، إذا كان تطبيقك المحدد يتطلب تحجيم المجموعات تلقائيا للتعامل مع أحمال العمل الأكبر أو لوحات معلومات Databricks التفاعلية، فقد يزيد المستوى المتميز التكاليف بشكل أكبر.

يمكن تشغيل دفاتر ملاحظات الحل على أي نظام أساسي يستند إلى Spark مع الحد الأدنى من عمليات التحرير لإزالة الحزم الخاصة ب Databricks.

نشر هذا السيناريو

لنشر هذه البنية المرجعية، اتبع الخطوات الموضحة في مستودع GitHub لإنشاء حل قابل للتطوير لتسجيل نماذج Spark في دفعة واحدة على Azure Databricks.

المساهمون

تحتفظ Microsoft بهذه المقالة. وهي مكتوبة في الأصل من قبل المساهمين التاليين.

الكاتب الرئيسي:

جون إيرلنجر | عالم تطبيقي أول

لمشاهدة ملفات تعريف LinkedIn غير العامة، سجل الدخول إلى LinkedIn.