تدريب نماذج التعلم الآلي

يتيح Apache Spark في Azure Synapse Analytics التعلم الآلي باستخدام البيانات الضخمة، ما يوفر القدرة على الحصول على نتائج تحليلات قيمة من كميات كبيرة من البيانات المنظمة وغير المنظمة والسريعة الحركة. يوجد العديد من الخيارات عند تدريب نماذج التعلم الآلي باستخدام Azure Spark في Azure Synapse Analytics: Apache Spark MLlib وAzure Machine Learning والعديد من المكتبات الأخرى مفتوحة المصدر.

Apache SparkML و MLlib

يعد Apache Spark في Azure Synapse Analytics أحد تطبيقات Microsoft لـ Apache Spark في السحابة. يوفر إطارًا موحدًا ومفتوح المصدر ومتوازيًا لمعالجة البيانات يدعم المعالجة في الذاكرة لتعزيز تحليلات البيانات الضخمة. تم تصميم محرك المعالجة Spark للسرعة وسهولة الاستخدام والتحليلات المعقدة. تجعل إمكانات Spark للحساب الموزع في الذاكرة خياراً جيداً للخوارزميات التكرارية المستخدمة في التعلم الآلي وحسابات الرسم البياني.

هناك نوعان من مكتبات التعلم الآلي القابلة للتطوير والتي توفر إمكانات النمذجة الحسابية لهذه البيئة الموزعة: MLlib وSparkML. يحتوي MLlib على واجهة برمجة التطبيقات الأصلية المبنية على أعلى RDDs. SparkML هي حزمة أحدث توفر واجهة برمجة تطبيقات ذات مستوى أعلى تم إنشاؤها فوق إطارات البيانات لإنشاء خطوط تدفق ML. لا يدعم SparkML حتى الآن جميع ميزات MLlib، لكنه يحل محل MLlib كمكتبة Spark القياسية للتعلم الآلي.

إشعار

يمكنك معرفة المزيد حول إنشاء نموذج SparkML باتباع هذا البرنامج التعليمي.

تأتي كل مجموعة من مجموعات Apache Spark في Azure Synapse Analytics مع مجموعة من مكتبات التعلم الآلي الشائعة والمحملة مسبقًا. توفر هذه المكتبات تعليمات برمجية قابلة لإعادة الاستخدام ترغب في تضمينها في برامجك أو مشروعاتك. تتضمن بعض مكتبات التعلم الآلي ذات الصلة المضمنة افتراضيًا ما يلي:

  • Scikit-Learn هي إحدى مكتبات التعلم الآلي ذات العقدة الواحدة الأكثر شيوعاً لخوارزميات ML إصدار classic. تدعم Scikit-Learn معظم خوارزميات التعلم الخاضعة للإشراف وغير الخاضعة للإشراف ويمكن أيضاً استخدامها لاستخراج البيانات وتحليلها.

  • XGBoost هي مكتبة شائعة للتعلم الآلي تحتوي على خوارزميات محسنة لتدريب أشجار القرار والغابات العشوائية.

  • PyTorch وTensorflow هي مكتبات تعلم عميق قوية في Python. ضمن مجموعة Apache Spark في Azure Synapse Analytics، يمكنك استخدام هذه المكتبات لإنشاء نماذج أحادية الجهاز عن طريق تعيين عدد المنفذين في مجموعتك إلى الصفر. على الرغم من أن Apache Spark لا يعمل في ظل هذا التكوين، إلا أنها طريقة بسيطة وفعالة من ناحية التكلفة لإنشاء نماذج أحادية الجهاز.

يمكنك معرفة المزيد حول المكتبات المتوفرة والإصدارات ذات الصلة من خلال عرض وقت تشغيل Azure Synapse Analytics المنشور.

MMLSpark

مكتبة التعلم الآلي من Microsoft لـ Apache Spark هي MMLSpark. تم تصميم هذه المكتبة لجعل علماء البيانات أكثر إنتاجية على Spark، وزيادة معدل التجريب، والاستفادة من تقنيات التعلم الآلي المتطورة، بما في ذلك التعلم العميق، على مجموعات البيانات الكبيرة.

يوفر MMLSpark طبقة أعلى واجهات برمجة التطبيقات منخفضة المستوى لـ SparkML عند إنشاء نماذج ML قابلة للتطوير، مثل سلاسل الفهرسة، وإجبار البيانات على التخطيط المتوقع بواسطة خوارزميات التعلم الآلي، وتجميع متجهات الميزات. تعمل مكتبة MMLSpark على تبسيط هذه المهام وغيرها من المهام الشائعة لبناء النماذج في PySpark.

التعلم الآلي التلقائي في Azure التعلم الآلي (مهمل)

يتمثل التعلم الآلي من Azure في بيئة تستند إلى السحابة تسمح لك بتدريب نماذج التعلّم الآلي ونشرها وتشغيلها تلقائياً وإدارتها وتتبعها. تقبل ألية التعلم الآلي في التعلم الآلي من Microsoft Azure بيانات التدريب وإعدادات التكوين ويتكرر تلقائيًا من خلال مجموعات من مختلف طرق تسوية/ توحيد الميزات والنماذج وإعدادات المعامل التشعبي للوصول إلى أفضل نموذج.

عند استخدام التعلم الآلي التلقائي داخل Azure Synapse Analytics، يمكنك الاستفادة من التكامل العميق بين الخدمات المختلفة لتبسيط المصادقة وتدريب النموذج.

تحذير

  • اعتبارا من 29 سبتمبر 2023، سيتوقف Azure Synapse عن الدعم الرسمي لوقت تشغيل Spark 2.4. بعد 29 سبتمبر 2023، لن نتناول أي تذاكر دعم تتعلق ب Spark 2.4. لن يكون هناك مسار إصدار في مكانه لإصلاحات الأخطاء أو الأمان ل Spark 2.4. استخدام Spark 2.4 بعد تاريخ قطع الدعم يتم على مسؤوليته الخاصة. ونثبط بشدة استمرار استخدامها بسبب مخاوف أمنية ووظائف محتملة.
  • كجزء من عملية إهمال Apache Spark 2.4، نود إعلامك بأن AutoML في Azure Synapse Analytics سيتم إهماله أيضا. يتضمن ذلك كلا من واجهة التعليمات البرمجية المنخفضة وواجهات برمجة التطبيقات المستخدمة لإنشاء إصدارات AutoML التجريبية من خلال التعليمات البرمجية.
  • يرجى ملاحظة أن وظيفة AutoML كانت متوفرة حصريا من خلال وقت تشغيل Spark 2.4.
  • بالنسبة للعملاء الذين يرغبون في الاستمرار في الاستفادة من إمكانات AutoML، نوصي بحفظ بياناتك في حساب Azure Data Lake Storage Gen2 (ADLSg2). من هناك، يمكنك الوصول بسلاسة إلى تجربة AutoML من خلال Azure التعلم الآلي (AzureML). تتوفر هنا معلومات إضافية حول هذا الحل البديل.

خدمات الذكاء الاصطناعي في Azure

توفر خدمات Azure الذكاء الاصطناعي قدرات التعلم الآلي لحل المشكلات العامة مثل تحليل النص للتوجه العاطفي أو تحليل الصور للتعرف على العناصر أو الوجوه. لا تحتاج إلى تعلم آلي خاص أو معرفة بعلم البيانات لاستخدام تلك الخدمات. توفر الخدمة المعرفية جزءًا من أو كل المكونات في حل التعلم الآلي: البيانات والخوارزمية والنموذج المدرب. تهدف هذه الخدمات إلى طلب معرفة عامة ببياناتك دون الحاجة إلى خبرة في التعلم الآلي أو علم البيانات. يمكنك الاستفادة من خدمات Azure الذكاء الاصطناعي المدربة مسبقا تلقائيا داخل Azure Synapse Analytics.

الخطوات التالية

تقدم هذه المقالة نظرة عامة على الخيارات المختلفة لتدريب نماذج التعلم الآلي داخل مجمعات Apache Spark في Azure Synapse Analytics . يمكنك معرفة المزيد عن تدريب النموذج باتباع البرنامج التعليمي الوارد أدناه: