مثال للمسارات و مجموعات البيانات لمصمم Azure Machine Learning

استخدم الأمثلة المضمنة في مصمم Azure Machine Learning للبدء بسرعة في إنشاء مسارات التعلم الآلي الخاصة بك. يحتوي مستودع GitHub الخاص بـمصمم Azure Machine Learning على وثائق ⁧مفصلة لمساعدتك على فهم بعض سيناريوهات التعلم الآلي الشائعة.

المتطلبات الأساسية

  • اشتراك Azure. عند عدم وجود اشتراك في Azure، فقم بإنشاء حساب مجاني
  • مساحة عمل التعلم الآلي من Microsoft Azure

هام

إذا لم تشاهد العناصر الرسومية المذكورة في هذا المستند، مثل أزرار الأستوديو أو المصمم، قد لا يرخص لك، بالشكل المطلوب، دخول مكان العمل. الرجاء الاتصال بمسؤول اشتراك Azure للتحقق من أنك حصلت على المستوى المطلوب من الوصول. لمزيد من المعلومات، انظرإدارة شؤون المستخدمين والأدوار.

استخدام نماذج خطوط الأنابيب

يحفظ المصمم نسخة من عينة خطوط الأنابيب لمساحة عمل الاستوديو الخاص بك. يمكنك تحرير خط الأنابيب لتكييفه مع احتياجاتك وحفظه كأنه خاص بك. استخدمها كنقطة انطلاق لبدء المشاريع الخاصة بك.

إليك كيفية استخدام نموذج مصمم:

  1. سجل الدخول إلى ml.azure.com، وحدد مساحة العمل التي تريد العمل بواسطتها.

  2. اختر مصمم.

  3. حدد نموذج البنية الأساسية لبرنامج ربط العمليات التجارية ضمن قسم مسار جديد .

    حدد إظهار المزيد من العينات للحصول على قائمة كاملة بالنماذج.

  4. لتشغيل مسار، يجب أولاً تعيين هدف حساب افتراضي لتشغيل خط الأنابيب.

    1. في لوحة الإعدادات يمين اللوحة، حدد تحديد حساب الهدف.

    2. في مربع الحوار الذي يظهر، حدد هدفًا محسوبًا موجودًا أو أنشئ هدفًا جديدًا. حدد حفظ.

    3. حدد إرسال أعلى اللوحة القماشية لإرسال تشغيل خط أنابيب.

    اعتمادًا على نموذج خط الأنابيب وإعدادات حساب، قد يستغرق بعض الوقت للانتهاء. الإعدادات الخاصة بحساب الافتراضي يكون الحد الأدنى لحجم العقدة 0، ما يعني أنه يجب على المصمم تخصيص الموارد بعد أن يكون لا يعمل. سوف يستغرق تشغيل مهام المسار المتكررة وقتًا أقل، نظرًا إلى تخصيص موارد الحساب بالفعل. بالإضافة إلى ذلك، يستخدم المصمم النتائج المخزنة مؤقتًا لكل وحدة نمطية لتحسين الكفاءة.

  5. بعد انتهاء تشغيل البنية الأساسية، يمكنك مراجعة البنية الأساسية وعرض الإخراج لكل وحدة نمطية لمعرفة المزيد. استخدم الخطوات التالية لعرض مخرجات المكونات:

    1. انقر بزر الماوس الأيمن فوق الوحدة النمطية في canvas التي ترغب في رؤيتها.
    2. حدد Visualize.

    استخدم النماذج كنقطة بداية لبعض سيناريوهات التعلم الآلي الأكثر شيوعا.

التراجع

استكشاف نماذج الانحدار المضمنة هذه.

عنوان النموذج ‏‏الوصف
الانحدار - توقع أسعار السيارات (أساسي) توقع أسعار السيارات باستخدام التراجع الخطي.
الانحدار - توقع أسعار السيارات (متقدم) توقع أسعار السيارات باستخدام decision forest وoosted decision tree regressors. قارن النماذج للعثور على أفضل خوارزمية.

تصنيف

استكشف نماذج التصنيف المضمنة هذه. يمكنك معرفة المزيد عن العينات عن طريق فتح العينات وعرض تعليقات المكون في المصمم.

عنوان النموذج ‏‏الوصف
التصنيف الثنائي مع تحديد الميزة - توقع الدخل توقع الدخل مرتفعًا أو منخفضًا، استخدام decision tree معززة من فئتين. استخدم ارتباط Pearson لتحديد الميزات.
التصنيف الثنائي مع برنامج Python النصي المخصص - توقع مخاطر الائتمان تصنيف طلبات الائتمان على أنها عالية أو منخفضة المخاطر. استخدم مكون تنفيذ Python Script لوزن البيانات.
التصنيف الثنائي - توقع علاقة العملاء توقع اضطراب العملاء باستخدام decision trees المعززة من فئتين. استخدم SMOTE لنماذج البيانات المتحيزة.
تصنيف النص - مجموعة بيانات Wikipedia SP 500 تصنيف أنواع الشركات من مقالات Wikipedia مع التراجع اللوجستي متعدد الطبقات.
تصنيف متعدد الفئات - التعرف على الحروف إنشاء مجموعة من المصنفات الثنائية لتصنيف الأحرف المكتوبة.

رؤية الكمبيوتر

استكشف عينات رؤية الكمبيوتر المضمنة هذه. يمكنك معرفة المزيد عن العينات عن طريق فتح العينات وعرض تعليقات المكون في المصمم.

عنوان النموذج ‏‏الوصف
تصنيف الصور باستخدام DenseNet استخدام مكونات رؤية الكمبيوتر لبناء نموذج تصنيف الصور على أساس PyTorch DenseNet.

المزكي

استكشف نماذج المزكى المضمنة هذه. يمكنك معرفة المزيد عن العينات عن طريق فتح العينات وعرض تعليقات المكون في المصمم.

عنوان النموذج ‏‏الوصف
توصية واسعة وعميقة الأساس- تنبؤات تقييم المطعم بناء محرك موصى به خاص بمطعم من أجل خصائص وتقييمات المطعم او مستخدم المطعم.
توصية - تغريدات تقييم الأفلام إنشاء محرك موصى به من خصائص وتقييمات الفيلم\ المستخدم.

الأداة المساعدة

تعرف على المزيد حول النماذج التي توضح أدوات التعلم الآلي وميزاته. يمكنك معرفة المزيد عن العينات عن طريق فتح العينات وعرض تعليقات المكون في المصمم.

عنوان النموذج ‏‏الوصف
تصنيف ثنائي باستخدام نموذج Vowpal Wabbit - توقعات دخل الكبار Vowpal Wabbit هو نظام التعلم الآلي الذي يدفع حدود التعلم الآلي مع تقنيات مثل الانترنت، والتجزئة، وallreduce، والتخفيضات، learning2search، والتعلم النشط والتفاعلي. يوضح هذا النموذج كيفية استخدام نموذج Wabbit Vowpal لبناء نموذج تصنيف ثنائي.
استخدام البرنامج النصي R المخصص - توقع تأخير الرحلة استخدم برنامج R النصي المخصص للتنبؤ بما إذا كانت رحلة الركاب المجدولة ستتأخر لأكثر من 15 دقيقة.
التحقق التبادلي لتصنيف ثنائي - تنبؤ دخل الكبار استخدم التحقق التبادلي لبناء مصنف ثنائي لدخل الكبار.
أهمية ميزة Permutation استخدم أهمية ميزة Permutation لحساب درجات الأهمية لمجموعة بيانات الاختبار.
Tune Parameters لتصنيف ثنائي - تنبؤ دخل الكبار استخدم Tune Model Hyperparameters للعثور على مقاييس فرط المستوى الأمثل لإنشاء مصنف ثنائي.

مجموعات البيانات

عند إنشاء مسار جديد في مصمم Azure Machine Learning، يتم تضمين عدد من نماذج مجموعات البيانات بشكل افتراضي. يتم استخدام نماذج مجموعات البيانات هذه بواسطة مسارات النماذج في الصفحة الرئيسية للمصمم.

تتوفر مجموعات البيانات النموذجية ضمن فئة عينات مجموعات- البيانات. يمكنك العثور على هذا في لوحة الوحدة النمطية إلى يسار اللوحة في المصمم. يمكنك استخدام أي من مجموعات البيانات هذه في خط الأنابيب الخاص بك عن طريق سحبه إلى اللوحة.

اسم مجموعة البيانات وصف مجموعة البيانات
مجموعة بيانات التصنيف الثنائي لتعداد السكان للبالغين مجموعة فرعية من قاعدة بيانات تعداد عام 1994، باستخدام البالغين العاملين فوق سن 16 عامًا مع مؤشر دخل معدل قدره > 100.
الاستخدام: تصنيف الأشخاص الذين يستخدمون التركيبة السكانية للتنبؤ بما إذا كان الشخص يكسب أكثر من 50 ألف في السنة.
البحوث ذات الصلة: كوهافي، ر.، بيكر، ب. (1996). مستودع التعلم الآلي UCI. إيرفين، كاليفورنيا: جامعة كاليفورنيا، كلية المعلومات وعلوم الكمبيوتر
بيانات أسعار السيارات (Raw) معلومات عن السيارات حسب الصنع والطراز، بما في ذلك السعر، والمميزات مثل عدد الأسطوانات وMPG، فضلاً عن درجة مخاطر التأمين.
ترتبط درجة المخاطر في البداية بسعر السيارة. ثم يتم تعديله لمراعاة المخاطر الفعلية في عملية تُعرف باسم الاكتواريون على أنها ترميز. تشير قيمة +3 إلى أن السيارة محفوفة بالمخاطر، وقيمة -3 أنها على الأرجح آمنة.
الاستخدام: توقع درجة المخاطر حسب الميزات، باستخدام الانحدار أو التصنيف متعدد المتغيرات.
البحوث ذات الصلة:Schlimmer، J.C (1987). مستودع التعلم الآلي UCI. إيرفين، كاليفورنيا: جامعة كاليفورنيا، كلية المعلومات وعلوم الكمبيوتر.
CRM تسميات التطبيق المشتركة تسميات من كأس KDD 2009 تحدي التنبؤ بعلاقة العملاء (orange_small_train_appetency.labels).
CRM Churn تسميات مشتركة تسميات من كأس KDD 2009 تحدي التنبؤ بعلاقة العملاء (orange_small_train_churn.labels).
مجموعة بيانات CRM المشتركة تأتي هذه البيانات من تحدي التنبؤ بعلاقة العملاء في KDD Cup 2009 (orange_small_train.data.zip).
تحتوي مجموعة البيانات على 50 ألف عميل من شركة الاتصالات الفرنسية Orange. كل عميل لديه 230 ميزة مجهولة المصدر، 190 منها رقمية، و40 هي قطعية. تعتبر الميزات متفرقة للغاية.
بطاقات CRM Upselling المشتركة تسميات من تحدي التنبؤ بعلاقة العملاء في كأس KDD 2009 (orange_large_train_upselling.labels
بيانات تأخير الرحلات الجوية بيانات أداء رحلة الركاب في الوقت المحدد مأخوذة من جمع بيانات TranStats لوزارة النقل الأمريكية (في الوقت المحدد).
وتغطي مجموعة البيانات الفترة الزمنية April-October 2013. قبل التحميل إلى المصمم، تمت معالجة مجموعة البيانات على النحو التالي:
- تمت تصفية مجموعة البيانات لتغطية 70 مطارا فقط الأكثر ازدحاما في الولايات المتحدة القارية
- تم وصف الرحلات الملغاة بأنها متأخرة لأكثر من 15 دقيقة
- تمت تصفية الرحلات المحولة
- تم اختيار الأعمدة التالية: Year, Month, DayofMonth, DayOfWeek, Carrier, OriginAirportID, DestAirportID, CRSDepTime, DepDelay, DepDel15, CRSArrTime, ArrDelay, ArrDel15, Canceled
مجموعة بيانات UCI لبطاقة الائتمان الألمانية مجموعة بيانات UCI Statlog (بطاقة الائتمان الألمانية) (Statlog+German+Credit+Data)، باستخدام ملف german.data.
تصنف مجموعة البيانات الأشخاص، الذين تصفهم مجموعة من السمات، على أنها مخاطر ائتمانية منخفضة أو عالية. يمثل كل مثال شخص. هناك 20 ميزة، رقمية وتقسيمية، وتسمية ثنائية (قيمة مخاطر الائتمان). إدخالات مخاطر الائتمان العالية لها تسمية = 2، إدخالات مخاطر الائتمان المنخفضة لها تسمية = 1. تكلفة سوء تصنيف مثال منخفض المخاطر على أنه مرتفع هي 1، في حين أن تكلفة سوء تصنيف مثال عالي الخطورة على أنه منخفض هي 5.
عناوين أفلام IMDB تحتوي مجموعة البيانات على معلومات حول الأفلام التي تم تصنيفها في تغريدات تويتر: معرف الفيلم IMDB، واسم الفيلم، والنوع، وسنة الإنتاج. هناك 17 ألف فيلم في مجموعة البيانات. وقد تم إدخال مجموعة البيانات في الورقة "S. (دومز)، (ت. دي بيسمير) و(ل. مارتنز). تغريدات الفيلم: مجموعة بيانات تصنيف الأفلام التي تم جمعها من تويتر. ورشة عمل حول الاستعانة بمصادر خارجية والحوسبة البشرية لأنظمة التوصية، CrowdRec في RecSys 2013."
تقييمات الأفلام مجموعة البيانات هي نسخة موسعة من مجموعة بيانات "تغريدات الأفلام". تحتوي مجموعة البيانات على 170 ألف تقييم لأفلام، استخرجت من تغريدات منظمة بشكل جيد على Twitter. تمثل كل واحدة تغريدة وهي مجموعة: معرف المستخدم، ومعرف الفيلم IMDB، والتقييم، والطابع الزمني، وعدد المفضلة لهذه التغريدة، وعدد من إعادة تغريدات من هذه التغريدة. تم توفير مجموعة البيانات من قبل A. Said, S. Dooms, B. Loni and D. Tikk لتحدي أنظمة التوصية 2014.
مجموعة بيانات الطقس رصدات الطقس الأرضية بالساعة من NOAA (البيانات المدمجة من 201304 إلى 201310).
وتغطي بيانات الطقس الملاحظات التي قدمت من محطات الأرصاد الجوية في المطارات، والتي تغطي الفترة الزمنية من إبريل إلى أكتوبر - 2013. قبل التحميل إلى المصمم، تمت معالجة مجموعة البيانات على النحو التالي:
- تم تعيين معرفات محطة الطقس إلى معرفات المطار المقابلة
- تمت تصفية محطات الطقس غير المرتبطة بالمطارات ال 70 الأكثر ازدحاما
- تم تقسيم عمود "التاريخ" إلى أعمدة منفصلة "السنة" و"الشهر" و"اليوم"
- تم اختيار الأعمدة التالية: AirportID, Year, Month, Day, Time, TimeZone, SkyCondition, Visibility, WeatherType, DryBulbFarenheit, DryBulbCelsius, WetBulbFarenheit, WetBulbCelsius, DewPointFarenheit, DewPointCelsius, RelativeHumidity, WindSpeed, WindDirection, ValueForWindCharacter, StationPressure, PressureTendency, PressureChange, SeaLevelPressure, RecordType, HourlyPrecip, Altimeter
مجموعة البيانات Wikipedia SP 500 يتم اشتقاق البيانات من ويكيبيديا (https://www.wikipedia.org/) استنادا إلى مقالات كل شركة S&P 500، مخزنة كبيانات XML.
قبل التحميل إلى المصمم، تمت معالجة مجموعة البيانات على النحو التالي:
- استخراج المحتوى النصي لكل شركة محددة
- إزالة تنسيق wiki
- إزالة الأحرف غير الأبجدية الرقمية
- تحويل كل النص إلى أحرف صغيرة
- تمت إضافة فئات الشركة المعروفة
تمت ملاحظة أنه بالنسبة إلى بعض الشركات تعذر العثور على مقالة، ومن ثمَّ فإن عدد السجلات أقل من 500.
بيانات سمات المطعم مجموعة من البيانات الوصفية حول المطاعم وميزاتها، مثل نوع الطعام، وأسلوب تناول الطعام والموقع.
الاستخدام: استخدم مجموعة البيانات هذه، بالاشتراك مع مجموعتي بيانات المطعم الأخريين، لتدريب واختبار نظام التوصية.
البحوث ذات الصلة: باتشي، ك. وليشمان، م. (2013). مستودع التعلم الآلي UCI. إيرفين، كاليفورنيا: جامعة كاليفورنيا، كلية المعلومات وعلوم الكمبيوتر.
تقييمات المطاعم يحتوي على تقييمات قدمها المستخدمون للمطاعم على مقياس من 0 إلى 2.
الاستخدام: استخدم مجموعة البيانات هذه، بالاشتراك مع مجموعتي بيانات المطعم الأخريين، لتدريب واختبار نظام التوصية.
البحوث ذات الصلة: باتشي، ك. وليشمان، م. (2013). مستودع التعلم الآلي UCI. إيرفين، كاليفورنيا: جامعة كاليفورنيا، كلية المعلومات وعلوم الكمبيوتر.
بيانات عملاء المطعم مجموعة من بيانات التعريف حول العملاء، بما في ذلك التركيبة السكانية والتفضيلات.
الاستخدام: استخدم مجموعة البيانات هذه، بالاشتراك مع مجموعتي بيانات المطعم الأخريين، لتدريب واختبار نظام التوصية.
البحوث ذات الصلة: باتشي، ك. وليشمان، م. (2013). مستودع UCI التعلم الآلي Irvine، كاليفورنيا: جامعة كاليفورنيا، كلية المعلومات وعلوم الكمبيوتر.

تنظيف الموارد

هام

يمكنك استخدام الموارد التي أنشأتها كمتطلبات أساسية لدروس Azure الأخرى الخاصة بالتعلم الآلي والمقالات الإرشادية.

حذف كل شيء

إذا كنت لا تخطط لاستخدام أي شيء أنشأته، فاحذف مجموعة الموارد بأكملها حتى لا تتحمل أي رسوم.

  1. في مدخل Microsoft Azure، حدد Resource groups على الجانب الأيسر من النافذة.

    Delete resource group in the Azure portal

  2. في القائمة، حدد مجموعة الموارد التي أنشأتها.

  3. حدد Delete resource group.

يؤدي حذف مجموعة الموارد أيضًا إلى حذف جميع الموارد التي أنشأتها في المصمم.

حذف الأصول الفردية

في المصمم حيث أنشأت تجربتك، احذف الأصول الفردية عن طريق تحديدها ثم تحديد الزر حذف .

يقوم هدف الحساب الذي قمت بإنشائه هنا تلقائيا بالتحجيم التلقائي إلى عقد صفرية عندما لا يتم استخدامه. يتم اتخاذ هذا الإجراء لخفض الرسوم. إذا كنت تريد حذف هدف الحساب، فاتبع الخطوات التالية:

Delete assets

يمكنك إلغاء تسجيل مجموعات البيانات من مساحة العمل الخاصة بك عن طريق تحديد كل مجموعة بيانات وتحديد إلغاء التسجيل.

Unregister dataset

لحذف مجموعة بيانات، انتقل إلى حساب التخزين باستخدام مدخل Azure، أو Azure Storage Explorer، واحذف هذه الأصول يدويًا.

الخطوات التالية

تعرف على أساسيات التحليلات التنبؤية والتعلم الآلي باستخدام البرنامج التعليمي: توقع سعر السيارات مع المصمم