تحويل إلى مجموعة بيانات

تصف هذه المقالة كيفية استخدام مكون التحويل إلى مجموعة بيانات في مصمم Azure Machine Learning لتحويل أي بيانات لمسار إلى التنسيق الداخلي للمصمم.

التحويل غير مطلوب في معظم الحالات. تقوم Azure Machine Learning بتحويل البيانات ضمنيًا إلى تنسيق مجموعة البيانات الأصلية عند إجراء أي عملية على البيانات.

نوصي بحفظ البيانات بتنسيق مجموعة البيانات إذا قمت بإجراء نوع من التسوية أو التنظيف على مجموعة من البيانات، وتريد التأكد من استخدام التغييرات في مسارات أخرى.

ملاحظة

يغير التحويل إلى مجموعة البيانات تنسيق البيانات فقط. لا يحفظ نسخة جديدة من البيانات في مساحة العمل. لحفظ مجموعة البيانات، انقر نقرًا مزدوجًا فوق منفذ الإخراج، وحدد Save as dataset، وأدخل اسمًا جديدًا.

كيفية استخدام التحويل إلى مجموعة بيانات

نوصي باستخدام المكون تحرير بيانات التعريف لإعداد مجموعة البيانات قبل استخدام التحويل إلى مجموعة البيانات. يمكنك إضافة أسماء الأعمدة أو تغييرها، وضبط أنواع البيانات، وإجراء تغييرات أخرى حسب الحاجة.

  1. أضف مكون التحويل إلى مجموعة البيانات إلى مسار المعالجة الخاصة بك. يمكنك العثور على هذا المكون في فئة إدخال البيانات وإخراجها في المصمم.

  2. قم بتوصيله بأي مكون يقوم لإخراج مجموعة بيانات.

    طالما أن البيانات مجدولة، يمكنك تحويلها إلى مجموعة بيانات. ويشمل ذلك البيانات التي تم تحميلها من خلال استيراد البيانات، أو البيانات التي تم إنشاؤها من خلال إدخال البيانات يدويًا، أو مجموعات البيانات التي تم تحويلها من خلال تطبيق التحويل.

  3. في القائمة المنسدلة Action، أشر إلى ما إذا كنت ترغب في إجراء أي تنظيف للبيانات قبل حفظ مجموعة البيانات:

    • None: استخدم البيانات كما هي.

    • SetMissingValue : تعيين قيمة محددة لقيمة مفقودة في مجموعة البيانات. العنصر النائب الافتراضي هو حرف علامة الاستفهام (?)، ولكن يمكنك استخدام الخيار Custom missing value لإدخال قيمة مختلفة. على سبيل المثال، إذا أدخلت Taxi بقيمة Custom missing value، فسيتم تغيير جميع حالات Taxi في مجموعة البيانات إلى القيمة المفقودة.

    • ReplaceValues: استخدم هذا الخيار لتحديد قيمة دقيقة واحدة ليتم استبدالها بأي قيمة دقيقة أخرى. يمكنك استبدال القيم المفقودة أو القيم المخصصة عن طريق تعيين الأسلوب Replace :

      • Missing: اختر هذا الخيار لاستبدال القيم المفقودة في مجموعة بيانات الإدخال. بالنسبة إلى New Value، أدخل القيمة لاستبدال القيم المفقودة بها.
      • Custom: اختر هذا الخيار لاستبدال القيم المخصصة في مجموعة بيانات الإدخال. بالنسبة إلى Custom value، أدخل القيمة التي تريد العثور عليها. على سبيل المثال، إذا كانت بياناتك تحتوي على السلسلة obs المستخدمة كعنصر نائب للقيم المفقودة، فإنك تدخل obs. بالنسبة لـ New value، أدخل القيمة الجديدة لاستبدال السلسلة الأصلية بها.

    لاحظ أن عملية ReplaceValues تنطبق فقط على المطابقات الدقيقة. على سبيل المثال ، لن تتأثر هذه السلاسل: obs.، وobsolete.

  4. إرسال المسار.

النتائج

  • لحفظ مجموعة البيانات الناتجة باسم جديد، حدد على الرمزRegister dataset ضمن علامة التبويب Outputs في اللوحة اليمنى للمكون.

ملاحظات فنية

  • يمكن لأي مكون يأخذ مجموعة بيانات كمدخل أيضا أخذ البيانات في ملف CSV أو ملف TSV. قبل تشغيل أي تعليمة برمجية للمكون، تتم معالجة المدخلات مسبقا. المعالجة المسبقة تعادل تشغيل مكون التحويل إلى مجموعة البيانات على الإدخال.

  • لا يمكنك التحويل من تنسيق SVMLight إلى مجموعة بيانات.

  • عند تحديد عملية استبدال مخصصة، تنطبق عملية البحث والاستبدال على القيم الكاملة. المطابقات الجزئية غير مسموح بها. على سبيل المثال، يمكنك استبدال 3 بـ -1 أو بـ 33، ولكن لا يمكنك استبدال 3 في عدد مكون من رقمين مثل 35.

  • بالنسبة لعمليات الاستبدال المخصصة، سيفشل الاستبدال بصمت إذا قمت باستخدام أي حرف لا يتوافق مع نوع البيانات الحالي للعمود كبديل.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.