إدخال مكون البيانات يدويًا

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم المكون إدخال البيانات يدويًا لإنشاء مجموعة بيانات صغيرة عن طريق كتابة القيم. يمكن أن تحتوي مجموعة البيانات على أعمدة متعددة.

يمكن أن يكون هذا المكون مفيدًا في سيناريوهات مثل:

  • إنشاء مجموعة صغيرة من القيم للاختبار.
  • إنشاء قائمة قصيرة من التسميات.
  • كتابة قائمة بأسماء الأعمدة لإدراجها في مجموعة بيانات.

إنشاء مجموعة بيانات

  1. إضافة مكون إدخال البيانات يدويًا إلى مسار المعالجة الخاص بك. يمكنك العثور على هذا المكون في فئة إدخال البيانات وإخراجها في Azure Machine Learning.

  2. بالنسبة إلى الخيار DataFormat، حدّد أحد الخيارات التالية. تحدد هذه الخيارات كيفية توزيع البيانات التي تقدمها. تختلف متطلبات كل تنسيق بشكل كبير، لذا تأكد من قراءة الموضوعات ذات الصلة.

    • ARFF: تنسيق ملف ارتباط السمة المستخدمة من قبل Weka.
    • CSV: تنسيق القيم المفصولة بفواصل. لمزيد من المعلومات، راجع التحويل إلى CSV.
    • SVMLight: التنسيق المستخدم من قبل Vowpal Wabbit وأطر عمل التعلم الآلي الأخرى.
    • TSV: تنسيق قيم مفصولة بعلامات تبويب.

    إذا اخترت تنسيقًا ولم توفر بيانات تفي بمواصفات التنسيق، يحدث خطأ في وقت التشغيل.

  3. انقر داخل مربع النص Data لبدء إدخال البيانات. تتطلب التنسيقات التالية اهتمامًا خاصًا:

    • CSV: لإنشاء أعمدة متعددة، الصق نص مفصول بفاصلة، أو اكتب أعمدة متعددة باستخدام فواصل بين الحقول.

      إذا حددت الخيار HasHeader، يمكنك استخدام السجل الأول من القيم كعنوان العمود.

      إذا قمت بإلغاء تحديد هذا الخيار، يتم استخدام أسماء الأعمدة (Col1 وCol2 وما إلى ذلك). يمكنك إضافة أسماء الأعمدة أو تغييرها لاحقًا باستخدام Edit Metadata.

    • TSV: لإنشاء أعمدة متعددة، الصق نص مفصول بعلامة تبويب، أو اكتب أعمدة متعددة باستخدام علامات تبويب بين الحقول.

      إذا حددت الخيار HasHeader، يمكنك استخدام السجل الأول من القيم كعنوان العمود.

      إذا قمت بإلغاء تحديد هذا الخيار، يتم استخدام أسماء الأعمدة (Col1 وCol2 وما إلى ذلك). يمكنك إضافة أسماء الأعمدة أو تغييرها لاحقًا باستخدام Edit Metadata.

    • ARFF: الصق في ملف تنسيق ARFF موجود. إذا كنت تكتب القيم مباشرةً، تأكد من إضافة العنوان الاختياري وحقول السمات المطلوبة في بداية البيانات.

      على سبيل المثال، يمكن إضافة سجلات العناوين والسمات التالية إلى قائمة بسيطة. سيكون SampleText عنوان العمود. لاحظ أن نوع السلسلة غير مدعوم.

      % Title: SampleText.ARFF  
      % Source: Enter Data component  
      @ATTRIBUTE SampleText NUMERIC  
      @DATA  
      \<type first data row here>  
      
    • SVMLight: اكتب القيم أو ألصقها باستخدام تنسيق SVMLight.

      على سبيل المثال، تمثل العينة التالية أول خطين من مجموعة بيانات التبرع بالدم، بتنسيق SVMLight:

      # features are [Recency], [Frequency], [Monetary], [Time]  
      1 1:2 2:50 3:12500 4:98   
      1 1:0 2:13 3:3250 4:28   
      

      عند تشغيل المكون إدخال البيانات يدويًا، يتم تحويل هذه الخطوط إلى مجموعة بيانات من الأعمدة وقيم الفهرس كما يلي:

      Col1 Col2 Col3 Col4 تسميات/ ملصقات
      0.00016 0.004 0.999961 0.00784 1
      0 0.004 0.999955 0.008615 1
  4. حدد مفتاح الإدخال بعد كل سجل، لبدء خط جديد.

    إذا حددت إدخال عدة مرات لإضافة سجلات لاحقة فارغة متعددة، ستتم إزالة السجلات الفارغة أو اقتطاعها.

    إذا قمت بإنشاء سجلات ذات قيم مفقودة، يمكنك دائمًا تصفيتها لاحقًا.

  5. قم بتوصيل منفذ الإخراج بمكونات أخرى، وقم بتشغيل مسار المعالجة.

    لعرض مجموعة البيانات، انقر بزر الماوس الأيمن فوق المكون وحدد Visualize.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.