تحرير مكون بيانات التعريف

توضح هذه المقالة أحد المكونات المضمنة في مصمم التعلم الآلي من Microsoft Azure.

استخدم مكون تحرير بيانات التعريف لتغيير بيانات التعريف المقترنة بالأعمدة في مجموعة بيانات. ستتغير قيمة مجموعة البيانات ونوع بياناتها بعد استخدام مكون تحرير بيانات التعريف.

قد تتضمن تغييرات بيانات التعريف النموذجية ما يلي:

  • التعامل مع الأعمدة المنطقية أو الرقمية كقيم فئوية.

  • الإشارة إلى العمود الذي يحتوي على تسمية الفئة أو يحتوي على القيم التي تريد تصنيفها أو التنبؤ بها.

  • وضع علامة على الأعمدة كميزات.

  • تغيير قيم التاريخ/الوقت إلى قيم رقمية أو العكس.

  • إعادة تسمية الأعمدة.

استخدم تحرير بيانات التعريف في أي وقت تحتاج فيه إلى تعديل تعريف العمود، عادة لتلبية متطلبات مكون انتقال البيانات من الخادم. على سبيل المثال، تعمل بعض المكونات فقط مع أنواع بيانات معينة أو تتطلب علامات على الأعمدة، مثل IsFeature أو IsCategorical.

بعد تنفيذ العملية المطلوبة، يمكنك إعادة تعيين بيانات التعريف إلى حالتها الأصلية.

تكوين تحرير بيانات التعريف

  1. في مصمم التعلم الآلي من Azure، أضف مكون Edit Metadata إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك وقم بتوصيل مجموعة البيانات التي تريد تحديثها. يمكنك العثور على المكون في فئة تحويل البيانات.

  2. انقر فوق تحرير العمود في اللوحة اليمنى للمكون واختر العمود أو مجموعة الأعمدة التي تريد العمل معها. يمكنك اختيار الأعمدة بشكل فردي حسب الاسم أو الفهرس، أو يمكنك اختيار مجموعة من الأعمدة حسب النوع.

  3. حدد الخيار نوع البيانات إذا كنت بحاجة إلى تعيين نوع بيانات مختلف للأعمدة المحددة. قد تحتاج إلى تغيير نوع البيانات لعمليات معينة. على سبيل المثال، إذا كانت مجموعة البيانات المصدر تحتوي على أرقام تمت معالجتها كنص، فيجب تغييرها إلى نوع بيانات رقمي قبل استخدام العمليات الرياضية.

    • أنواع البيانات المدعومة هي String و Integer و Double و Boolean و DateTime.

    • إذا قمت بتحديد أعمدة متعددة، يجب تطبيق تغييرات بيانات التعريف على جميع الأعمدة المحددة. على سبيل المثال، لنفترض أنك اخترت عمودين أو ثلاثة أعمدة رقمية. يمكنك تغييرها جميعا إلى نوع بيانات سلسلة وإعادة تسميتها في عملية واحدة. ومع ذلك، لا يمكنك تغيير عمود إلى نوع بيانات سلسلة وعمود آخر من عائم إلى عدد صحيح.

    • إذا لم تحدد نوع بيانات جديدا، فلن تتغير بيانات تعريف العمود.

    • سيتغير نوع العمود والقيم بعد تنفيذ عملية تحرير بيانات التعريف. يمكنك استرداد نوع البيانات الأصلي في أي وقت باستخدام تحرير بيانات التعريف لإعادة تعيين نوع بيانات العمود.

    ملاحظة

    يتبع تنسيق التاريخ والوقتتنسيق التاريخ والوقت المضمن في Python.
    إذا قمت بتغيير أي نوع من الأرقام إلى نوع DateTime، فاترك الحقل DateTime Format فارغا. لا يمكن حاليا تحديد تنسيق البيانات الهدف.

  4. حدد الخيار Categorical لتحديد أنه يجب التعامل مع القيم الموجودة في الأعمدة المحددة كفئات.

    على سبيل المثال، قد يكون لديك عمود يحتوي على الأرقام 0 و1 و2، ولكن تعرف أن الأرقام تعني في الواقع "مدخن" و"غير مدخن" و"غير معروف". في هذه الحالة، من خلال وضع علامة على العمود على أنه فئوي، تأكد من استخدام القيم فقط لتجميع البيانات وليس في العمليات الحسابية الرقمية.

  5. استخدم الخيار Fields إذا كنت تريد تغيير الطريقة التي يستخدم بها التعلم الآلي من Azure البيانات في نموذج.

    • الميزة: استخدم هذا الخيار لوضع علامة على عمود كميزة في المكونات التي تعمل فقط على أعمدة الميزات. بشكل افتراضي، يتم التعامل مع جميع الأعمدة في البداية كميزات.

    • التسمية: استخدم هذا الخيار لوضع علامة على التسمية، والتي تعرف أيضا باسم السمة القابلة للتنبؤ أو المتغير الهدف. تتطلب العديد من المكونات وجود عمود تسمية واحد بالضبط في مجموعة البيانات.

      في كثير من الحالات، يمكن أن يستنتج التعلم الآلي من Azure أن العمود يحتوي على تسمية فئة. من خلال تعيين بيانات التعريف هذه، يمكنك التأكد من تحديد العمود بشكل صحيح. لا يؤدي تعيين هذا الخيار إلى تغيير قيم البيانات. يغير فقط الطريقة التي تتعامل بها بعض خوارزميات التعلم الآلي مع البيانات.

    تلميح

    هل لديك بيانات لا تتناسب مع هذه الفئات؟ على سبيل المثال، قد تحتوي مجموعة البيانات على قيم مثل المعرفات الفريدة غير المفيدة كمتغيرات. في بعض الأحيان يمكن أن تتسبب هذه المعرفات في حدوث مشاكل عند استخدامها في نموذج.

    لحسن الحظ، يحتفظ التعلم الآلي لـ Azure بجميع بياناتك، بحيث لا تضطر إلى حذف مثل هذه الأعمدة من مجموعة البيانات. عندما تحتاج إلى إجراء عمليات على مجموعة خاصة من الأعمدة، ما عليك سوى إزالة كافة الأعمدة الأخرى مؤقتا باستخدام مكون تحديد الأعمدة في مجموعة البيانات. يمكنك لاحقا دمج الأعمدة مرة أخرى في مجموعة البيانات باستخدام مكون Add Columns.

  6. استخدم الخيارات التالية لمسح التحديدات السابقة واستعادة بيانات التعريف إلى القيم الافتراضية.

    • مسح الميزة: استخدم هذا الخيار لإزالة علامة الميزة.

      يتم التعامل مع جميع الأعمدة في البداية على أنها ميزات. بالنسبة للمكونات التي تقوم بعمليات رياضية، قد تحتاج إلى استخدام هذا الخيار لمنع التعامل مع الأعمدة الرقمية كمتغيرات.

    • مسح التسمية: استخدم هذا الخيار لإزالة بيانات تعريف التسمية من العمود المحدد.

    • مسح النقاط: استخدم هذا الخيار لإزالة بيانات تعريف النتيجة من العمود المحدد.

      لا يمكنك حاليا وضع علامة صريحة على عمود كدرجة في التعلم الآلي من Azure. ومع ذلك، تؤدي بعض العمليات إلى وضع علامة على عمود كدرجة داخليا. أيضا، قد يقوم مكون R المخصص إخراج قيم نقاط.

  7. بالنسبة لأسماء الأعمدة الجديدة، أدخل الاسم الجديد للعمود أو الأعمدة المحددة.

    • يمكن لأسماء الأعمدة استخدام الأحرف التي يدعمها ترميز UTF-8 فقط. لا يسمح بالسلاسل الفارغة أو القيم الخالية أو الأسماء التي تتكون بالكامل من مسافات.

    • لإعادة تسمية أعمدة متعددة، أدخل الأسماء كقائمة مفصولة بفواصل بترتيب فهارس الأعمدة.

    • يجب إعادة تسمية جميع الأعمدة المحددة. لا يمكنك حذف الأعمدة أو تخطيها.

  8. إرسال المسار.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.