تحرير مكون بيانات التعريف

توضح هذه المقالة مكونا مضمنا في مصمم التعلم الآلي من Azure.

استخدم مكون تحرير بيانات التعريف لتغيير بيانات التعريف المقترنة بالأعمدة في مجموعة بيانات. ستتغير قيمة مجموعة البيانات ونوع بياناتها بعد استخدام مكون تحرير بيانات التعريف.

قد تتضمن تغييرات بيانات التعريف النموذجية ما يلي:

  • التعامل مع الأعمدة المنطقية أو الرقمية كقيم فئوية.

  • الإشارة إلى العمود الذي يحتوي على تسمية الفئة أو يحتوي على القيم التي تريد تصنيفها أو التنبؤ بها.

  • وضع علامة على الأعمدة كميزات.

  • تغيير قيم التاريخ/الوقت إلى قيم رقمية أو العكس.

  • إعادة تسمية الأعمدة.

استخدم تحرير بيانات التعريف في أي وقت تحتاج فيه إلى تعديل تعريف عمود، عادة لتلبية متطلبات مكون انتقال البيانات من الخادم. على سبيل المثال، تعمل بعض المكونات فقط مع أنواع بيانات معينة أو تتطلب علامات على الأعمدة، مثل IsFeature أو IsCategorical.

بعد تنفيذ العملية المطلوبة، يمكنك إعادة تعيين بيانات التعريف إلى حالتها الأصلية.

تكوين تحرير بيانات التعريف

  1. في مصمم التعلم الآلي من Azure، أضف مكون تحرير بيانات التعريف إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك وقم بتوصيل مجموعة البيانات التي تريد تحديثها. يمكنك العثور على المكون في فئة تحويل البيانات .

  2. انقر فوق تحرير عمود في اللوحة اليسرى للمكون واختر العمود أو مجموعة الأعمدة للعمل معها. يمكنك اختيار الأعمدة بشكل فردي حسب الاسم أو الفهرس، أو يمكنك اختيار مجموعة من الأعمدة حسب النوع.

  3. حدد الخيار نوع البيانات إذا كنت بحاجة إلى تعيين نوع بيانات مختلف للأعمدة المحددة. قد تحتاج إلى تغيير نوع البيانات لعمليات معينة. على سبيل المثال، إذا كانت مجموعة البيانات المصدر تحتوي على أرقام تمت معالجتها كنص، فيجب تغييرها إلى نوع بيانات رقمي قبل استخدام العمليات الرياضية.

    • أنواع البيانات المدعومة هي String و Integer و Double و Boolean و DateTime.

    • إذا قمت بتحديد أعمدة متعددة، يجب تطبيق تغييرات بيانات التعريف على جميع الأعمدة المحددة. على سبيل المثال، لنفترض أنك اخترت عمودين أو ثلاثة أعمدة رقمية. يمكنك تغييرها جميعا إلى نوع بيانات سلسلة وإعادة تسميتها في عملية واحدة. ومع ذلك، لا يمكنك تغيير عمود إلى نوع بيانات سلسلة وعمود آخر من عائم إلى عدد صحيح.

    • إذا لم تحدد نوع بيانات جديدا، فلن تتغير بيانات تعريف العمود.

    • سيتم تغيير نوع العمود والقيم بعد تنفيذ عملية تحرير بيانات التعريف. يمكنك استرداد نوع البيانات الأصلي في أي وقت باستخدام تحرير بيانات التعريف لإعادة تعيين نوع بيانات العمود.

    ملاحظة

    يتبع تنسيق التاريخ والوقتتنسيق التاريخ والوقت المضمن في Python.
    إذا قمت بتغيير أي نوع من الأرقام إلى نوع التاريخ والوقت ، فاترك الحقل تنسيق التاريخ والوقت فارغا. لا يمكن حاليا تحديد تنسيق البيانات الهدف.

  4. حدد الخيار Categorical لتحديد أنه يجب التعامل مع القيم الموجودة في الأعمدة المحددة كفئات.

    على سبيل المثال، قد يكون لديك عمود يحتوي على الأرقام 0 و1 و2، ولكن تعرف أن الأرقام تعني في الواقع "مدخن" و"غير مدخن" و"غير معروف". في هذه الحالة، من خلال وضع علامة على العمود على أنه فئوي، فإنك تضمن استخدام القيم فقط لتجميع البيانات وليس في العمليات الحسابية الرقمية.

  5. استخدم الخيار Fields إذا كنت تريد تغيير الطريقة التي يستخدم بها التعلم الآلي من Azure البيانات في نموذج.

    • الميزة: استخدم هذا الخيار لوضع علامة على عمود كميزة في المكونات التي تعمل على أعمدة الميزات فقط. بشكل افتراضي، يتم التعامل مع جميع الأعمدة في البداية كميزات.

    • التسمية: استخدم هذا الخيار لوضع علامة على التسمية، والتي تعرف أيضا باسم السمة القابلة للتنبؤ أو المتغير الهدف. تتطلب العديد من المكونات وجود عمود تسمية واحد بالضبط في مجموعة البيانات.

      في كثير من الحالات، يمكن أن يستنتج التعلم الآلي من Azure أن العمود يحتوي على تسمية فئة. من خلال تعيين بيانات التعريف هذه، يمكنك التأكد من تحديد العمود بشكل صحيح. لا يؤدي تعيين هذا الخيار إلى تغيير قيم البيانات. يغير فقط الطريقة التي تتعامل بها بعض خوارزميات التعلم الآلي مع البيانات.

    تلميح

    هل لديك بيانات لا تتناسب مع هذه الفئات؟ على سبيل المثال، قد تحتوي مجموعة البيانات الخاصة بك على قيم مثل المعرفات الفريدة غير المفيدة كمتغيرات. في بعض الأحيان يمكن أن تتسبب هذه المعرفات في حدوث مشكلات عند استخدامها في نموذج.

    لحسن الحظ، يحتفظ التعلم الآلي من Azure بجميع بياناتك، بحيث لا تضطر إلى حذف مثل هذه الأعمدة من مجموعة البيانات. عندما تحتاج إلى تنفيذ عمليات على بعض مجموعة خاصة من الأعمدة، ما عليك سوى إزالة كافة الأعمدة الأخرى مؤقتا باستخدام مكون تحديد الأعمدة في مجموعة البيانات . يمكنك لاحقا دمج الأعمدة مرة أخرى في مجموعة البيانات باستخدام مكون Add Columns .

  6. استخدم الخيارات التالية لمسح التحديدات السابقة واستعادة بيانات التعريف إلى القيم الافتراضية.

    • مسح الميزة: استخدم هذا الخيار لإزالة علامة الميزة.

      يتم التعامل مع جميع الأعمدة في البداية على أنها ميزات. بالنسبة للمكونات التي تقوم بعمليات رياضية، قد تحتاج إلى استخدام هذا الخيار لمنع التعامل مع الأعمدة الرقمية كمتغيرات.

    • مسح التسمية: استخدم هذا الخيار لإزالة بيانات تعريف التسمية من العمود المحدد.

    • مسح النقاط: استخدم هذا الخيار لإزالة بيانات تعريف النتيجة من العمود المحدد.

      لا يمكنك حاليا وضع علامة صريح على عمود كدرجة في التعلم الآلي من Azure. ومع ذلك، تؤدي بعض العمليات إلى وضع علامة على عمود كدرجة داخليا. أيضا، قد يقوم مكون R المخصص إخراج قيم نقاط.

  7. بالنسبة لأسماء الأعمدة الجديدة، أدخل الاسم الجديد للعمود أو الأعمدة المحددة.

    • يمكن لأسماء الأعمدة استخدام الأحرف المعتمدة بواسطة ترميز UTF-8 فقط. لا يسمح بالسلاسل الفارغة أو القيم الخالية أو الأسماء التي تتكون بالكامل من مسافات.

    • لإعادة تسمية أعمدة متعددة، أدخل الأسماء كقائمة مفصولة بفواصل بترتيب فهارس الأعمدة.

    • يجب إعادة تسمية كافة الأعمدة المحددة. لا يمكنك حذف الأعمدة أو تخطيها.

  8. إرسال البنية الأساسية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.