تفريغ مكون البيانات المفقودة

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم هذا المكون لإزالة أو استبدال أو استنتاج القيم المفقودة.

غالبًا ما يتحقق علماء البيانات من البيانات بحثًا عن القيم المفقودة ثم يقومون بإجراء عمليات مختلفة لإصلاح البيانات أو إدراج قيم جديدة. الهدف من عمليات التنظيف هذه هو منع المشاكل التي تسببها البيانات المفقودة والتي يمكن أن تنشأ عند تدريب نموذج.

يدعم هذا المكون أنواعًا متعددة من العمليات "لتنظيف" القيم المفقودة، ومنها:

  • استبدال القيم المفقودة بعنصر نائب أو متوسط أو قيمة أخرى
  • إزالة الصفوف والأعمدة التي تحتوي على قيم مفقودة بالكامل
  • استنتاج القيم بناءً على الأساليب الإحصائية

استخدام هذا المكون لا يغير مجموعة البيانات الخاصة بك. بدلاً من ذلك، يقوم بإنشاء مجموعة بيانات جديدة في مساحة العمل الخاصة بك والتي يمكنك استخدامها في سير العمل التالي. يمكنك أيضًا حفظ مجموعة البيانات الجديدة النظيفة لإعادة استخدامها.

ينتج عن هذا المكون أيضًا تعريف التحويل المستخدم لتنظيف القيم المفقودة. يمكنك إعادة استخدام هذا التحويل على مجموعات البيانات الأخرى التي لها نفس المخطط، باستخدام مكون تطبيق التحويل.

كيفية استخدام تنظيف البيانات المفقودة

هذا المكون يتيح لك تحديد عملية التنظيف. يمكنك أيضًا حفظ عملية التنظيف بحيث يمكنك تطبيقها لاحقًا على البيانات الجديدة. راجع الأقسام التالية حول كيفية إنشاء وحفظ عملية التنظيف:

هام

يمكن لطريقة التنظيف التي تستخدمها لمعالجة القيم المفقودة أن تؤثر بشكل كبير على نتائجك. نوصي بتجربة طرق مختلفة. ضع في اعتبارك كلاً من مبررات استخدام طريقة معينة، وجودة النتائج.

لاستبدال القيم المفقودة

في كل مرة تقوم فيها بتطبيق مكون تنظيف البيانات المفقودة على مجموعة من البيانات، يتم تطبيق نفس عملية التنظيف على جميع الأعمدة التي تحددها. لذلك، إذا كنت بحاجة إلى تنظيف أعمدة مختلفة باستخدام أساليب مختلفة، فاستخدم مثيلات منفصلة للمكون.

  1. أضف مكون تنظيف البيانات المفقودة إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك، وقم بتوصيل مجموعة البيانات التي تحتوي على قيم مفقودة.

  2. لتنظيف الأعمدة، اختر الأعمدة التي تحتوي على القيم المفقودة التي تريد تغييرها. يمكنك اختيار عدة أعمدة، ولكن يجب عليك استخدام نفس طريقة الاستبدال في جميع الأعمدة المحددة. لذلك، عادة ما تحتاج إلى تنظيف أعمدة السلسلة والأعمدة الرقمية بشكل منفصل.

    على سبيل المثال، للتحقق من وجود قيم مفقودة في جميع الأعمدة الرقمية:

    1. حدد مكون تنظيف البيانات المفقودة، وانقر فوق Edit column في اللوحة اليمنى للمكون.

    2. للتضمين ، حدد Column types من القائمة المنسدلة، ثم حدد Numeric.

    يجب أن تكون أي طريقة تنظيف أو استبدال تختارها قابلة للتطبيق على جميع الأعمدة المحددة. إذا كانت البيانات الموجودة في أي عمود غير متوافقة مع العملية المحددة، يقوم المكون بإرجاع خطأ وإيقاف البنية الأساسية لبرنامج ربط العمليات التجارية.

  3. بالنسبة إلى الحد الأدنى لنسبة القيم المفقودة، اختر الحد الأدنى لعدد القيم المفقودة المطلوبة للعملية التي سيتم تنفيذها.

    يمكنك أيضًا استخدام هذا الخيار بالاشتراك مع الحد الأقصى لنسبة القيم المفقودة لتحديد الشروط التي يتم بموجبها إجراء عملية تنظيف على مجموعة البيانات. إذا كان هناك عدد كبير جدا من الصفوف أو عدد قليل جدا من الصفوف التي تفتقد إلى القيم، فهنا لا يمكن تنفيذ العملية.

    الرقم الذي تدخله يمثل نسبة القيم المفقودة إلى جميع القيم في العمود. بشكل افتراضي، يتم تعيين الحد الأدنى لنسبة القيم المفقودة إلى 0. هذا يعني أنه يتم تنظيف القيم المفقودة حتى إذا كانت هناك قيمة واحدة مفقودة.

    تحذير

    يجب تطبيق هذا الشرط في كل عمود حتى يتم تطبيق العملية المحددة. على سبيل المثال، افترض أنك حددت ثلاثة أعمدة ثم عينت الحد الأدنى لنسبة القيم المفقودة إلى 2‎. (20٪)، لكن عمودًا واحدًا فقط يحتوي على نسبة 20٪ من القيم المفقودة بالفعل. وفي هذه الحالة، سيتم تطبيق عملية التنظيف فقط على العمود الذي يحتوي على أكثر من 20٪ من القيم المفقودة. وبالتالي، لن تتغير الأعمدة الأخرى.

    إذا كان لديك أي شك حول ما إذا تم تغيير القيم المفقودة، فاختر خيار إنشاء عمود مؤشر القيم المفقودة. يتم إلحاق عمود بمجموعة البيانات للإشارة إلى ما إذا كان كل عمود يفي بالمعايير المحددة للنطاقين الأدنى والأقصى أم لا.

  4. بالنسبة إلى أقصى نسبة قيم مفقودة ، حدد الحد الأقصى لعدد القيم المفقودة التي يمكن أن تكون موجودة للعملية المراد تنفيذها.

    على سبيل المثال، قد ترغب في إجراء استبدال القيمة المفقودة فقط إذا احتوت 30٪ أو أقل من الصفوف على قيم مفقودة، وترك القيم كما هي إذا كان أكثر من 30٪ من الصفوف بها قيم مفقودة.

    يمكنك تحديد العدد الذي تدخله على أنه نسبة القيم المفقودة إلى جميع القيم في العمود. بشكل افتراضي، يكون الحد الأقصى لنسبة القيمة المفقودة معينًا إلى 1. هذا يعني أنه يتم تنظيف القيم المفقودة حتى في حالة فقد 100٪ من القيم الموجودة في العمود.

  5. بالنسبة إلى وضع التنظيف، قم بتحديد أحد الخيارات التالية لاستبدال القيم المفقودة أو إزالتها:

    • قيمة الاستبدال المخصصة: استخدم هذا الخيار لتحديد قيمة عنصر نائب (مثل 0 أو NA) تنطبق على كافة القيم المفقودة. يجب أن تكون القيمة التي تحددها بديلاً متوافقة مع نوع بيانات العمود.

    • استبدال بمتوسط: لحساب متوسط العمود واستخدام المتوسط كقيمة استبدال لكل قيمة مفقودة في العمود.

      ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات يكون عددها صحيحًا أو مزدوجًا أو منطقيًا.

    • استبدال بوسيط: يحسب قيمة وسيط العمود، ويستخدم قيمة الوسيط كبديل لأي قيمة مفقودة في العمود.

      ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات يكون عددها صحيحًا أو مزدوجًا.

    • استبدال بالنمط: لحساب الوضع الخاص بالعمود، واستخدام الوضع كقيمة استبدال لكل قيمة مفقودة في العمود.

      ينطبق على الأعمدة التي تحتوي على أنواع بيانات يكون عددها صحيحًا أو مزدوجًا أو منطقيًا أو فئويًا.

    • إزالة صف كامل: يزيل أي صف في مجموعة البيانات يحتوي على قيمة مفقودة واحدة أو أكثر تمامًا. هذا مفيد إذا كان من الممكن اعتبار القيمة المفقودة مفقودة بشكل عشوائي.

    • إزالة العمود بأكمله: يزيل أي عمود في مجموعة البيانات يحتوي على قيمة مفقودة واحدة أو أكثر تمامًا.

  6. يتوفر الخيار قيمة الاستبدال إذا قمت بتحديد الخيار، قيمة الاستبدال المخصصة. اكتب قيمة جديدة لاستخدامها كقيمة استبدال لجميع القيم المفقودة في العمود.

    يمكنك استخدام هذا الخيار فقط في الأعمدة التي تحتوي على عدد صحيح أو مزدوج أو منطقي أو سلسلة.

  7. إنشاء عمود مؤشر القيمة المفقودة: حدد هذا الخيار إذا كنت تريد إخراج بعض المؤشرات حول ما إذا كانت القيم الموجودة في العمود تفي بمعايير تنظيف القيمة المفقودة أم لا. يكون هذا الخيار مفيدًا بشكل خاص عندما تقوم بإعداد عملية تنظيف جديدة وتريد التأكد من أنها تعمل حسب التصميم.

  8. إرسال المسار.

النتائج

يقوم المكون بإرجاع مخرجين:

  • مجموعة البيانات التي تم تنظيفها: مجموعة بيانات تتألف من الأعمدة المحددة، مع معالجة القيم المفقودة كما هو محدد، بالإضافة إلى عمود المؤشر، إذا حددت هذا الخيار.

    يتم أيضًا "تمرير" الأعمدة التي لم يتم تحديدها للتنظيف.

  • تحويل التنظيف: تحويل البيانات المستخدم للتنظيف، والذي يمكن حفظه في مساحة العمل الخاصة بك وتطبيقه على البيانات الجديدة لاحقًا.

قم بتطبيق عملية التنظيف المحفوظة على البيانات الجديدة

إذا كنت بحاجة إلى تكرار عمليات التنظيف في كثير من الأحيان، فنحن نوصيك بحفظ عمليتك الخاصة لتنظيف البيانات كالتحويل، لإعادة الاستخدام مع نفس مجموعة البيانات. يعد حفظ تحويل التنظيف مفيدًا بشكل خاص إذا كان يجب عليك إعادة استيراد البيانات التي لها نفس المخطط ثم تنظيفها بشكل متكرر.

  1. أضف مكون تطبيق التحويل إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاص بك.

  2. أضف مجموعة البيانات التي تريد تنظيفها، ثم قم بتوصيل مجموعة البيانات بمنفذ الإدخال الأيمن.

  3. قم بتوسيع مجموعة التحويل في الجزء الأيسر من المصمم. قم بتحديد موقع التحويل المحفوظ واسحبه إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

  4. اربط التحويل المحفوظ بمنفذ الإدخال الأيسر لتطبيق التحويل.

    عند تطبيق التحويل المحفوظ، لن يمكنك تحديد الأعمدة التي يتم تطبيق التحويل عليها. وذلك لأن التحويل قد تم تعريفه بالفعل ويتم تطبيقه تلقائيًا على الأعمدة المحددة في العملية الأصلية.

    ومع ذلك، افترض أنك أنشأت تحويلًا على مجموعة فرعية من الأعمدة الرقمية. فيمكنك تطبيق هذا التحويل على مجموعة بيانات من أنواع الأعمدة المختلطة دون حدوث خطأ، لأن القيم المفقودة تتغير فقط في الأعمدة الرقمية المطابقة.

  5. إرسال المسار.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.