تنظيف مكون البيانات المفقودة

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم هذا المكون لإزالة القيم المفقودة أو استبدالها أو استنتاجها.

غالبا ما يتحقق علماء البيانات من البيانات بحثا عن القيم المفقودة ثم يقومون بعمليات مختلفة لإصلاح البيانات أو إدراج قيم جديدة. الهدف من عمليات التنظيف هذه هو منع المشاكل الناجمة عن البيانات المفقودة التي يمكن أن تنشأ عند تدريب نموذج.

يدعم هذا المكون أنواعا متعددة من العمليات ل "تنظيف" القيم المفقودة، بما في ذلك:

  • استبدال القيم المفقودة بعناد نائب أو متوسط أو قيمة أخرى
  • إزالة الصفوف والأعمدة التي تحتوي على قيم مفقودة بالكامل
  • استنتاج القيم استنادا إلى الأساليب الإحصائية

لا يؤدي استخدام هذا المكون إلى تغيير مجموعة البيانات المصدر. بدلا من ذلك، فإنه ينشئ مجموعة بيانات جديدة في مساحة العمل الخاصة بك التي يمكنك استخدامها في سير العمل اللاحق. يمكنك أيضا حفظ مجموعة البيانات الجديدة التي تم تنظيفها لإعادة استخدامها.

يقوم هذا المكون أيضا إخراج تعريف التحويل المستخدم لتنظيف القيم المفقودة. يمكنك إعادة استخدام هذا التحويل على مجموعات البيانات الأخرى التي لها نفس المخطط، باستخدام مكون Apply Transformation .

كيفية استخدام تنظيف البيانات المفقودة

يتيح لك هذا المكون تحديد عملية تنظيف. يمكنك أيضا حفظ عملية التنظيف بحيث يمكنك تطبيقها لاحقا على البيانات الجديدة. راجع الأقسام التالية حول كيفية إنشاء عملية تنظيف وحفظها:

هام

يمكن أن تؤثر طريقة التنظيف التي تستخدمها لمعالجة القيم المفقودة بشكل كبير على نتائجك. نوصي بتجربة أساليب مختلفة. ضع في اعتبارك كلا من مبرر استخدام أسلوب معين وجودة النتائج.

استبدال القيم المفقودة

في كل مرة تقوم فيها بتطبيق مكون Clean Missing Data على مجموعة من البيانات، يتم تطبيق نفس عملية التنظيف على جميع الأعمدة التي تحددها. لذلك، إذا كنت بحاجة إلى تنظيف أعمدة مختلفة باستخدام أساليب مختلفة، فاستخدم مثيلات منفصلة للمكون.

  1. أضف مكون Clean Missing Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك، وقم بتوصيل مجموعة البيانات التي تحتوي على قيم مفقودة.

  2. لكي يتم تنظيف الأعمدة، اختر الأعمدة التي تحتوي على القيم المفقودة التي تريد تغييرها. يمكنك اختيار أعمدة متعددة، ولكن يجب استخدام نفس أسلوب الاستبدال في جميع الأعمدة المحددة. لذلك، عادة ما تحتاج إلى تنظيف أعمدة السلسلة والأعمدة الرقمية بشكل منفصل.

    على سبيل المثال، للتحقق من وجود قيم مفقودة في جميع الأعمدة الرقمية:

    1. حدد مكون Clean Missing Data ، وانقر فوق Edit column في اللوحة اليمنى للمكون.

    2. بالنسبة إلى Include، حدد Column types من القائمة المنسدلة، ثم حدد Numeric.

    يجب أن تكون أي طريقة تنظيف أو استبدال تختارها قابلة للتطبيق على جميع الأعمدة في التحديد. إذا كانت البيانات الموجودة في أي عمود غير متوافقة مع العملية المحددة، يقوم المكون بإرجاع خطأ وإيقاف البنية الأساسية لبرنامج ربط العمليات التجارية.

  3. بالنسبة إلى الحد الأدنى لنسبة القيمة المفقودة، حدد الحد الأدنى لعدد القيم المفقودة المطلوبة للعملية التي سيتم تنفيذها.

    يمكنك استخدام هذا الخيار بالاشتراك مع الحد الأقصى لنسبة القيمة المفقودة لتحديد الشروط التي يتم بموجبها تنفيذ عملية تنظيف على مجموعة البيانات. إذا كان هناك عدد كبير جدا أو عدد قليل جدا من الصفوف التي تفتقد إلى القيم، فلا يمكن تنفيذ العملية.

    يمثل الرقم الذي تدخله نسبة القيم المفقودة إلى كافة القيم في العمود. بشكل افتراضي، يتم تعيين الخاصية الحد الأدنى لنسبة القيمة المفقودة إلى 0. وهذا يعني أنه يتم تنظيف القيم المفقودة حتى إذا كانت هناك قيمة مفقودة واحدة فقط.

    تحذير

    يجب استيفاء هذا الشرط بواسطة كل عمود من أجل تطبيق العملية المحددة. على سبيل المثال، افترض أنك حددت ثلاثة أعمدة ثم قم بتعيين الحد الأدنى لنسبة القيم المفقودة إلى .2 (20%)، ولكن عمودا واحدا فقط يحتوي بالفعل على 20% قيم مفقودة. في هذه الحالة، سيتم تطبيق عملية التنظيف فقط على العمود الذي يحتوي على أكثر من 20% قيم مفقودة. لذلك، لن تتغير الأعمدة الأخرى.

    إذا كان لديك أي شك حول ما إذا كان قد تم تغيير القيم المفقودة، فحدد الخيار إنشاء عمود مؤشر القيمة المفقودة. يتم إلحاق عمود بمجموعة البيانات للإشارة إلى ما إذا كان كل عمود استيفاء للمعايير المحددة للنطاقين الأدنى والحد الأقصى أم لا.

  4. بالنسبة إلى الحد الأقصى لنسبة القيمة المفقودة، حدد الحد الأقصى لعدد القيم المفقودة التي يمكن أن تكون موجودة للعملية التي سيتم تنفيذها.

    على سبيل المثال، قد تحتاج إلى إجراء استبدال قيمة مفقودة فقط إذا كان 30% أو أقل من الصفوف تحتوي على قيم مفقودة، ولكن اترك القيم as-is إذا كان أكثر من 30% من الصفوف تحتوي على قيم مفقودة.

    يمكنك تعريف الرقم على أنه نسبة القيم المفقودة إلى كافة القيم في العمود. بشكل افتراضي، يتم تعيين الحد الأقصى لنسبة القيمة المفقودة إلى 1. وهذا يعني أنه يتم تنظيف القيم المفقودة حتى إذا كانت 100% من القيم الموجودة في العمود مفقودة.

  5. بالنسبة لوضع التنظيف، حدد أحد الخيارات التالية لاستبدال القيم المفقودة أو إزالتها:

    • قيمة استبدال مخصصة: استخدم هذا الخيار لتحديد قيمة عنصر نائب (مثل 0 أو NA) تنطبق على كافة القيم المفقودة. يجب أن تكون القيمة التي تحددها كبديل متوافقة مع نوع بيانات العمود.

    • استبدال ب mean: تحسب متوسط العمود وتستخدم الوسط كقيمة استبدال لكل قيمة مفقودة في العمود.

      ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات عدد صحيح أو مزدوج أو منطقي.

    • استبدال ب وسيط: تحسب قيمة وسيط العمود، وتستخدم القيمة الوسيطة كبديل لأي قيمة مفقودة في العمود.

      ينطبق فقط على الأعمدة التي تحتوي على أنواع بيانات عدد صحيح أو مزدوج.

    • استبدال بالوضع: يحسب وضع العمود، ويستخدم الوضع كقيمة استبدال لكل قيمة مفقودة في العمود.

      ينطبق على الأعمدة التي تحتوي على أنواع بيانات عدد صحيح أو مزدوج أو منطقي أو فئوي.

    • إزالة الصف بأكمله: يزيل تماما أي صف في مجموعة البيانات التي تحتوي على قيمة واحدة أو أكثر مفقودة. وهذا مفيد إذا كان يمكن اعتبار القيمة المفقودة مفقودة عشوائيا.

    • إزالة العمود بأكمله: يزيل بالكامل أي عمود في مجموعة البيانات يحتوي على قيمة مفقودة واحدة أو أكثر.

  6. يتوفر الخيار قيمة الاستبدال إذا قمت بتحديد الخيار، قيمة استبدال مخصصة. اكتب قيمة جديدة لاستخدامها كقيمة بديلة لكافة القيم المفقودة في العمود.

    لاحظ أنه يمكنك استخدام هذا الخيار فقط في الأعمدة التي تحتوي على عدد صحيح أو مزدوج أو منطقي أو سلسلة.

  7. إنشاء عمود مؤشر قيمة مفقود: حدد هذا الخيار إذا كنت تريد إخراج بعض المؤشرات حول ما إذا كانت القيم الموجودة في العمود تفي بمعايير تنظيف القيمة المفقودة. هذا الخيار مفيد بشكل خاص عند إعداد عملية تنظيف جديدة وتريد التأكد من أنها تعمل كما هو مصمم.

  8. إرسال البنية الأساسية.

النتائج

يقوم المكون بإرجاع مخرجين:

  • مجموعة البيانات التي تم تنظيفها: مجموعة بيانات تتكون من الأعمدة المحددة، مع معالجة القيم المفقودة كما هو محدد، إلى جانب عمود مؤشر، إذا حددت هذا الخيار.

    يتم أيضا "تمرير الأعمدة غير المحددة للتنظيف".

  • تحويل التنظيف: تحويل بيانات يستخدم للتنظيف، يمكن حفظه في مساحة العمل وتطبيقه على بيانات جديدة لاحقا.

تطبيق عملية تنظيف محفوظة على بيانات جديدة

إذا كنت بحاجة إلى تكرار عمليات التنظيف في كثير من الأحيان، نوصي بحفظ وصفتك لتطهير البيانات كتحويل، لإعادة الاستخدام مع نفس مجموعة البيانات. يعد حفظ تحويل التنظيف مفيدا بشكل خاص إذا كان يجب عليك إعادة استيراد البيانات التي تحتوي على المخطط نفسه بشكل متكرر ثم تنظيفها.

  1. أضف مكون Apply Transformation إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك.

  2. أضف مجموعة البيانات التي تريد تنظيفها، وقم بتوصيل مجموعة البيانات بمنفذ الإدخال الأيمن.

  3. قم بتوسيع مجموعة Transforms في الجزء الأيسر من المصمم. حدد موقع التحويل المحفوظ واسحبه إلى البنية الأساسية لبرنامج ربط العمليات التجارية.

  4. قم بتوصيل التحويل المحفوظ بمنفذ الإدخال الأيسر لتطبيق التحويل.

    عند تطبيق تحويل محفوظ، لا يمكنك تحديد الأعمدة التي يتم تطبيق التحويل عليها. وذلك لأن التحويل قد تم تعريفه بالفعل وينطبق تلقائيا على الأعمدة المحددة في العملية الأصلية.

    ومع ذلك، افترض أنك قمت بإنشاء تحويل على مجموعة فرعية من الأعمدة الرقمية. يمكنك تطبيق هذا التحويل على مجموعة بيانات من أنواع الأعمدة المختلطة دون رفع خطأ، لأنه يتم تغيير القيم المفقودة فقط في الأعمدة الرقمية المطابقة.

  5. إرسال البنية الأساسية.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.