تجميع البيانات في مكون الخانات

توضح هذه المقالة كيفية استخدام مكون بيانات المجموعة في خانات في مصمم التعلم الآلي من Azure، لتجميع الأرقام أو تغيير توزيع البيانات المستمرة.

يدعم مكون تجميع البيانات في خانات خيارات متعددة لربط البيانات. يمكنك تخصيص كيفية تعيين حواف الخانة وكيفية تقسيم القيم إلى خانات. على سبيل المثال، يمكنك:

  • كتابة سلسلة من القيم يدويًا لتكون بمثابة حدود الخانة.
  • تعيين قيم إلى خانات باستخدام الفواصل الكمية أو الرتب المئوية.
  • فرض توزيع متساوٍ للقيم في الخانات.

المزيد حول الربط والتجميع

يعد ربط البيانات أو تجميعها (تسمى أحيانًا التكميم) أداة مهمة في إعداد البيانات الرقمية للتعلم الآلي. مفيد في سيناريوهات مثل هذه:

  • يحتوي عمود الأرقام المستمرة على عدد كبير جدًا من القيم الفريدة التي لا يمكن تصميمها بفعالية. لذلك تقوم تلقائيًا أو يدويًا بتعيين القيم للمجموعات، لإنشاء مجموعة أصغر من النطاقات المنفصلة.

  • تريد استبدال عمود من الأرقام بقيم فئوية تمثل نطاقات معينة.

    على سبيل المثال، قد ترغب في تجميع القيم في عمود عمر عن طريق تحديد نطاقات مخصصة، مثل 1-15 و16-22 و23-30 وما إلى ذلك للخصائص السكانية للمستخدم.

  • تحتوي مجموعة البيانات على بعض القيم المتطرفة، وكلها خارج النطاق المتوقع، وهذه القيم لها تأثير كبير على النموذج المدرب. لتقليل التحيز في النموذج، يمكنك تحويل البيانات إلى توزيع منتظم باستخدام طريقة الكميات.

    باستخدام هذه الطريقة، يحدد تجميع البيانات في مكون الخانات مواقع الخانة المثالية وعرض الخانة لضمان أن العدد نفسه تقريبًا من العينات يقع في كل خانة. بعد ذلك، اعتمادًا على أسلوب التسوية الذي تختاره، يتم تحويل القيم الموجودة في الخانات إلى قيم مئوية أو تعيينها إلى رقم الخانة.

أمثلة على الربط

يوضح الرسم التخطيطي التالي توزيع القيم الرقمية قبل الربط وبعده باستخدام أسلوب الكميات. لاحظ أنه بالمقارنة مع البيانات الأولية في اليسار، تم ربط البيانات وتحويلها إلى مقياس وحدة عادي.

تصور النتيجة

نظرًا إلى وجود العديد من الطرق لتجميع البيانات، وكلها قابلة للتخصيص، نوصي بتجربة أساليب وقيم مختلفة.

طريقة تكوين بيانات المجموعة في خانات

  1. أضف مكون تجميع البيانات إلى خانات إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم. يمكنك العثور على هذا المكون في فئة تحويل البيانات.

  2. قم بتوصيل مجموعة البيانات التي تحتوي على بيانات رقمية بالخانة. يمكن تطبيق التكميم على الأعمدة التي تحتوي على بيانات رقمية فحسب.

    إذا كانت مجموعة البيانات تحتوي على أعمدة غير رقمية، فاستخدم مكون تحديد أعمدة في Dataset لتحديد مجموعة فرعية من الأعمدة للعمل معها.

  3. حدد وضع الربط. يحدد وضع الربط المعلمات الأخرى، لذا تأكد من تحديد خيار وضع الربط أولاً. يتم دعم الأنواع التالية من الربط:

    • القيم الكمية: يقوم الأسلوب الكمي بتعيين قيم إلى خانات استنادًا إلى الرتب المئوية. يعرف هذا الأسلوب أيضًا باسم ربط الارتفاع المتساوي.

    • العرض المتساوي: باستخدام هذا الخيار، يجب تحديد إجمالي عدد الخانات. يتم وضع القيم من عمود البيانات في الخانات حتى يكون لكل خانة نفس الفاصل الزمني بين قيم البداية والنهاية. ونتيجة لذلك، قد تحتوي بعض الخانات على قيم أكثر إذا كانت البيانات مزدحمة حول نقطة معينة.

    • الحواف المخصصة: يمكنك تحديد القيم التي تبدأ كل خانة. قيمة الحافة هي دائمًا الحد الأدنى من الخانة.

      على سبيل المثال، افترض أنك تريد تجميع القيم في خانتين. سيكون للمرء قيم أكبر من 0، وسيكون للواحد قيم أقل من أو تساوي 0. في هذه الحالة، بالنسبة إلى حواف الخانة، يمكنك إدخال 0 في قائمة مفصولة بفواصل من حواف الخانة. سيكون إخراج المكون 1 و2، ما يشير إلى فهرس الخانة لكل قيمة صف. لاحظ أن قائمة القيم المفصولة بفواصل يجب أن تكون بترتيب تصاعدي، مثل 1، 3، 5، 7.

    ملاحظة

    يتم تعريف وضع مصادقة متعددة العوامل (MDL) لـ Entropy في Studio (كلاسيكي) ولا توجد حزمة مصدر مفتوح مقابلة يمكن الاستفادة منها لدعمها في Designer حتى الآن.

  4. إذا كنت تستخدم وضعي الربط Quanquans وEqual Width، فاستخدم خيار عدد الخانات لتحديد عدد الخانات أو الكميات التيتريد إنشاءها.

  5. بالنسبة إلى ربط الأعمدة إلى الخانة، استخدم محدد الأعمدة لاختيار الأعمدة التي تحتوي على القيم التي تريد ربطها. يجب أن تكون الأعمدة نوع بيانات رقميًا.

    يتم تطبيق قاعدة الربط نفسها على جميع الأعمدة القابلة للتطبيق التي تختارها. إذا كنت بحاجة إلى ربط بعض الأعمدة باستخدام أسلوب مختلف، فاستخدم مثيلاً منفصلاً لبيانات المجموعة في مكوّن الخانات لكل مجموعة من الأعمدة.

    تحذير

    إذا اخترت عمودًا ليس من النوع المسموح به، يتم إنشاء خطأ وقت التشغيل. يقوم المكون بإرجاع خطأ بمجرد العثور على أي عمود من نوع غير مسموح به. إذا تلقيت خطأ، فراجع جميع الأعمدة المحددة. لا يسرد الخطأ كافة الأعمدة غير الصالحة.

  6. بالنسبة إلى وضع الإخراج، قم بالإشارة إلى الطريقة التي تريد بها إخراج القيم الكمية:

    • الإلحاق: ينشئ عمودًا جديدا بالقيم المترابطة، ويلحق ذلك بجدول الإدخال.

    • Inplace: يستبدل القيم الأصلية بالقيم الجديدة في مجموعة البيانات.

    • ResultOnly: إرجاع أعمدة النتائج فحسب.

  7. إذا حددت وضع ربط القيم الكمية، فاستخدم خيار التسوية الكمي لتحديد كيفية تسوية القيم قبل الفرز إلى قيم كمية. لاحظ أن تسوية القيم يحول القيم ولكنه لا يؤثر على العدد النهائي للخانات.

    يتم اعتماد أنواع التسوية التالية:

    • النسبة المئوية: تتم تسوية القيم داخل النطاق [0,100].

    • PQuantile: تتم تسوية القيم داخل النطاق [0,1].

    • QuantileIndex: تتم تسوية القيم داخل النطاق [1,عدد الخانات].

  8. إذا اخترت الخيار حواف مخصصة، فأدخل قائمة بالأرقام مفصولة بفواصل لاستخدامها كحواف خانة في مربع النص قائمة حواف الخانة المفصولة بفواصل.

    تحدد القيم النقطة التي تقسم الخانات. على سبيل المثال، إذا أدخلت قيمة حافة خانة واحدة، فسيتم إنشاء خانتين. إذا أدخلت قيمتين لحافة الخانة، فسيتم إنشاء ثلاث خانات.

    يجب فرز القيم بالترتيب الذي يتم به إنشاء الخانات، من الأدنى إلى الأعلى.

  9. حدد الخيار أعمدة العلامة كعلامة قاطعة للإشارة إلى أنه يجب معالجة الأعمدة المحددة كمتغيرات فئوية.

  10. إرسال المسار.

النتائج

يقوم مكون تجميع البيانات في خانات بإرجاع مجموعة بيانات تم ربط كل عنصر فيها وفقا للوضع المحدد.

كما يقوم بإرجاع تحويل الربط. يمكن تمرير هذه الدالة إلى مكون تطبيق التحويل إلى خانة عينات جديدة من البيانات باستخدام نفس وضع الربط والمعلمات.

تلميح

إذا كنت تستخدم الربط على بيانات التدريب الخاصة بك، فإنه يجب عليك استخدام نفس طريقة الربط على البيانات التي تستخدمها للاختبار والتنبؤ. يجب أيضًا استخدام نفس مواقع الخانة وعرضها.

لضمان تحويل البيانات دائمًا باستخدام نفس أسلوب الربط، نوصي بحفظ تحويلات البيانات المفيدة. ثم تطبيقها على مجموعات البيانات الأخرى باستخدام مكون تطبيق التحويل.

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.