مشاركة عبر


مكون تقسيم البيانات

توضح هذه المقالة مكونا في مصمم التعلم الآلي Azure.

استخدم مكون Split Data لتقسيم مجموعة بيانات إلى مجموعتين متميزتين.

هذا المكون مفيد عندما تحتاج إلى فصل البيانات إلى مجموعات التدريب والاختبار. يمكنك أيضا تخصيص طريقة تقسيم البيانات. تدعم بعض الخيارات عشوائية البيانات. تم تصميم الأنواع الأخرى لنوع بيانات أو نوع نموذج معين.

تكوين المكون

تلميح

قبل اختيار وضع التقسيم، اقرأ جميع الخيارات لتحديد نوع الانقسام الذي تحتاجه. إذا قمت بتغيير وضع التقسيم، فقد تتم إعادة تعيين جميع الخيارات الأخرى.

  1. أضف مكون Split Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم. يمكنك العثور على هذا المكون ضمن تحويل البيانات، في فئة النموذج والتقسيم .

  2. وضع التقسيم: اختر أحد الأوضاع التالية، استنادا إلى نوع البيانات التي لديك والطريقة التي تريد تقسيمها بها. يحتوي كل وضع تقسيم على خيارات مختلفة.

    • تقسيم الصفوف: استخدم هذا الخيار إذا كنت تريد فقط تقسيم البيانات إلى جزأين. يمكنك تحديد النسبة المئوية للبيانات لوضعها في كل تقسيم. بشكل افتراضي، يتم تقسيم البيانات 50/50.

      يمكنك أيضا عشوائية تحديد الصفوف في كل مجموعة، واستخدام أخذ العينات الطبقية. في أخذ العينات الطبقية، يجب تحديد عمود واحد من البيانات التي تريد تقسيم القيم لها بالتساوي بين مجموعتي بيانات النتيجة.

    • تقسيم التعبير العادي: حدد هذا الخيار عندما تريد تقسيم مجموعة البيانات الخاصة بك عن طريق اختبار عمود واحد لقيمة.

      على سبيل المثال، إذا كنت تقوم بتحليل التوجه، يمكنك التحقق من وجود اسم منتج معين في حقل نصي. يمكنك بعد ذلك تقسيم مجموعة البيانات إلى صفوف باسم المنتج الهدف والصفوف بدون اسم المنتج الهدف.

    • تقسيم التعبير النسبي: استخدم هذا الخيار كلما أردت تطبيق شرط على عمود رقم. يمكن أن يكون الرقم حقل تاريخ/وقت أو عمود يحتوي على مبالغ من العمر أو الدولار أو حتى نسبة مئوية. على سبيل المثال، قد تحتاج إلى تقسيم مجموعة البيانات الخاصة بك استنادا إلى تكلفة العناصر أو تجميع الأشخاص حسب النطاقات العمرية أو فصل البيانات حسب تاريخ التقويم.

تقسيم الصفوف

  1. أضف مكون Split Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية في المصمم، وقم بتوصيل مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة لوضع التقسيم، حدد تقسيم الصفوف.

  3. كسر الصفوف في مجموعة بيانات الإخراج الأولى: استخدم هذا الخيار لتحديد عدد الصفوف التي ستنتقل إلى الإخراج الأول (الجانب الأيسر). ستنتقل جميع الصفوف الأخرى إلى الإخراج الثاني (الجانب الأيمن).

    تمثل النسبة النسبة المئوية للصفوف المرسلة إلى مجموعة بيانات الإخراج الأولى، لذلك يجب إدخال رقم عشري بين 0 و1.

    على سبيل المثال، إذا أدخلت 0.75 كقيمة، تقسيم مجموعة البيانات 75/25. في هذا التقسيم، سيتم إرسال 75 بالمائة من الصفوف إلى مجموعة بيانات الإخراج الأولى. سيتم إرسال 25 بالمائة المتبقية إلى مجموعة بيانات الإخراج الثانية.

  4. حدد الخيار تقسيم عشوائي إذا كنت تريد عشوائية تحديد البيانات في المجموعتين. هذا هو الخيار المفضل عند إنشاء مجموعات بيانات التدريب والاختبار.

  5. البذور العشوائية: سيتم تجاهل هذه المعلمة إذا تم تعيين تقسيم عشوائي إلى خطأ. وإلا أدخل قيمة عدد صحيح غير سالب لبدء تسلسل المثيلات الزائفة التي سيتم استخدامها. يتم استخدام هذه البذور الافتراضية في جميع المكونات التي تنشئ أرقاما عشوائية.

    تحديد البذور يجعل النتائج قابلة للتكرار. إذا كنت بحاجة إلى تكرار نتائج عملية الانقسام، يجب تحديد نفس رقم البذور لمولد الرقم العشوائي.

  6. تقسيم الطبقات: قم بتعيين هذا الخيار إلى True للتأكد من أن مجموعتي بيانات الإخراج تحتويان على عينة تمثيلية للقيم في عمود الطبقات أو عمود مفتاح التقسيم الطبقي.

    مع أخذ العينات الطبقية، يتم تقسيم البيانات بحيث تحصل كل مجموعة بيانات إخراج على نفس النسبة المئوية تقريبا من كل قيمة مستهدفة. على سبيل المثال، قد ترغب في التأكد من أن مجموعات التدريب والاختبار الخاصة بك متوازنة تقريبا فيما يتعلق بالنتيجة أو بعض الأعمدة الأخرى (مثل الجنس).

  7. إرسال البنية الأساسية.

تحديد تعبير عادي

  1. أضف مكون Split Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك، وقم بتوصيله كمدخل إلى مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة لوضع التقسيم، حدد تقسيم التعبير العادي.

  3. في المربع تعبير عادي ، أدخل تعبيرا عاديا صالحا.

    يجب أن يتبع التعبير العادي بناء جملة Python للتعبيرات العادية.

  4. إرسال البنية الأساسية.

    استنادا إلى التعبير العادي الذي توفره، يتم تقسيم مجموعة البيانات إلى مجموعتين من الصفوف: صفوف ذات قيم تطابق التعبير وجميع الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير العادي .

كلمة واحدة كاملة

يضع هذا المثال في مجموعة البيانات الأولى جميع الصفوف التي تحتوي على النص Gryphon في العمود Text. يضع صفوفا أخرى في الإخراج الثاني من Split Data.

    \"Text" Gryphon  

فرعيه

يبحث هذا المثال عن السلسلة المحددة في أي موضع داخل العمود الثاني من مجموعة البيانات. يتم الإشارة إلى الموضع هنا بقيمة الفهرس 1. المطابقة حساسة لحالة الأحرف.

(\1) ^[a-f]

تحتوي مجموعة بيانات النتيجة الأولى على جميع الصفوف حيث يبدأ عمود الفهرس بأحد هذه الأحرف: a، b، c، d، e، . f يتم توجيه كافة الصفوف الأخرى إلى الإخراج الثاني.

تحديد تعبير نسبي

  1. أضف مكون Split Data إلى البنية الأساسية لبرنامج ربط العمليات التجارية الخاصة بك، وقم بتوصيله كمدخل إلى مجموعة البيانات التي تريد تقسيمها.

  2. بالنسبة لوضع التقسيم، حدد التعبير النسبي.

  3. في مربع التعبير الارتباطي ، أدخل تعبيرا ينفذ عملية مقارنة على عمود واحد.

    للعمود الرقمي:

    • يحتوي العمود على أرقام لأي نوع بيانات رقمي، بما في ذلك أنواع بيانات التاريخ والوقت.
    • يمكن أن يشير التعبير إلى اسم عمود واحد كحد أقصى.
    • استخدم حرف علامة العطف، &، لعملية AND. استخدم حرف توجيه، |، لعملية OR.
    • يتم دعم عوامل التشغيل التالية: <، >، <=، >=، ==، . !=
    • لا يمكنك تجميع العمليات باستخدام ( و ).

    بالنسبة لعمود السلسلة:

    • يتم دعم عوامل التشغيل التالية: ==، . !=
  4. إرسال البنية الأساسية.

    يقسم التعبير مجموعة البيانات إلى مجموعتين من الصفوف: صفوف ذات قيم تفي بالشرط، وجميع الصفوف المتبقية.

توضح الأمثلة التالية كيفية تقسيم مجموعة بيانات باستخدام خيار التعبير النسبي في مكون Split Data .

سنة التقويم

السيناريو الشائع هو تقسيم مجموعة بيانات على سنوات. يحدد التعبير التالي كافة الصفوف حيث تكون القيم في العمود Year أكبر من 2010.

\"Year" > 2010

يجب أن يمثل تعبير التاريخ كافة أجزاء التاريخ المضمنة في عمود البيانات. يجب أن يكون تنسيق التواريخ في عمود البيانات متناسقا.

على سبيل المثال، في عمود تاريخ يستخدم التنسيق mmddyyyy، يجب أن يكون التعبير شيئا مثل هذا:

\"Date" > 1/1/2010

فهرس العمود

يوضح التعبير التالي كيفية استخدام فهرس العمود لتحديد كافة الصفوف في العمود الأول من مجموعة البيانات التي تحتوي على قيم أقل من أو تساوي 30، ولكن لا تساوي 20.

(\0)<=30 & !=20

الخطوات التالية

راجع مجموعة المكونات المتوفرة للتعلم الآلي من Azure.