تكوين أنظمة المجموعات
التجميع هو شكل من أشكال التعلم الآلي غير الخاضع للإشراف حيث يتم تجميع الملاحظات في مجموعات استنادا إلى أوجه التشابه في قيم البيانات أو الميزات الخاصة بها. يعتبر هذا النوع من التعلم الآلي غير خاضع للإشراف لأنه لا يستخدم قيم التسمية المعروفة سابقا لتدريب نموذج. في نموذج التجميع، التسمية هي المجموعة التي يتم تعيين الملاحظة إليها، استنادا إلى ميزاتها فقط.
مثال - التجميع
على سبيل المثال، لنفترض أن عالم النبات يلاحظ عينة من الزهور ويسجل عدد الأوراق والبتلات على كل زهرة:
لا توجد تسميات معروفة في مجموعة البيانات، فقط ميزتان. والهدف من ذلك هو عدم تحديد الأنواع المختلفة (الأنواع) من الزهور؛ فقط لتجميع زهور مماثلة معا بناء على عدد الأوراق والبتلات.
أوراق ( x1) | بتلات (x2) |
---|---|
0 | 5 |
0 | 6 |
1 | 3 |
1 | 3 |
1 | 6 |
1 | 8 |
2 | 3 |
2 | 7 |
2 | 8 |
تدريب نموذج تكوين أنظمة المجموعات
هناك العديد من الخوارزميات التي يمكنك استخدامها لتكوين أنظمة المجموعات. واحدة من الخوارزميات الأكثر استخداما هي تجميع K-Means ، والذي يتكون من الخطوات التالية:
- يتم تحويل قيم الميزة (x) لتحديد إحداثيات n الأبعاد (حيث n هو عدد الميزات). في مثال الزهرة، لدينا ميزتان: عدد الأوراق (x1) وعدد البتلات (x2). لذلك، يحتوي متجه الميزة على إحداثيتين يمكننا استخدامهما لرسم نقاط البيانات من الناحية المفاهيمية في مساحة ثنائية الأبعاد ([x1,x 2])
- يمكنك تحديد عدد المجموعات التي تريد استخدامها لتجميع الزهور - قم باستدعاء هذه القيمة k. على سبيل المثال، لإنشاء ثلاث مجموعات، يمكنك استخدام قيمة k وهي 3. ثم يتم رسم نقاط k في إحداثيات عشوائية. تصبح هذه النقاط هي النقاط المركزية لكل مجموعة، لذلك تسمى النقاط المركزية.
- يتم تعيين كل نقطة بيانات (في هذه الحالة زهرة) إلى أقرب نقطة مركزية لها.
- يتم نقل كل نقطة مركزية إلى مركز نقاط البيانات المعينة لها استنادًا إلى متوسط المسافة بين النقاط.
- بعد نقل النقطة المركزية، قد تكون نقاط البيانات الآن أقرب إلى نقطة مركزية مختلفة، لذلك يتم إعادة تعيين نقاط البيانات إلى المجموعات استنادا إلى أقرب نقطة مركزية جديدة.
- تتكرر خطوات حركة النقاط المركزية وإعادة تخصيص نظام المجموعة حتى تصبح المجموعات مستقرة أو يتم الوصول إلى الحد الأقصى المحدد مسبقا من التكرارات.
يظهر الرسم المتحرك التالي هذه العملية:
تقييم نموذج تكوين أنظمة المجموعات
نظرا لعدم وجود تسمية معروفة لمقارنة تعيينات نظام المجموعة المتوقعة بها، يعتمد تقييم نموذج التجميع على مدى فصل المجموعات الناتجة عن بعضها البعض.
هناك مقاييس متعددة يمكنك استخدامها لتقييم فصل نظام المجموعة، بما في ذلك:
- متوسط المسافة إلى مركز نظام المجموعة: مدى قرب كل نقطة في المجموعة في المتوسط من النقطة المركزية للمجموعة.
- متوسط المسافة إلى مركز آخر: مدى قرب كل نقطة في المجموعة في المتوسط من النقطة المركزية لجميع المجموعات الأخرى.
- الحد الأقصى للمسافة إلى مركز نظام المجموعة: أبعد مسافة بين نقطة في المجموعة والنقطة المركزية الخاصة بها.
- صورة ظلية: قيمة بين -1 و1 تلخص نسبة المسافة بين النقاط في نفس المجموعة والنقاط في مجموعات مختلفة (كلما اقتربت من 1، كان فصل نظام المجموعة أفضل).