هندسة الميزات مع MLlib

يحتوي Apache Spark MLlib على العديد من وظائف الأداة المساعدة لأداء هندسة الميزات على نطاق واسع، بما في ذلك أساليب ترميز الميزات وتحويلها. يمكن أيضا استخدام هذه الأساليب لمعالجة ميزات مكتبات التعلم الآلي الأخرى.

توصي Azure Databricks بأدلة Apache Spark MLLib التالية:

يتضمن دفتر الملاحظات المستند إلى PySpark خطوات المعالجة المسبقة التي تحول البيانات الفئوية إلى متغيرات رقمية باستخدام فهرسة الفئات وترميز واحد ساخن.

مثال التصنيف الثنائي

الحصول على دفتر الملاحظات