هندسة الميزات مع MLlib
يحتوي Apache Spark MLlib على العديد من وظائف الأداة المساعدة لأداء هندسة الميزات على نطاق واسع، بما في ذلك أساليب ترميز الميزات وتحويلها. يمكن أيضا استخدام هذه الأساليب لمعالجة ميزات مكتبات التعلم الآلي الأخرى.
توصي Azure Databricks بأدلة Apache Spark MLLib التالية:
- استخراج الميزات وتحويلها وتحديدها باستخدام MLlib
- دليل برمجة MLlib
- مرجع واجهة برمجة تطبيقات Python
- مرجع Scala API
يتضمن دفتر الملاحظات المستند إلى PySpark خطوات المعالجة المسبقة التي تحول البيانات الفئوية إلى متغيرات رقمية باستخدام فهرسة الفئات وترميز واحد ساخن.