تدريب نماذج Spark ML على الاتصال Databricks باستخدامpyspark.ml.connect
توفر هذه المقالة مثالا يوضح كيفية استخدام الوحدة النمطية pyspark.ml.connect
لإجراء تدريب موزع لتدريب نماذج Spark ML وتشغيل استدلال النموذج على الاتصال Databricks.
ما المقصود بـ pyspark.ml.connect
؟
يقدم pyspark.ml.connect
Spark 3.5 الذي تم تصميمه لدعم وضع اتصال Spark وDatabricks الاتصال. تعرف على المزيد حول الاتصال Databricks.
pyspark.ml.connect
تتكون الوحدة من خوارزميات التعلم الشائعة والأدوات المساعدة، بما في ذلك التصنيف ومحولات الميزات وخطوط أنابيب التعلم الآلي والتحقق المشترك. توفر هذه الوحدة واجهات مشابهة للوحدة النمطية القديمةpyspark.ml
، ولكن الوحدة النمطية pyspark.ml.connect
حاليا تحتوي فقط على مجموعة فرعية من الخوارزميات في pyspark.ml
. يتم سرد الخوارزميات المدعومة أدناه:
- خوارزمية التصنيف:
pyspark.ml.connect.classification.LogisticRegression
- محولات الميزات:
pyspark.ml.connect.feature.MaxAbsScaler
وpyspark.ml.connect.feature.StandardScaler
- المقيم:
pyspark.ml.connect.RegressionEvaluator
وpyspark.ml.connect.BinaryClassificationEvaluator
وMulticlassClassificationEvaluator
- خط انابيب:
pyspark.ml.connect.pipeline.Pipeline
- ضبط النموذج:
pyspark.ml.connect.tuning.CrossValidator
المتطلبات
- إعداد الاتصال Databricks على مجموعاتك. راجع تكوين نظام المجموعة الاتصال Databricks.
- Databricks Runtime 14.0 ML أو أعلى مثبتا.
- وضع الوصول إلى نظام المجموعة ل
Assigned
.
مثال لدفتر الملاحظات
يوضح دفتر الملاحظات التالي كيفية استخدام التعلم الآلي الموزع على الاتصال Databricks:
التعلم الآلي الموزع على الاتصال Databricks
للحصول على معلومات مرجعية حول واجهات برمجة التطبيقات في pyspark.ml.connect
، توصي Databricks بمرجع Apache Spark API