تدريب نماذج Spark ML على الاتصال Databricks باستخدامpyspark.ml.connect

هام

هذه الميزة في المعاينة العامة.

توفر هذه المقالة مثالا يوضح كيفية استخدام الوحدة النمطية pyspark.ml.connect لإجراء تدريب موزع لتدريب نماذج Spark ML وتشغيل استدلال النموذج على الاتصال Databricks.

ما المقصود بـ pyspark.ml.connect؟

يقدم pyspark.ml.connect Spark 3.5 الذي تم تصميمه لدعم وضع اتصال Spark وDatabricks الاتصال. تعرف على المزيد حول الاتصال Databricks.

pyspark.ml.connect تتكون الوحدة من خوارزميات التعلم الشائعة والأدوات المساعدة، بما في ذلك التصنيف ومحولات الميزات وخطوط أنابيب التعلم الآلي والتحقق المشترك. توفر هذه الوحدة واجهات مشابهة للوحدة النمطية القديمةpyspark.ml، ولكن الوحدة النمطية pyspark.ml.connect حاليا تحتوي فقط على مجموعة فرعية من الخوارزميات في pyspark.ml. يتم سرد الخوارزميات المدعومة أدناه:

  • خوارزمية التصنيف: pyspark.ml.connect.classification.LogisticRegression
  • محولات الميزات: pyspark.ml.connect.feature.MaxAbsScaler و pyspark.ml.connect.feature.StandardScaler
  • المقيم: pyspark.ml.connect.RegressionEvaluatorو pyspark.ml.connect.BinaryClassificationEvaluator و MulticlassClassificationEvaluator
  • خط انابيب: pyspark.ml.connect.pipeline.Pipeline
  • ضبط النموذج: pyspark.ml.connect.tuning.CrossValidator

المتطلبات

  • إعداد الاتصال Databricks على مجموعاتك. راجع تكوين نظام المجموعة الاتصال Databricks.
  • Databricks Runtime 14.0 ML أو أعلى مثبتا.
  • وضع الوصول إلى نظام المجموعة ل Assigned.

مثال لدفتر الملاحظات

يوضح دفتر الملاحظات التالي كيفية استخدام التعلم الآلي الموزع على الاتصال Databricks:

التعلم الآلي الموزع على الاتصال Databricks

الحصول على دفتر الملاحظات

للحصول على معلومات مرجعية حول واجهات برمجة التطبيقات في pyspark.ml.connect، توصي Databricks بمرجع Apache Spark API