الترحيل إلى Databricks Connect ل Python

توضح هذه المقالة كيفية الترحيل من Databricks Connect ل Databricks Runtime 12.2 LTS والإصدارات أدناه إلى Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق ل Python. يمكنك Databricks Connect من توصيل IDEs الشائعة وخوادم دفاتر الملاحظات والتطبيقات المخصصة إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟. للحصول على إصدار Scala من هذه المقالة، راجع الترحيل إلى Databricks Connect ل Scala.

إشعار

قبل البدء في استخدام Databricks Connect، يجب عليك إعداد عميل Databricks Connect.

اتبع هذه الإرشادات لترحيل مشروع التعليمات البرمجية ل Python الحالي أو بيئة الترميز من Databricks Connect ل Databricks Runtime 12.2 LTS والإصدارات أدناه إلى Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.

  1. قم بتثبيت الإصدار الصحيح من Python كما هو موضح في متطلبات التثبيت لمطابقة نظام مجموعة Azure Databricks، إذا لم يكن مثبتا بالفعل محليا.

  2. قم بترقية بيئة Python الظاهرية لاستخدام الإصدار الصحيح من Python لمطابقة نظام المجموعة الخاص بك، إذا لزم الأمر. للحصول على الإرشادات، راجع وثائق موفر البيئة الظاهرية.

  3. مع تنشيط بيئتك الظاهرية، قم بإلغاء تثبيت PySpark من بيئتك الظاهرية:

    pip3 uninstall pyspark
    
  4. مع استمرار تنشيط بيئتك الظاهرية، قم بإلغاء تثبيت Databricks Connect لوقت تشغيل Databricks 12.2 LTS وما يلي:

    pip3 uninstall databricks-connect
    
  5. مع استمرار تنشيط بيئتك الظاهرية، قم بتثبيت Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق:

    pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
    

    إشعار

    توصي Databricks بإلحاق رمز "dot-asterisk" لتحديد databricks-connect==X.Y.* بدلا من databricks-connect=X.Y، للتأكد من تثبيت أحدث حزمة. على الرغم من أن هذا ليس مطلبا، فإنه يساعد على التأكد من أنه يمكنك استخدام أحدث الميزات المدعومة لتلك المجموعة.

  6. قم بتحديث التعليمات البرمجية ل Python لتهيئة spark المتغير (الذي يمثل إنشاء مثيل للفئة DatabricksSession ، على SparkSession غرار في PySpark). للحصول على أمثلة التعليمات البرمجية، راجع تثبيت Databricks Connect ل Python.

  7. قم بترحيل واجهات برمجة تطبيقات RDD لاستخدام واجهات برمجة تطبيقات DataFrame، وترحيلك SparkContext لاستخدام البدائل.

تعيين تكوينات Hadoop

على العميل يمكنك تعيين تكوينات Hadoop باستخدام spark.conf.set واجهة برمجة التطبيقات، والتي تنطبق على عمليات SQL وDataFrame. يجب تعيين تكوينات Hadoop المعينة sparkContext على في تكوين نظام المجموعة أو باستخدام دفتر ملاحظات. وذلك لأن التكوينات التي تم تعيينها على sparkContext غير مرتبطة بجلسات عمل المستخدم ولكنها تنطبق على المجموعة بأكملها.