الترحيل إلى Databricks Connect ل Python
توضح هذه المقالة كيفية الترحيل من Databricks Connect ل Databricks Runtime 12.2 LTS والإصدارات أدناه إلى Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق ل Python. يمكنك Databricks Connect من توصيل IDEs الشائعة وخوادم دفاتر الملاحظات والتطبيقات المخصصة إلى مجموعات Azure Databricks. راجع ما هو Databricks Connect؟. للحصول على إصدار Scala من هذه المقالة، راجع الترحيل إلى Databricks Connect ل Scala.
إشعار
قبل البدء في استخدام Databricks Connect، يجب عليك إعداد عميل Databricks Connect.
اتبع هذه الإرشادات لترحيل مشروع التعليمات البرمجية ل Python الحالي أو بيئة الترميز من Databricks Connect ل Databricks Runtime 12.2 LTS والإصدارات أدناه إلى Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.
قم بتثبيت الإصدار الصحيح من Python كما هو موضح في متطلبات التثبيت لمطابقة نظام مجموعة Azure Databricks، إذا لم يكن مثبتا بالفعل محليا.
قم بترقية بيئة Python الظاهرية لاستخدام الإصدار الصحيح من Python لمطابقة نظام المجموعة الخاص بك، إذا لزم الأمر. للحصول على الإرشادات، راجع وثائق موفر البيئة الظاهرية.
مع تنشيط بيئتك الظاهرية، قم بإلغاء تثبيت PySpark من بيئتك الظاهرية:
pip3 uninstall pyspark
مع استمرار تنشيط بيئتك الظاهرية، قم بإلغاء تثبيت Databricks Connect لوقت تشغيل Databricks 12.2 LTS وما يلي:
pip3 uninstall databricks-connect
مع استمرار تنشيط بيئتك الظاهرية، قم بتثبيت Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.
إشعار
توصي Databricks بإلحاق رمز "dot-asterisk" لتحديد
databricks-connect==X.Y.*
بدلا منdatabricks-connect=X.Y
، للتأكد من تثبيت أحدث حزمة. على الرغم من أن هذا ليس مطلبا، فإنه يساعد على التأكد من أنه يمكنك استخدام أحدث الميزات المدعومة لتلك المجموعة.قم بتحديث التعليمات البرمجية ل Python لتهيئة
spark
المتغير (الذي يمثل إنشاء مثيل للفئةDatabricksSession
، علىSparkSession
غرار في PySpark). للحصول على أمثلة التعليمات البرمجية، راجع تثبيت Databricks Connect ل Python.قم بترحيل واجهات برمجة تطبيقات RDD لاستخدام واجهات برمجة تطبيقات DataFrame، وترحيلك
SparkContext
لاستخدام البدائل.
تعيين تكوينات Hadoop
على العميل يمكنك تعيين تكوينات Hadoop باستخدام spark.conf.set
واجهة برمجة التطبيقات، والتي تنطبق على عمليات SQL وDataFrame. يجب تعيين تكوينات Hadoop المعينة sparkContext
على في تكوين نظام المجموعة أو باستخدام دفتر ملاحظات. وذلك لأن التكوينات التي تم تعيينها على sparkContext
غير مرتبطة بجلسات عمل المستخدم ولكنها تنطبق على المجموعة بأكملها.