استخدام Spark shell مع Databricks Connect ل Python
إشعار
تتناول هذه المقالة Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.
تتناول هذه المقالة كيفية استخدام Databricks Connect ل Python وSpark shell. يمكنك Databricks Connect من توصيل التطبيقات الشائعة بحساب Azure Databricks. راجع ما هو Databricks Connect؟.
إشعار
قبل البدء في استخدام Databricks Connect، يجب عليك إعداد عميل Databricks Connect.
يعمل Spark shell مع مصادقة رمز الوصول الشخصي Azure Databricks فقط.
لاستخدام Databricks Connect مع Spark shell وPython، اتبع هذه الإرشادات.
لبدء Spark shell وتوصيلها بنظام المجموعة قيد التشغيل، قم بتشغيل أحد الأوامر التالية من بيئة Python الظاهرية التي تم تنشيطها:
إذا قمت بتعيين
SPARK_REMOTE
متغير البيئة، فقم بتشغيل الأمر التالي:pyspark
إذا لم تقم بتعيين
SPARK_REMOTE
متغير البيئة، فقم بتشغيل الأمر التالي بدلا من ذلك:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
يظهر Spark shell، على سبيل المثال:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
الآن قم بتشغيل أمر PySpark بسيط، مثل spark.range(1,10).show()
. إذا لم تكن هناك أخطاء، فقد نجحت في الاتصال.
راجع التحليل التفاعلي باستخدام Spark Shell للحصول على معلومات حول كيفية استخدام Spark shell مع Python لتشغيل الأوامر على الحساب الخاص بك.
استخدم المتغير المضمن
spark
لتمثيل علىSparkSession
نظام المجموعة قيد التشغيل، على سبيل المثال:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
يتم تشغيل جميع التعليمات البرمجية ل Python محليا، بينما يتم إرسال جميع التعليمات البرمجية PySpark التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة ويتم إرسال استجابات التشغيل مرة أخرى إلى المتصل المحلي.
لإيقاف Spark shell، اضغط
Ctrl + d
أوCtrl + z
، أو قم بتشغيل الأمرquit()
أوexit()
.