استخدام Spark shell مع Databricks Connect ل Python

إشعار

تتناول هذه المقالة Databricks Connect ل Databricks Runtime 13.3 LTS وما فوق.

تتناول هذه المقالة كيفية استخدام Databricks Connect ل Python وSpark shell. يمكنك Databricks Connect من توصيل التطبيقات الشائعة بحساب Azure Databricks. راجع ما هو Databricks Connect؟.

إشعار

قبل البدء في استخدام Databricks Connect، يجب عليك إعداد عميل Databricks Connect.

يعمل Spark shell مع مصادقة رمز الوصول الشخصي Azure Databricks فقط.

لاستخدام Databricks Connect مع Spark shell وPython، اتبع هذه الإرشادات.

  1. لبدء Spark shell وتوصيلها بنظام المجموعة قيد التشغيل، قم بتشغيل أحد الأوامر التالية من بيئة Python الظاهرية التي تم تنشيطها:

    إذا قمت بتعيين SPARK_REMOTE متغير البيئة، فقم بتشغيل الأمر التالي:

    pyspark
    

    إذا لم تقم بتعيين SPARK_REMOTE متغير البيئة، فقم بتشغيل الأمر التالي بدلا من ذلك:

    pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
    

    يظهر Spark shell، على سبيل المثال:

    Python 3.10 ...
    [Clang ...] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
         ____              __
        / __/__  ___ _____/ /__
       _\ \/ _ \/ _ `/ __/  '_/
      /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
         /_/
    
    Using Python version 3.10 ...
    Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
    SparkSession available as 'spark'.
    >>>
    

الآن قم بتشغيل أمر PySpark بسيط، مثل spark.range(1,10).show(). إذا لم تكن هناك أخطاء، فقد نجحت في الاتصال.

  1. راجع التحليل التفاعلي باستخدام Spark Shell للحصول على معلومات حول كيفية استخدام Spark shell مع Python لتشغيل الأوامر على الحساب الخاص بك.

    استخدم المتغير المضمن spark لتمثيل على SparkSession نظام المجموعة قيد التشغيل، على سبيل المثال:

    >>> df = spark.read.table("samples.nyctaxi.trips")
    >>> df.show(5)
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    | 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
    | 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
    | 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
    | 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
    | 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    only showing top 5 rows
    

    يتم تشغيل جميع التعليمات البرمجية ل Python محليا، بينما يتم إرسال جميع التعليمات البرمجية PySpark التي تتضمن عمليات DataFrame على نظام المجموعة في مساحة عمل Azure Databricks البعيدة ويتم إرسال استجابات التشغيل مرة أخرى إلى المتصل المحلي.

  2. لإيقاف Spark shell، اضغط Ctrl + d أو Ctrl + z، أو قم بتشغيل الأمر quit() أو exit().