Aracılığıyla paylaş


Python için Databricks Bağlan ile Spark kabuğunu kullanma

Dekont

Bu makalede Databricks Runtime 13.0 ve üzeri için Databricks Bağlan yer alır.

Bu makalede Python ve Spark kabuğu için Databricks Bağlan nasıl kullanılacağı anlatılmıştır. Databricks Bağlan, popüler uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Bağlan nedir?.

Dekont

Databricks Bağlan kullanmaya başlamadan önce Databricks Bağlan istemcisini ayarlamanız gerekir.

Spark kabuğu yalnızca Azure Databricks kişisel erişim belirteci kimlik doğrulamasıyla çalışır.

Databricks Bağlan Spark kabuğu ve Python ile kullanmak için bu yönergeleri izleyin.

  1. Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutlardan birini çalıştırın:

    Ortam değişkenini SPARK_REMOTE daha önce ayarlarsanız aşağıdaki komutu çalıştırın:

    pyspark
    

    Ortam değişkenini SPARK_REMOTE daha önce ayarlamadıysanız, bunun yerine aşağıdaki komutu çalıştırın:

    pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
    

    Spark kabuğu görüntülenir, örneğin:

    Python 3.10 ...
    [Clang ...] on darwin
    Type "help", "copyright", "credits" or "license" for more information.
    Welcome to
         ____              __
        / __/__  ___ _____/ /__
       _\ \/ _ \/ _ `/ __/  '_/
      /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
         /_/
    
    Using Python version 3.10 ...
    Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
    SparkSession available as 'spark'.
    >>>
    
  2. Kümenizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Çözümleme bölümüne bakın.

    Çalışan kümenizde öğesini temsil etmek için yerleşik spark değişkenini SparkSession kullanın, örneğin:

    >>> df = spark.read.table("samples.nyctaxi.trips")
    >>> df.show(5)
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    | 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
    | 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
    | 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
    | 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
    | 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
    +--------------------+---------------------+-------------+-----------+----------+-----------+
    only showing top 5 rows
    

    Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.

  3. Spark kabuğunu durdurmak için veya tuşuna basın Ctrl + d ya da komutunu quit() veya exit()komutunu çalıştırın.Ctrl + z