Python için Databricks Connect ile Spark kabuğunu kullanma

Makale
07/16/2024

Not

Bu makale Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i kapsar.

Bu makalede Python ve Spark kabuğu için Databricks Connect'in nasıl kullanılacağı anlatılmıştır. Databricks Connect, popüler uygulamaları Azure Databricks işlemlerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?.

Not

Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisini ayarlamanız gerekir.

Spark kabuğu yalnızca Azure Databricks kişisel erişim belirteci kimlik doğrulamasıyla çalışır.

Databricks Connect'i Spark kabuğu ve Python ile kullanmak için bu yönergeleri izleyin.

Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutlardan birini çalıştırın:

Ortam değişkenini SPARK_REMOTE ayarladıysanız aşağıdaki komutu çalıştırın:

pyspark

Ortam değişkenini SPARK_REMOTE ayarlamadıysanız, bunun yerine aşağıdaki komutu çalıştırın:

pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"

Spark kabuğu görüntülenir, örneğin:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
     ____              __
    / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
  /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
     /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Şimdi gibi spark.range(1,10).show()basit bir PySpark komutu çalıştırın. Hata yoksa başarıyla bağlandınız.

İşleminizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Analiz'e bakın.

Çalışan kümenizde öğesini temsil etmek için yerleşik spark değişkenini SparkSession kullanın, örneğin:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.

Spark kabuğunu durdurmak için veya tuşuna basın Ctrl + d ya da komutunu quit() veya exit()komutunu çalıştırın.Ctrl + z

Aracılığıyla paylaş

Python için Databricks Connect ile Spark kabuğunu kullanma

Geri Bildirim

Ek kaynaklar