Python için Databricks Connect ile Spark kabuğunu kullanma
Not
Bu makale Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i kapsar.
Bu makalede Python ve Spark kabuğu için Databricks Connect'in nasıl kullanılacağı anlatılmıştır. Databricks Connect, popüler uygulamaları Azure Databricks işlemlerine bağlamanızı sağlar. Bkz. Databricks Connect nedir?.
Not
Databricks Connect'i kullanmaya başlamadan önce Databricks Connect istemcisini ayarlamanız gerekir.
Spark kabuğu yalnızca Azure Databricks kişisel erişim belirteci kimlik doğrulamasıyla çalışır.
Databricks Connect'i Spark kabuğu ve Python ile kullanmak için bu yönergeleri izleyin.
Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutlardan birini çalıştırın:
Ortam değişkenini
SPARK_REMOTE
ayarladıysanız aşağıdaki komutu çalıştırın:pyspark
Ortam değişkenini
SPARK_REMOTE
ayarlamadıysanız, bunun yerine aşağıdaki komutu çalıştırın:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
Spark kabuğu görüntülenir, örneğin:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Şimdi gibi spark.range(1,10).show()
basit bir PySpark komutu çalıştırın. Hata yoksa başarıyla bağlandınız.
İşleminizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Analiz'e bakın.
Çalışan kümenizde öğesini temsil etmek için yerleşik
spark
değişkeniniSparkSession
kullanın, örneğin:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.
Spark kabuğunu durdurmak için veya tuşuna basın
Ctrl + d
ya da komutunuquit()
veyaexit()
komutunu çalıştırın.Ctrl + z