Python için Databricks Bağlan ile Spark kabuğunu kullanma
Dekont
Bu makalede Databricks Runtime 13.0 ve üzeri için Databricks Bağlan yer alır.
Bu makalede Python ve Spark kabuğu için Databricks Bağlan nasıl kullanılacağı anlatılmıştır. Databricks Bağlan, popüler uygulamaları Azure Databricks kümelerine bağlamanızı sağlar. Bkz. Databricks Bağlan nedir?.
Dekont
Databricks Bağlan kullanmaya başlamadan önce Databricks Bağlan istemcisini ayarlamanız gerekir.
Spark kabuğu yalnızca Azure Databricks kişisel erişim belirteci kimlik doğrulamasıyla çalışır.
Databricks Bağlan Spark kabuğu ve Python ile kullanmak için bu yönergeleri izleyin.
Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutlardan birini çalıştırın:
Ortam değişkenini
SPARK_REMOTE
daha önce ayarlarsanız aşağıdaki komutu çalıştırın:pyspark
Ortam değişkenini
SPARK_REMOTE
daha önce ayarlamadıysanız, bunun yerine aşağıdaki komutu çalıştırın:pyspark --remote "sc://<workspace-instance-name>:443/;token=<access-token-value>;x-databricks-cluster-id=<cluster-id>"
Spark kabuğu görüntülenir, örneğin:
Python 3.10 ... [Clang ...] on darwin Type "help", "copyright", "credits" or "license" for more information. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0 /_/ Using Python version 3.10 ... Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=... SparkSession available as 'spark'. >>>
Kümenizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Çözümleme bölümüne bakın.
Çalışan kümenizde öğesini temsil etmek için yerleşik
spark
değişkeniniSparkSession
kullanın, örneğin:>>> df = spark.read.table("samples.nyctaxi.trips") >>> df.show(5) +--------------------+---------------------+-------------+-----------+----------+-----------+ |tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip| +--------------------+---------------------+-------------+-----------+----------+-----------+ | 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171| | 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110| | 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023| | 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017| | 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282| +--------------------+---------------------+-------------+-----------+----------+-----------+ only showing top 5 rows
Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.
Spark kabuğunu durdurmak için veya tuşuna basın
Ctrl + d
ya da komutunuquit()
veyaexit()
komutunu çalıştırın.Ctrl + z