Aracılığıyla paylaş


PySpark kabuğu

Not

Bu makale Databricks Runtime 14.0 ve üzeri için Databricks Connect'i kapsar.

Python için Databricks Connect, Databricks Connect'i kullanmak üzere yapılandırılmış bir PySpark REPL (Spark kabuğu) ikili dosyasıyla birlikte pyspark sağlanır.

Kabuğu başlat

Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutu çalıştırın.

Not

Ek parametre olmadan başlatıldığında kabuk, Azure Databricks kümesine bağlanmak için ortamdan DATABRICKS_ (örneğin, ortam değişkenleri veya DEFAULT yapılandırma profili) varsayılan kimlik bilgilerini alır. Bağlantı yapılandırma hakkında bilgi için bkz. Databricks Connect için işlem yapılandırması.

pyspark

Spark kabuğu görüntülenir, örneğin:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Kabuk başlatıldıktan sonra spark nesnesi, Databricks kümesinde Apache Spark komutlarını çalıştırmak için kullanılabilir. gibi spark.range(1,10).show()basit bir PySpark komutu çalıştırın. Hata yoksa başarıyla bağlandınız.

Kabuk kullan

İşleminizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Analiz'e bakın.

Çalışan kümenizde öğesini temsil etmek için yerleşik spark değişkenini SparkSession kullanın, örneğin:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.

Kabuğu durdurma

Spark kabuğunu durdurmak için veya tuşuna basın Ctrl + d ya da komutunu Ctrl + z veya quit()komutunu çalıştırın.exit()