Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Not
Bu makale Databricks Runtime 14.0 ve üzeri için Databricks Connect'i kapsar.
Python için Databricks Connect, Databricks Connect'i kullanmak üzere yapılandırılmış bir PySpark REPL (Spark kabuğu) ikili dosyasıyla birlikte pyspark sağlanır.
Kabuğu başlat
Spark kabuğunu başlatmak ve çalışan kümenize bağlamak için, etkinleştirilmiş Python sanal ortamınızdan aşağıdaki komutu çalıştırın.
Not
Ek parametre olmadan başlatıldığında kabuk, Azure Databricks kümesine bağlanmak için ortamdan DATABRICKS_ (örneğin, ortam değişkenleri veya DEFAULT yapılandırma profili) varsayılan kimlik bilgilerini alır. Bağlantı yapılandırma hakkında bilgi için bkz. Databricks Connect için işlem yapılandırması.
pyspark
Spark kabuğu görüntülenir, örneğin:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Kabuk başlatıldıktan sonra spark nesnesi, Databricks kümesinde Apache Spark komutlarını çalıştırmak için kullanılabilir. gibi spark.range(1,10).show()basit bir PySpark komutu çalıştırın. Hata yoksa başarıyla bağlandınız.
Kabuk kullan
İşleminizde komut çalıştırmak için Spark kabuğunu Python ile kullanma hakkında bilgi için Spark Shell ile Etkileşimli Analiz'e bakın.
Çalışan kümenizde öğesini temsil etmek için yerleşik spark değişkenini SparkSession kullanın, örneğin:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Tüm Python kodu yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm PySpark kodu uzak Azure Databricks çalışma alanında küme üzerinde çalışır ve çalıştırma yanıtları yerel arayana geri gönderilir.
Kabuğu durdurma
Spark kabuğunu durdurmak için veya tuşuna basın Ctrl + d ya da komutunu Ctrl + z veya quit()komutunu çalıştırın.exit()