Bagikan melalui


Shell PySpark

Catatan

Artikel ini membahas Databricks Connect untuk Databricks Runtime 14.0 ke atas.

Databricks Connect untuk Python disertakan dengan pyspark biner yang merupakan REPL PySpark (shell Spark) yang dikonfigurasi untuk menggunakan Databricks Connect.

Mulai shell

Untuk memulai shell Spark dan menyambungkannya ke kluster yang sedang berjalan, jalankan perintah berikut dari lingkungan virtual Python yang diaktifkan.

Catatan

Ketika dimulai tanpa parameter tambahan, shell mengambil kredensial default dari lingkungan (misalnya, DATABRICKS_ variabel lingkungan atau DEFAULT profil konfigurasi) untuk terhubung ke kluster Azure Databricks. Untuk informasi tentang mengonfigurasi koneksi, lihat Konfigurasi komputasi untuk Databricks Connect.

pyspark

Shell Spark muncul, misalnya:

Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
      ____              __
      / __/__  ___ _____/ /__
   _\ \/ _ \/ _ `/ __/  '_/
   /__ / .__/\_,_/_/ /_/\_\   version 13.x.dev0
      /_/

Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>

Setelah shell dimulai, spark objek tersedia untuk menjalankan perintah Apache Spark pada kluster Databricks. Jalankan perintah PySpark sederhana, seperti spark.range(1,10).show(). Jika tidak ada kesalahan, Anda berhasil tersambung.

Gunakan shell

Lihat Analisis Interaktif dengan Spark Shell untuk informasi tentang cara menggunakan shell Spark dengan Python untuk menjalankan perintah pada komputasi Anda.

Gunakan variabel bawaan spark untuk mewakili SparkSession pada kluster yang sedang berjalan, misalnya:

>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13|  2016-02-14 17:16:04|         4.94|       19.0|     10282|      10171|
| 2016-02-04 18:44:19|  2016-02-04 18:46:00|         0.28|        3.5|     10110|      10110|
| 2016-02-17 17:13:57|  2016-02-17 17:17:55|          0.7|        5.0|     10103|      10023|
| 2016-02-18 10:36:07|  2016-02-18 10:41:45|          0.8|        6.0|     10022|      10017|
| 2016-02-22 14:14:41|  2016-02-22 14:31:52|         4.51|       17.0|     10110|      10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows

Semua kode Python berjalan secara lokal, sementara semua kode PySpark yang melibatkan operasi DataFrame berjalan pada kluster di ruang kerja Azure Databricks jarak jauh dan respons eksekusi dikirim kembali ke pemanggil lokal.

Hentikan shell

Untuk menghentikan shell Spark, tekan Ctrl + d atau Ctrl + z, atau jalankan perintah quit() atau exit().