Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Catatan
Artikel ini membahas Databricks Connect untuk Databricks Runtime 14.0 ke atas.
Databricks Connect untuk Python disertakan dengan pyspark biner yang merupakan REPL PySpark (shell Spark) yang dikonfigurasi untuk menggunakan Databricks Connect.
Mulai shell
Untuk memulai shell Spark dan menyambungkannya ke kluster yang sedang berjalan, jalankan perintah berikut dari lingkungan virtual Python yang diaktifkan.
Catatan
Ketika dimulai tanpa parameter tambahan, shell mengambil kredensial default dari lingkungan (misalnya, DATABRICKS_ variabel lingkungan atau DEFAULT profil konfigurasi) untuk terhubung ke kluster Azure Databricks. Untuk informasi tentang mengonfigurasi koneksi, lihat Konfigurasi komputasi untuk Databricks Connect.
pyspark
Shell Spark muncul, misalnya:
Python 3.10 ...
[Clang ...] on darwin
Type "help", "copyright", "credits" or "license" for more information.
Welcome to
____ __
/ __/__ ___ _____/ /__
_\ \/ _ \/ _ `/ __/ '_/
/__ / .__/\_,_/_/ /_/\_\ version 13.x.dev0
/_/
Using Python version 3.10 ...
Client connected to the Spark Connect server at sc://...:.../;token=...;x-databricks-cluster-id=...
SparkSession available as 'spark'.
>>>
Setelah shell dimulai, spark objek tersedia untuk menjalankan perintah Apache Spark pada kluster Databricks. Jalankan perintah PySpark sederhana, seperti spark.range(1,10).show(). Jika tidak ada kesalahan, Anda berhasil tersambung.
Gunakan shell
Lihat Analisis Interaktif dengan Spark Shell untuk informasi tentang cara menggunakan shell Spark dengan Python untuk menjalankan perintah pada komputasi Anda.
Gunakan variabel bawaan spark untuk mewakili SparkSession pada kluster yang sedang berjalan, misalnya:
>>> df = spark.read.table("samples.nyctaxi.trips")
>>> df.show(5)
+--------------------+---------------------+-------------+-----------+----------+-----------+
|tpep_pickup_datetime|tpep_dropoff_datetime|trip_distance|fare_amount|pickup_zip|dropoff_zip|
+--------------------+---------------------+-------------+-----------+----------+-----------+
| 2016-02-14 16:52:13| 2016-02-14 17:16:04| 4.94| 19.0| 10282| 10171|
| 2016-02-04 18:44:19| 2016-02-04 18:46:00| 0.28| 3.5| 10110| 10110|
| 2016-02-17 17:13:57| 2016-02-17 17:17:55| 0.7| 5.0| 10103| 10023|
| 2016-02-18 10:36:07| 2016-02-18 10:41:45| 0.8| 6.0| 10022| 10017|
| 2016-02-22 14:14:41| 2016-02-22 14:31:52| 4.51| 17.0| 10110| 10282|
+--------------------+---------------------+-------------+-----------+----------+-----------+
only showing top 5 rows
Semua kode Python berjalan secara lokal, sementara semua kode PySpark yang melibatkan operasi DataFrame berjalan pada kluster di ruang kerja Azure Databricks jarak jauh dan respons eksekusi dikirim kembali ke pemanggil lokal.
Hentikan shell
Untuk menghentikan shell Spark, tekan Ctrl + d atau Ctrl + z, atau jalankan perintah quit() atau exit().