Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Catatan
Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.
Databricks Connect adalah pustaka klien untuk Databricks Runtime yang memungkinkan Anda terhubung ke komputasi Azure Databricks dari IDE seperti Visual Studio Code, PyCharm, dan IntelliJ IDEA, notebook, dan aplikasi kustom apa pun, untuk menghadirkan pengalaman pengguna interaktif baru yang berbasis pada Azure Databricks Lakehouse Anda.
Databricks Connect tersedia untuk bahasa berikut:
Apa yang bisa saya lakukan dengan Databricks Connect?
Dengan menggunakan Databricks Connect, Anda dapat menulis kode menggunakan API Spark dan menjalankannya dari jarak jauh pada komputasi Azure Databricks alih-alih dalam sesi Spark lokal.
Mengembangkan dan men-debug secara interaktif dari IDE apa pun. Databricks Connect memungkinkan pengembang untuk mengembangkan dan melakukan debug kode mereka pada komputasi Databricks menggunakan fungsionalitas native menjalankan dan debug yang ada di IDE mana pun. Ekstensi Visual Studio Code Databricks menggunakan Databricks Connect untuk menyediakan debugging bawaan kode pengguna di Databricks.
Membangun aplikasi data interaktif. Sama seperti driver JDBC, pustaka Databricks Connect dapat disematkan dalam aplikasi apa pun untuk berinteraksi dengan Databricks. Databricks Connect memberikan ekspresivitas penuh dari Python melalui PySpark, menghilangkan ketidakcocokan bahasa pemrograman SQL, dan memungkinkan Anda menjalankan semua transformasi data dengan Spark pada komputasi Databricks yang dapat diskalakan tanpa server.
Bagaimana cara kerjanya?
Databricks Connect dibangun di Spark Connect sumber terbuka, yang memiliki arsitektur server klien yang dipisahkan untuk Apache Spark yang memungkinkan konektivitas jarak jauh ke kluster Spark menggunakan API DataFrame. Protokol yang mendasar menggunakan rencana logis Spark yang tidak terselesaikan dan Apache Arrow di atas gRPC. API klien dirancang agar tipis, sehingga dapat disematkan di mana-mana: di server aplikasi, IDEs, notebook, dan bahasa pemrograman.
- Kode Umum berjalan secara lokal: Kode Python dan Scala berjalan di sisi klien, memungkinkan debugging interaktif. Semua kode dijalankan secara lokal, sementara semua kode Spark terus berjalan pada kluster jarak jauh.
-
API DataFrame dijalankan pada komputasi Databricks. Semua transformasi data diterjemahkan ke rencana Spark dan dijalankan pada lingkungan komputasi Databricks melalui sesi Spark remote. Mereka diwujudkan pada klien lokal Anda ketika Anda menggunakan perintah seperti
collect(), ,show()toPandas(). -
Kode UDF berjalan pada komputasi Databricks: UDF yang ditentukan secara lokal diserialisasikan dan ditransmisikan ke kluster tempatnya berjalan. API yang menjalankan kode pengguna di Databricks meliputi: UDF, ,
foreachforeachBatch, dantransformWithState. - Untuk manajemen ketergantungan:
- Instal dependensi aplikasi pada komputer lokal Anda. Ini berjalan secara lokal dan perlu diinstal sebagai bagian dari proyek Anda, seperti bagian dari lingkungan virtual Python Anda.
- Pasang dependensi UDF pada Databricks. Lihat Mengelola dependensi UDF.
Bagaimana hubungan Databricks Connect dan Spark Connect?
Spark Connect adalah protokol berbasis gRPC sumber terbuka dalam Apache Spark yang memungkinkan eksekusi jarak jauh beban kerja Spark menggunakan API DataFrame.
Untuk Databricks Runtime 13.3 LTS ke atas, Databricks Connect adalah ekstensi Spark Connect dengan penambahan dan modifikasi untuk mendukung bekerja dengan mode komputasi Databricks dan Unity Catalog.
Langkah berikutnya
Lihat tutorial berikut untuk mulai mengembangkan solusi Databricks Connect dengan cepat:
- Databricks Connect untuk tutorial komputasi klasik Python
- Databricks Connect untuk tutorial komputasi tanpa server Python
- Tutorial komputasi klasik Databricks Connect for Scala
- Tutorial komputasi tanpa server Databricks Connect for Scala
- Tutorial Databricks Connect for R
Untuk melihat contoh aplikasi yang menggunakan Databricks Connect, lihat repositori contoh GitHub, yang mencakup contoh berikut: