Bagikan melalui


Apa itu Databricks Connect?

Catatan

Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.

Untuk informasi tentang versi lama Databricks Connect, lihat Databricks Connect untuk Databricks Runtime 12.2 LTS dan versi di bawahnya.

Databricks Connect adalah pustaka klien untuk Databricks Runtime yang memungkinkan Anda terhubung ke komputasi Azure Databricks dari IDE seperti Visual Studio Code, PyCharm, dan IntelliJ IDEA, notebook dan aplikasi kustom apa pun, untuk mengaktifkan pengalaman pengguna interaktif baru berdasarkan Azure Databricks Lakehouse Anda.

Databricks Connect tersedia untuk bahasa berikut:

Apa yang bisa saya lakukan dengan Databricks Connect?

Dengan menggunakan Databricks Connect, Anda dapat menulis kode menggunakan API Spark dan menjalankannya dari jarak jauh di komputasi Azure Databricks alih-alih dalam sesi Spark lokal.

  • Mengembangkan dan men-debug secara interaktif dari IDE apa pun. Databricks Connect memungkinkan pengembang untuk mengembangkan dan melakukan debug kode mereka pada komputasi Databricks menggunakan fungsionalitas native menjalankan dan debug yang ada di IDE mana pun. Ekstensi Databricks Visual Studio Code menggunakan Databricks Connect untuk menyediakan debugging kode pengguna terintegrasi di Databricks.

  • Membangun aplikasi data interaktif. Sama seperti driver JDBC, pustaka Databricks Connect dapat disematkan dalam aplikasi apa pun untuk berinteraksi dengan Databricks. Databricks Connect memberikan ekspresi penuh Python melalui PySpark, menghilangkan ketidakcocokan impedansi bahasa pemrograman SQL dan memungkinkan Anda menjalankan semua transformasi data dengan Spark pada komputasi yang dapat diskalakan tanpa server Databricks.

Bagaimana cara kerjanya?

Databricks Connect dibangun di Spark Connect sumber terbuka, yang memiliki arsitektur server klien yang dipisahkan untuk Apache Spark yang memungkinkan konektivitas jarak jauh ke kluster Spark menggunakan API DataFrame. Protokol yang mendasar menggunakan rencana logis Spark yang tidak terselesaikan dan Apache Arrow di atas gRPC. API klien dirancang agar tipis, sehingga dapat disematkan di mana-mana: di server aplikasi, IDEs, notebook, dan bahasa pemrograman.

Tempat kode Databricks Connect berjalan

  • Kode umum berjalan secara lokal: Kode Python dan Scala berjalan di sisi klien, memungkinkan penelusuran kesalahan interaktif. Semua kode dijalankan secara lokal, sementara semua kode Spark terus berjalan pada kluster jarak jauh.
  • API DataFrame dijalankan pada komputasi Databricks. Semua transformasi data diterjemahkan ke rencana Spark dan dijalankan pada lingkungan komputasi Databricks melalui sesi Spark remote. Mereka diwujudkan pada klien lokal Anda ketika Anda menggunakan perintah seperti collect(), , show()toPandas().
  • Kode UDF berjalan pada komputasi Databricks: UDF yang ditentukan secara lokal diserialisasikan dan ditransmisikan ke kluster tempatnya berjalan. API yang menjalankan kode pengguna di Databricks meliputi: UDF, , foreachforeachBatch, dan transformWithState.
  • Untuk manajemen ketergantungan:
    • Instal dependensi aplikasi pada komputer lokal Anda. Ini berjalan secara lokal dan perlu diinstal sebagai bagian dari proyek Anda, seperti bagian dari lingkungan virtual Python Anda.
    • Pasang dependensi UDF pada Databricks. Lihat UDF dengan ketergantungan.

Spark Connect adalah protokol berbasis gRPC sumber terbuka dalam Apache Spark yang memungkinkan eksekusi jarak jauh beban kerja Spark menggunakan API DataFrame.

Untuk Databricks Runtime 13.3 LTS ke atas, Databricks Connect adalah ekstensi Spark Connect dengan penambahan dan modifikasi untuk mendukung bekerja dengan mode komputasi Databricks dan Unity Catalog.

Langkah berikutnya

Lihat tutorial berikut untuk mulai mengembangkan solusi Databricks Connect dengan cepat:

Untuk melihat contoh aplikasi yang menggunakan Databricks Connect, lihat repositori contoh GitHub, yang mencakup contoh berikut: