Bagikan melalui


Dukungan Databricks Connect di notebook Databricks

Nota

Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.

Databricks Connect memungkinkan Anda terhubung ke komputasi Databricks dari lingkungan pengembangan lokal di luar Databricks. Anda kemudian dapat mengembangkan, men-debug, dan menguji kode Anda langsung dari IDE Anda sebelum memindahkan kode Anda ke buku catatan atau pekerjaan di Databricks. Lihat Apa itu Databricks Connect?.

Portabilitas

Untuk memastikan transisi dari pengembangan lokal ke penyebaran di Databricks berlangsung dengan mulus, semua API Databricks Connect dapat diakses melalui buku catatan Databricks sebagai bagian dari Databricks Runtime. Ini memungkinkan Anda menjalankan kode Anda di buku catatan Databricks tanpa perubahan apa pun pada kode Anda.

Perilaku sesi Databricks

Perilaku DatabricksSession sedikit berbeda saat menggunakan Databricks Connect di lingkungan pengembangan lokal dan di notebook dan pekerjaan di ruang kerja Databricks.

Perilaku lingkungan pengembangan lokal

Saat menjalankan kode secara lokal dalam IDE di luar Databricks, DatabricksSession.builder.getOrCreate() mendapatkan sesi Spark yang ada untuk konfigurasi yang disediakan jika ada, atau membuat sesi Spark baru jika tidak ada. DatabricksSession.builder.create() selalu membuat sesi Spark baru. Parameter koneksi seperti host, token, dan cluster_id diisi baik dari kode sumber, variabel lingkungan, atau file profil konfigurasi .databrickscfg.

Dengan kata lain, saat dijalankan menggunakan Databricks Connect, kode berikut membuat dua sesi terpisah:

spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()

Perilaku ruang kerja Databricks

Saat menjalankan kode di notebook atau pekerjaan di ruang kerja Databricks, DatabricksSession.builder.getOrCreate() mengembalikan sesi Spark default (juga dapat diakses melalui variabel spark) saat digunakan tanpa konfigurasi tambahan. Variabel spark telah dikonfigurasi sebelumnya untuk menyambungkan ke instans komputasi tempat buku catatan atau pekerjaan dilampirkan. Sesi Spark baru dibuat jika parameter koneksi tambahan diatur, misalnya, dengan menggunakan DatabricksSession.builder.clusterId(...).getOrCreate() atau DatabricksSession.builder.serverless().getOrCreate().

DatabricksSession.builder.create() memerlukan parameter koneksi eksplisit di notebook, seperti DatabricksSession.builder.clusterId(...).create(), jika tidak, parameter tersebut mengembalikan kesalahan [UNSUPPORTED].

Dimungkinkan untuk menggunakan Databricks Connect untuk menyambungkan ke proses komputasi Databricks yang tidak terhubung dengan notebook atau pekerjaan, dengan menggunakan remote()yang memerlukan konfigurasi kwargs atau metode konfigurasi individual, seperti host() atau token(). Dalam kasus ini, sesi baru dibuat untuk komputasi yang disebutkan, serupa dengan saat digunakan di luar buku catatan atau tugas Databricks.

Nota

Untuk notebook yang berjalan pada komputasi tanpa server, secara bawaan waktu untuk menjalankan kueri habis setelah 9000 detik. Anda dapat menyesuaikan ini dengan mengatur properti konfigurasi Spark spark.databricks.execution.timeout. Lihat Mengatur properti konfigurasi Spark di Azure Databricks.