Jalankan dan debug sel notebook dengan Databricks Connect menggunakan ekstensi Databricks untuk Visual Studio Code

Anda dapat menjalankan dan men-debug buku catatan, satu sel sekaligus, atau semua sel sekaligus, dan melihat hasilnya di UI Visual Studio Code menggunakan ekstensi Databricks untuk integrasi Visual Studio Code Databricks Connect. Semua kode berjalan secara lokal, sementara semua kode yang melibatkan operasi DataFrame berjalan pada kluster di ruang kerja Azure Databricks jarak jauh dan respons eksekusi dikirim kembali ke pemanggil lokal. Semua kode di-debug secara lokal, sementara semua kode Spark terus berjalan pada kluster di ruang kerja Azure Databricks jarak jauh. Kode mesin Spark inti tidak dapat di-debug langsung dari klien.

Catatan

Fitur ini berfungsi dengan Databricks Runtime 13.3 ke atas.

Untuk mengaktifkan integrasi Databricks Connect untuk notebook di ekstensi Databricks untuk Visual Studio Code, Anda harus menginstal Databricks Connect di ekstensi Databricks untuk Visual Studio Code. Lihat Kode debug menggunakan Databricks Connect untuk ekstensi Databricks untuk Visual Studio Code.

Menjalankan sel buku catatan Python

Untuk buku catatan dengan nama file yang memiliki ekstensi .py, saat Anda membuka buku catatan di IDE Visual Studio Code, setiap sel menampilkan tombol Jalankan Sel, tombol Jalankan Di Atas, dan tombol Debug Sel. Saat Anda menjalankan sel, hasilnya diperlihatkan di tab terpisah di IDE. Saat Anda men-debug, sel yang sedang di-debug menampilkan tombol Lanjutkan, Hentikan, dan Langkah Di Atas . Saat melakukan debugging sel, Anda dapat menggunakan fitur penelusuran kesalahan di Visual Studio Code seperti mengamati status variabel dan melihat tumpukan panggilan serta konsol penelusuran kesalahan.

Untuk buku catatan dengan nama file yang memiliki .ipynb ekstensi, saat Anda membuka buku catatan di IDE Visual Studio Code, buku catatan dan selnya berisi fitur tambahan. Lihat Menjalankan sel dan Bekerja dengan sel kode di Buku Catatan Pengedit.

Untuk informasi selengkapnya tentang format buku catatan untuk nama file dengan .py ekstensi dan .ipynb , lihat Mengimpor dan mengekspor buku catatan Databricks.

Menjalankan sel buku catatan Python Jupyter

Untuk menjalankan atau men-debug buku catatan Python Jupyter (.ipynb):

  1. Di proyek Anda, buka buku catatan Python Jupyter yang ingin Anda jalankan atau debug. Pastikan file Python dalam format notebook Jupyter dan memiliki ekstensi .ipynb.

    Petunjuk / Saran

    Anda bisa membuat notebook Python Jupyter baru dengan menjalankan perintah >Buat: Notebook Jupyter Baru dari dalam Command Palette.

  2. Klik Jalankan Semua Sel untuk menjalankan semua sel tanpa debugging, Eksekusi Sel untuk menjalankan sel individual terkait tanpa debugging, atau Jalankan per Baris untuk menjalankan sel per baris dengan debugging terbatas, dengan nilai variabel yang ditampilkan di panel Jupyter (Tampilan > Buka Tampilan > Jupyter).

    Untuk debugging penuh dalam sel individual, atur titik henti, lalu klik Debug Sel di menu di samping tombol Jalankan pada sel.

    Setelah Anda mengklik salah satu opsi ini, Anda mungkin diminta untuk menginstal dependensi paket notebook Python Jupyter yang hilang. Klik untuk menginstal.

    Untuk informasi selengkapnya, lihat Jupyter Notebooks di Visual Studio Code.

Variabel global pada notebook

Notebook global berikut ini juga diaktifkan:

  • spark, yang mewakili instans databricks.connect.DatabricksSession, telah dikonfigurasi sebelumnya untuk menginisialisasi instans DatabricksSession dengan mendapatkan kredensial autentikasi Azure Databricks dari ekstensi. Jika DatabricksSession sudah dibuat dalam kode sel buku catatan, pengaturan ini DatabricksSession digunakan sebagai gantinya. Lihat Contoh kode untuk Databricks Connect untuk Python.

  • udf, telah dikonfigurasi sebelumnya sebagai alias untuk pyspark.sql.functions.udf, yang merupakan alias untuk UDF Python. Lihat pyspark.sql.functions.udf.

  • sql, telah dikonfigurasi sebelumnya sebagai alias untuk spark.sql. spark, seperti yang dijelaskan sebelumnya, mewakili instans yang telah dikonfigurasi sebelumnya dari databricks.connect.DatabricksSession. Lihat Spark SQL.

  • dbutils, dikonfigurasi sebelumnya sebagai instance Utilitas Databricks, yang diimpor dari databricks-sdk dan diinisialisasi dengan mendapatkan kredensial autentikasi Azure Databricks dari ekstensi. Lihat Gunakan Utilitas Databricks.

    Catatan

    Hanya sebagian Utilitas Databricks yang didukung untuk notebook yang menggunakan Databricks Connect.

    Untuk mengaktifkan dbutils.widgets, Anda harus terlebih dahulu menginstal Databricks SDK untuk Python dengan menjalankan perintah berikut di terminal komputer pengembangan lokal Anda:

    pip install 'databricks-sdk[notebook]'
    
  • display, telah dikonfigurasi sebelumnya sebagai alias untuk bawaan Jupyter IPython.display.display. Lihat IPython.display.display.

  • displayHTML, telah dikonfigurasi sebelumnya sebagai alias untuk dbruntime.display.displayHTML, yang merupakan alias untuk display.HTML dari ipython. Lihat IPython.display.html.

Sihir buku catatan

Sihir notebook berikut ini juga diaktifkan:

  • %fs, yang sama dengan melakukan panggilan dbutils.fs. Lihat Mencampur bahasa.

  • %sh, yang menjalankan perintah dengan menggunakan cell magic %%script pada komputer lokal. Ini tidak menjalankan perintah di ruang kerja Azure Databricks jarak jauh. Lihat Mencampur bahasa.

  • %md dan %md-sandbox, yang menjalankan magic cell %%markdown. Lihat Mencampur bahasa.

  • %sql, yang menjalankan spark.sql. Lihat Mencampur bahasa.

  • %pip, yang berjalan pip install pada komputer lokal. Ini tidak dijalankan pip install di ruang kerja Azure Databricks yang terletak jauh. Lihat Mengelola pustaka dengan %pip perintah.

  • %run, yang menjalankan buku catatan lain. Lihat Mengatur buku catatan dan memodulasi kode di notebook.

    Catatan

    Untuk mengaktifkan %run, Anda harus terlebih dahulu menginstal pustaka nbformat dengan menjalankan perintah berikut di terminal komputer pengembangan lokal Anda:

    pip install nbformat
    

Fitur tambahan yang diaktifkan meliputi:

  • Spark DataFrames dikonversi ke Pandas DataFrames, yang ditampilkan dalam format tabel Jupyter.

Batasan

Pembatasan penggunaan sel dalam buku catatan di Visual Studio Code meliputi:

  • Perintah sihir pada notebook %r dan %scala tidak didukung dan menampilkan kesalahan ketika dijalankan. Lihat Mencampur bahasa.
  • Notebook magic %sql tidak mendukung beberapa perintah DML, seperti Tampilkan Tabel.