Databricks Connect untuk Python
Catatan
Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.
Artikel ini menunjukkan cara memulai Databricks Connect dengan cepat menggunakan Python dan PyCharm.
- Untuk versi R artikel ini, lihat Databricks Connect untuk R.
- Untuk versi Scala artikel ini, lihat Databricks Connect for Scala.
Databricks Connect memungkinkan Anda menyambungkan ID populer seperti PyCharm, server notebook, dan aplikasi kustom lainnya ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?.
Tutorial
Untuk melewati tutorial ini dan menggunakan IDE yang berbeda, lihat Langkah berikutnya.
Persyaratan
Untuk menyelesaikan tutorial ini, Anda harus memenuhi persyaratan berikut:
- Ruang kerja Azure Databricks target Anda harus mengaktifkan Unity Catalog.
- Anda telah menginstal PyCharm . Tutorial ini diuji dengan PyCharm Community Edition 2023.3.5. Jika Anda menggunakan versi atau edisi PyCharm yang berbeda, instruksi berikut mungkin bervariasi.
- Komputasi Anda memenuhi persyaratan penginstalan Databricks Connect for Python.
- Jika Anda menggunakan komputasi klasik, Anda akan memerlukan ID kluster. Untuk mendapatkan ID kluster Anda, di ruang kerja Anda, klik Komputasi di bar samping, lalu klik nama kluster Anda. Di bilah alamat browser web Anda, salin string karakter antara
clusters
danconfiguration
di URL.
Langkah 1: Mengonfigurasi autentikasi Azure Databricks
Tutorial ini menggunakan autentikasi pengguna-ke-mesin (U2M) Azure Databricks OAuth dan profil konfigurasi Azure Databricks untuk mengautentikasi ke ruang kerja Azure Databricks Anda. Untuk menggunakan jenis autentikasi yang berbeda, lihat Mengonfigurasi properti koneksi.
Mengonfigurasi autentikasi OAuth U2M memerlukan Databricks CLI. Untuk informasi tentang menginstal Databricks CLI, lihat Menginstal atau memperbarui Databricks CLI.
Mulai autentikasi OAuth U2M, sebagai berikut:
Gunakan Databricks CLI untuk memulai manajemen token OAuth secara lokal dengan menjalankan perintah berikut untuk setiap ruang kerja target.
Dalam perintah berikut, ganti
<workspace-url>
dengan URL per ruang kerja Azure Databricks Anda, misalnyahttps://adb-1234567890123456.7.azuredatabricks.net
.databricks auth login --configure-cluster --host <workspace-url>
Atau, jika Anda ingin menggunakan komputasi Tanpa Server Databricks dengan DB Connect, ikuti langkah-langkah di Mengonfigurasi koneksi ke komputasi tanpa server.
Databricks CLI meminta Anda untuk menyimpan informasi yang Anda masukkan sebagai profil konfigurasi Azure Databricks. Tekan
Enter
untuk menerima nama profil yang disarankan, atau masukkan nama profil baru atau yang sudah ada. Profil yang ada dengan nama yang sama ditimpa dengan informasi yang Anda masukkan. Anda dapat menggunakan profil untuk mengalihkan konteks autentikasi dengan cepat di beberapa ruang kerja.Untuk mendapatkan daftar profil yang ada, di terminal atau prompt perintah terpisah, gunakan Databricks CLI untuk menjalankan perintah
databricks auth profiles
. Untuk melihat pengaturan profil tertentu yang sudah ada, jalankan perintahdatabricks auth env --profile <profile-name>
.Di browser web Anda, selesaikan instruksi di layar untuk masuk ke ruang kerja Azure Databricks Anda.
Dalam daftar kluster yang tersedia yang muncul di terminal atau prompt perintah Anda, gunakan tombol panah atas dan panah bawah Anda untuk memilih kluster Azure Databricks target di ruang kerja Anda, lalu tekan
Enter
. Anda juga dapat mengetik bagian mana pun dari nama tampilan kluster untuk memfilter daftar kluster yang tersedia.Untuk melihat nilai token OAuth profil saat ini dan tanda waktu kedaluwarsa token yang akan datang, jalankan salah satu perintah berikut:
databricks auth token --host <workspace-url>
databricks auth token -p <profile-name>
databricks auth token --host <workspace-url> -p <profile-name>
Jika Anda memiliki beberapa profil dengan nilai yang sama
--host
, Anda mungkin perlu menentukan--host
opsi dan-p
bersama-sama untuk membantu Databricks CLI menemukan informasi token OAuth yang cocok dengan benar.
Langkah 2: Membuat proyek
- Mulai PyCharm.
- Pada menu utama, klik File > Proyek Baru.
- Dalam dialog Proyek Baru, klik Python Murni.
- Untuk Lokasi, klik ikon folder, dan selesaikan petunjuk arah di layar untuk menentukan jalur ke proyek Python baru Anda.
- Biarkan Buat skrip selamat datang main.py dipilih.
- Untuk Jenis penerjemah, klik Proyek venv.
- Perluas versi Python, dan gunakan ikon folder atau daftar drop-down untuk menentukan jalur ke penerjemah Python dari persyaratan sebelumnya.
- Klik Buat.
Langkah 3: Tambahkan paket Databricks Connect
- Pada menu utama PyCharm, klik Tampilkan Alat Windows > Python Packages>.
- Di kotak pencarian, masukkan
databricks-connect
. - Di daftar repositori PyPI, klik databricks-connect.
- Di daftar drop-down terbaru panel hasil, pilih versi yang cocok dengan versi Databricks Runtime kluster Anda. Misalnya, jika kluster Anda menginstal Databricks Runtime 14.3, pilih 14.3.1.
- Klik Instal paket.
- Setelah paket diinstal, Anda dapat menutup jendela Paket Python.
Langkah 4: Tambahkan kode
Di jendela Alat proyek, klik kanan folder akar proyek, dan klik File Python Baru>.
Masukkan
main.py
dan klik dua kali file Python.Masukkan kode berikut ke dalam file lalu simpan file, tergantung pada nama profil konfigurasi Anda.
Jika profil konfigurasi Anda dari Langkah 1 diberi nama
DEFAULT
, masukkan kode berikut ke dalam file, lalu simpan file:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Jika profil konfigurasi Anda dari Langkah 1 tidak bernama
DEFAULT
, masukkan kode berikut ke dalam file sebagai gantinya. Ganti tempat penampung<profile-name>
dengan nama profil konfigurasi Anda dari Langkah 1, lalu simpan file:from databricks.connect import DatabricksSession spark = DatabricksSession.builder.profile("<profile-name>").getOrCreate() df = spark.read.table("samples.nyctaxi.trips") df.show(5)
Langkah 5: Jalankan kode
- Mulai kluster target di ruang kerja Azure Databricks jarak jauh Anda.
- Setelah kluster dimulai, pada menu utama, klik Jalankan Jalankan > 'main'.
- Di jendela Jalankan alat (Tampilkan > Alat Windows > Run), di panel utama tab Jalankan, 5 baris
samples.nyctaxi.trips
pertama muncul.
Langkah 6: Debug kode
- Dengan kluster yang masih berjalan, dalam kode sebelumnya, klik gutter di samping
df.show(5)
untuk mengatur titik henti. - Pada menu utama, klik Jalankan > Debug 'main'.
- Di jendela alat Debug (Lihat > Alat Windows > Debug), di panel Variabel tab Debugger, perluas simpul variabel df dan spark untuk menelusuri informasi tentang kode
df
danspark
variabel. - Di bilah samping jendela alat Debug , klik ikon panah hijau (Lanjutkan Program).
- Di panel Konsol tab Debugger, 5 baris
samples.nyctaxi.trips
pertama muncul.
Langkah berikutnya
Untuk mempelajari selengkapnya tentang Databricks Connect, lihat artikel seperti berikut ini:
Untuk menggunakan jenis autentikasi Azure Databricks selain token akses pribadi Azure Databricks, lihat Mengonfigurasi properti koneksi.
Untuk menggunakan ID Lain, server notebook, dan shell Spark, lihat yang berikut ini:
Untuk melihat contoh kode sederhana tambahan, lihat Contoh kode untuk Databricks Connect for Python.
Untuk melihat contoh kode yang lebih kompleks, lihat contoh aplikasi untuk repositori Databricks Connect di GitHub, khususnya:
Untuk menggunakan Utilitas Databricks dengan Databricks Connect, lihat Utilitas Databricks dengan Databricks Connect untuk Python.
Untuk bermigrasi dari Databricks Connect untuk Databricks Runtime 12.2 LTS dan di bawah ini ke Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas, lihat Migrasi ke Databricks Connect untuk Python.