Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Nota
Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.
Artikel ini menjelaskan cara menggunakan Utilitas Databricks dengan Databricks Connect for Python. Databricks Connect memungkinkan koneksi IDE populer, server notebook, dan aplikasi kustom dengan kluster Azure Databricks. Lihat Apa itu Databricks Connect?.
Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.
Untuk versi Scala artikel ini, lihat Utilitas Databricks dengan Databricks Connect untuk Scala.
Utilitas Databricks yang Tersedia
Anda menggunakan Databricks Connect untuk mengakses Utilitas Databricks sebagai berikut:
-
WorkspaceClientGunakan variabel kelasdbutilsuntuk mengakses Utilitas Databricks. KelasWorkspaceClientmilik Databricks SDK untuk Python dan disertakan dalam Databricks Connect. - Gunakan
dbutils.fsuntuk mengakses utilitas fs pada Databricks Utilities . - Gunakan
dbutils.secretsuntuk mengakses Utilitas Databricks rahasia utilitas.
Tidak ada fungsionalitas Utilitas Databricks selain utilitas sebelumnya yang tersedia melalui dbutils.
Saran
Anda juga dapat menggunakan Databricks SDK yang disertakan untuk Python untuk mengakses REST API Databricks yang tersedia, bukan hanya API Utilitas Databricks sebelumnya. Lihat databricks-sdk di PyPI.
Menginisialisasi WorkspaceClient
Untuk menginisialisasi WorkspaceClient, Anda harus memberikan informasi yang cukup untuk mengautentikasi Databricks SDK dengan ruang kerja. Misalnya, Anda dapat:
Lakukan hardcoding URL ruang kerja dan token akses Anda langsung di dalam kode Anda, lalu inisialisasi
WorkspaceClientsebagai berikut. Meskipun opsi ini didukung, Databricks tidak merekomendasikan opsi ini, karena dapat mengekspos informasi sensitif, seperti token akses, jika kode Anda dicantumkan ke kontrol versi atau dibagikan.from databricks.sdk import WorkspaceClient w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token())Buat atau tentukan profil konfigurasi yang berisi bidang
hostdantoken, lalu intialisasiWorkspaceClientsebagai berikut:from databricks.sdk import WorkspaceClient w = WorkspaceClient(profile = "<profile-name>")Atur variabel lingkungan
DATABRICKS_HOSTdanDATABRICKS_TOKENdengan cara yang sama seperti Anda mengaturnya untuk Databricks Connect, lalu inisialisasiWorkspaceClientsebagai berikut:from databricks.sdk import WorkspaceClient w = WorkspaceClient()
Databricks SDK untuk Python tidak mengenali variabel lingkungan SPARK_REMOTE untuk Databricks Connect.
Untuk opsi autentikasi Azure Databricks tambahan untuk Databricks SDK untuk Python, serta cara menginisialisasi AccountClient dalam SDK Databricks untuk mengakses REST API Databricks yang tersedia di tingkat akun alih-alih di tingkat ruang kerja, lihat databricks-sdk di PyPI.
Contoh: Membuat file dalam volume
Contoh berikut menunjukkan cara menggunakan Databricks SDK untuk Python untuk mengotomatiskan Utilitas Databricks. Contoh ini membuat file bernama zzz_hello.txt di jalur volume Katalog Unity di dalam ruang kerja, membaca data dari file, lalu menghapus file. Contoh ini mengasumsikan bahwa variabel lingkungan DATABRICKS_HOST dan DATABRICKS_TOKEN telah ditetapkan:
from databricks.sdk import WorkspaceClient
w = WorkspaceClient()
file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs
fs.put(
file = file_path,
contents = file_data,
overwrite = True
)
print(fs.head(file_path))
fs.rm(file_path)
Lihat juga Interaksi dengan dbutils dalam dokumentasi Databricks SDK for Python.