Utilitas Databricks dengan Databricks Connect untuk Python
Catatan
Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.
Artikel ini menjelaskan cara menggunakan Utilitas Databricks dengan Databricks Connect untuk Python. Databricks Connect memungkinkan Anda menyambungkan ID Populer, server buku catatan, dan aplikasi kustom ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?. Untuk versi Scala artikel ini, lihat Utilitas Databricks dengan Databricks Connect untuk Scala.
Catatan
Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.
Anda menggunakan Databricks Connect untuk mengakses Utilitas Databricks sebagai berikut:
WorkspaceClient
Gunakan variabel kelasdbutils
untuk mengakses Utilitas Databricks. KelasWorkspaceClient
milik Databricks SDK untuk Python dan disertakan dalam Databricks Connect.- Gunakan
dbutils.fs
untuk mengakses utilitas fs Utilitas Databricks . - Gunakan
dbutils.secrets
untuk mengakses utilitas rahasia Utilitas Databricks . - Tidak ada fungsionalitas Utilitas Databricks selain utilitas sebelumnya yang tersedia melalui
dbutils
.
Tip
Anda juga dapat menggunakan Databricks SDK yang disertakan untuk Python untuk mengakses REST API Databricks yang tersedia, bukan hanya API Utilitas Databricks sebelumnya. Lihat databricks-sdk di PyPI.
Untuk menginisialisasi WorkspaceClient
, Anda harus memberikan informasi yang cukup untuk mengautentikasi Databricks SDK dengan ruang kerja. Misalnya, Anda dapat:
Kode keras URL ruang kerja dan token akses Anda langsung dalam kode Anda, lalu inisialisasi
WorkspaceClient
sebagai berikut. Meskipun opsi ini didukung, Databricks tidak merekomendasikan opsi ini, karena dapat mengekspos informasi sensitif, seperti token akses, jika kode Anda diperiksa ke kontrol versi atau dibagikan:from databricks.sdk import WorkspaceClient w = WorkspaceClient(host = f"https://{retrieve_workspace_instance_name()}", token = retrieve_token())
Buat atau tentukan profil konfigurasi yang berisi bidang
host
dantoken
, lalu intialisasiWorkspaceClient
sebagai berikut:from databricks.sdk import WorkspaceClient w = WorkspaceClient(profile = "<profile-name>")
Atur variabel
DATABRICKS_HOST
lingkungan danDATABRICKS_TOKEN
dengan cara yang sama seperti Anda mengaturnya untuk Databricks Connect, lalu inisialisasiWorkspaceClient
sebagai berikut:from databricks.sdk import WorkspaceClient w = WorkspaceClient()
Databricks SDK untuk Python tidak mengenali SPARK_REMOTE
variabel lingkungan untuk Databricks Connect.
Untuk opsi autentikasi Azure Databricks tambahan untuk Databricks SDK untuk Python, serta cara menginisialisasi AccountClient
dalam SDK Databricks untuk mengakses REST API Databricks yang tersedia di tingkat akun alih-alih di tingkat ruang kerja, lihat databricks-sdk di PyPI.
Contoh berikut menunjukkan cara menggunakan Databricks SDK untuk Python untuk mengotomatiskan Utilitas Databricks. Contoh ini membuat file bernama zzz_hello.txt
di jalur volume Katalog Unity di dalam ruang kerja, membaca data dari file, lalu menghapus file. Contoh ini mengasumsikan bahwa variabel DATABRICKS_HOST
lingkungan dan DATABRICKS_TOKEN
telah ditetapkan:
from databricks.sdk import WorkspaceClient
w = WorkspaceClient()
file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs
fs.put(
file = file_path,
contents = file_data,
overwrite = True
)
print(fs.head(file_path))
fs.rm(file_path)
Lihat juga Interaksi dengan dbutil dalam dokumentasi Databricks SDK for Python.