Bagikan melalui


Utilitas Databricks dengan Databricks Koneksi untuk Python

Catatan

Artikel ini membahas Databricks Koneksi untuk Databricks Runtime 13.0 ke atas.

Artikel ini menjelaskan cara menggunakan Utilitas Databricks dengan Databricks Koneksi untuk Python. Databricks Koneksi memungkinkan Anda menyambungkan ID, server notebook, dan aplikasi kustom populer ke kluster Azure Databricks. Lihat Apa itu Databricks Koneksi?. Untuk versi Scala artikel ini, lihat Utilitas Databricks dengan Databricks Koneksi untuk Scala.

Catatan

Sebelum mulai menggunakan Databricks Koneksi, Anda harus menyiapkan klien Databricks Koneksi.

Anda menggunakan Databricks Koneksi untuk mengakses Utilitas Databricks sebagai berikut:

  • WorkspaceClient Gunakan variabel kelas dbutils untuk mengakses Utilitas Databricks. Kelas WorkspaceClient ini milik Databricks SDK untuk Python dan disertakan dalam Databricks Koneksi.
  • Gunakan dbutils.fs untuk mengakses utilitas fs Utilitas Databricks .
  • Gunakan dbutils.secrets untuk mengakses utilitas rahasia Utilitas Databricks .
  • Tidak ada fungsionalitas Utilitas Databricks selain utilitas sebelumnya yang tersedia melalui dbutils.

Tip

Anda juga dapat menggunakan Databricks SDK yang disertakan untuk Python untuk mengakses REST API Databricks yang tersedia, bukan hanya API Utilitas Databricks sebelumnya. Lihat databricks-sdk di PyPI.

Untuk menginisialisasi WorkspaceClient, Anda harus memberikan informasi yang cukup untuk mengautentikasi Databricks SDK dengan ruang kerja. Misalnya, Anda dapat:

  • Kode keras URL ruang kerja dan token akses Anda langsung dalam kode Anda, lalu inisialisasi WorkspaceClient sebagai berikut. Meskipun opsi ini didukung, Databricks tidak merekomendasikan opsi ini, karena dapat mengekspos informasi sensitif, seperti token akses, jika kode Anda diperiksa ke kontrol versi atau dibagikan:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(host  = f"https://{retrieve_workspace_instance_name()}",
                        token = retrieve_token())
    
  • Buat atau tentukan profil konfigurasi yang berisi bidang host dan token, lalu intialisasi WorkspaceClient sebagai berikut:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(profile = "<profile-name>")
    
  • Atur variabel DATABRICKS_HOST lingkungan dan DATABRICKS_TOKEN dengan cara yang sama seperti Anda mengaturnya untuk Databricks Koneksi, lalu inisialisasi WorkspaceClient sebagai berikut:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient()
    

Databricks SDK untuk Python tidak mengenali SPARK_REMOTE variabel lingkungan untuk Databricks Koneksi.

Untuk opsi autentikasi Azure Databricks tambahan untuk Databricks SDK untuk Python, serta cara menginisialisasi AccountClient dalam SDK Databricks untuk mengakses REST API Databricks yang tersedia di tingkat akun alih-alih di tingkat ruang kerja, lihat databricks-sdk di PyPI.

Contoh berikut menunjukkan cara menggunakan Databricks SDK untuk Python untuk mengotomatiskan Utilitas Databricks. Contoh ini membuat file bernama zzz_hello.txt di jalur volume Katalog Unity di dalam ruang kerja, membaca data dari file, lalu menghapus file. Contoh ini mengasumsikan bahwa variabel DATABRICKS_HOST lingkungan dan DATABRICKS_TOKEN telah ditetapkan:

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
  file      = file_path,
  contents  = file_data,
  overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Lihat juga Interaksi dengan dbutil dalam dokumentasi Databricks SDK for Python.