Bagikan melalui


Utilitas Databricks dengan Databricks Connect untuk Python

Catatan

Artikel ini membahas Databricks Connect untuk Databricks Runtime 13.3 LTS ke atas.

Artikel ini menjelaskan cara menggunakan Utilitas Databricks dengan Databricks Connect untuk Python. Databricks Connect memungkinkan Anda menyambungkan ID Populer, server buku catatan, dan aplikasi kustom ke kluster Azure Databricks. Lihat Apa itu Databricks Connect?. Untuk versi Scala artikel ini, lihat Utilitas Databricks dengan Databricks Connect untuk Scala.

Catatan

Sebelum mulai menggunakan Databricks Connect, Anda harus menyiapkan klien Databricks Connect.

Anda menggunakan Databricks Connect untuk mengakses Utilitas Databricks sebagai berikut:

  • WorkspaceClient Gunakan variabel kelas dbutils untuk mengakses Utilitas Databricks. Kelas WorkspaceClient milik Databricks SDK untuk Python dan disertakan dalam Databricks Connect.
  • Gunakan dbutils.fs untuk mengakses utilitas fs Utilitas Databricks .
  • Gunakan dbutils.secrets untuk mengakses utilitas rahasia Utilitas Databricks .
  • Tidak ada fungsionalitas Utilitas Databricks selain utilitas sebelumnya yang tersedia melalui dbutils.

Tip

Anda juga dapat menggunakan Databricks SDK yang disertakan untuk Python untuk mengakses REST API Databricks yang tersedia, bukan hanya API Utilitas Databricks sebelumnya. Lihat databricks-sdk di PyPI.

Untuk menginisialisasi WorkspaceClient, Anda harus memberikan informasi yang cukup untuk mengautentikasi Databricks SDK dengan ruang kerja. Misalnya, Anda dapat:

  • Kode keras URL ruang kerja dan token akses Anda langsung dalam kode Anda, lalu inisialisasi WorkspaceClient sebagai berikut. Meskipun opsi ini didukung, Databricks tidak merekomendasikan opsi ini, karena dapat mengekspos informasi sensitif, seperti token akses, jika kode Anda diperiksa ke kontrol versi atau dibagikan:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(host  = f"https://{retrieve_workspace_instance_name()}",
                        token = retrieve_token())
    
  • Buat atau tentukan profil konfigurasi yang berisi bidang host dan token, lalu intialisasi WorkspaceClient sebagai berikut:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient(profile = "<profile-name>")
    
  • Atur variabel DATABRICKS_HOST lingkungan dan DATABRICKS_TOKEN dengan cara yang sama seperti Anda mengaturnya untuk Databricks Connect, lalu inisialisasi WorkspaceClient sebagai berikut:

    from databricks.sdk import WorkspaceClient
    
    w = WorkspaceClient()
    

Databricks SDK untuk Python tidak mengenali SPARK_REMOTE variabel lingkungan untuk Databricks Connect.

Untuk opsi autentikasi Azure Databricks tambahan untuk Databricks SDK untuk Python, serta cara menginisialisasi AccountClient dalam SDK Databricks untuk mengakses REST API Databricks yang tersedia di tingkat akun alih-alih di tingkat ruang kerja, lihat databricks-sdk di PyPI.

Contoh berikut menunjukkan cara menggunakan Databricks SDK untuk Python untuk mengotomatiskan Utilitas Databricks. Contoh ini membuat file bernama zzz_hello.txt di jalur volume Katalog Unity di dalam ruang kerja, membaca data dari file, lalu menghapus file. Contoh ini mengasumsikan bahwa variabel DATABRICKS_HOST lingkungan dan DATABRICKS_TOKEN telah ditetapkan:

from databricks.sdk import WorkspaceClient

w = WorkspaceClient()

file_path = "/Volumes/main/default/my-volume/zzz_hello.txt"
file_data = "Hello, Databricks!"
fs = w.dbutils.fs

fs.put(
  file      = file_path,
  contents  = file_data,
  overwrite = True
)

print(fs.head(file_path))

fs.rm(file_path)

Lihat juga Interaksi dengan dbutil dalam dokumentasi Databricks SDK for Python.