Apa itu berkas ruang kerja?

File ruang kerja adalah file yang disimpan dan dikelola dalam sistem file ruang kerja Databricks. File ruang kerja dapat berupa hampir semua jenis file. Contoh umumnya meliputi yang berikut ini:

  • Laptop (.ipynb)
  • Notebook sumber (.py, .sql, .r, dan .scala)
  • Kueri SQL (.dbquery.ipynb)
  • Dasbor (.lvdash.json)
  • Pemberitahuan (.dbalert.json)
  • file Python (.py) yang digunakan dalam modul kustom
  • Konfigurasi YAML (.yaml atau .yml)
  • File Markdown (.md), seperti README.md
  • File teks (.txt) atau file data kecil lainnya (.csv)
  • Perpustakaan (.whl, .jar)
  • Log file (.log)

Catatan

Ruang Genie dan eksperimen tidak dapat berupa file area kerja.

Untuk rekomendasi tentang bekerja dengan file, lihat Rekomendasi untuk File dalam Volume dan File Ruang Kerja.

Pohon file ruang kerja Azure Databricks Anda dapat berisi folder yang dilampirkan ke repositori Git yang disebut "Folder Git Databricks". Folder Git memiliki beberapa batasan jenis file tambahan. Untuk daftar jenis file yang didukung di folder Git (sebelumnya "Repos"), lihat Jenis aset yang didukung di folder Git.

Penting

File ruang kerja diaktifkan di mana saja secara default di Databricks Runtime versi 11.2. Untuk beban kerja produksi, gunakan Databricks Runtime 11.3 LTS atau lebih tinggi. Hubungi administrator ruang kerja Anda jika Anda tidak dapat mengakses fungsionalitas ini.

Apa yang dapat Anda lakukan dengan file ruang kerja?

Azure Databricks menyediakan fungsionalitas yang mirip dengan pengembangan lokal untuk banyak jenis file ruang kerja, termasuk editor file bawaan. Tidak semua kasus penggunaan untuk semua jenis file didukung.

Anda dapat membuat, mengedit, dan mengelola akses ke file ruang kerja menggunakan pola yang sudah dikenal dari interaksi buku catatan. Anda dapat menggunakan jalur relatif untuk impor pustaka dari file ruang kerja, mirip dengan pengembangan lokal. Untuk detail selengkapnya, lihat:

Skrip init yang disimpan dalam file ruang kerja memiliki perilaku khusus. Anda dapat menggunakan file ruang kerja untuk menyimpan dan mereferensikan skrip init dalam versi Databricks Runtime apa pun. Lihat Skrip inisialisasi yang disimpan dalam file ruang kerja.

Catatan

Dalam Databricks Runtime 14.0 ke atas, direktori kerja default saat ini (CWD) untuk kode yang dijalankan secara lokal adalah direktori yang berisi notebook atau skrip yang dijalankan. Ini adalah perubahan perilaku dari Databricks Runtime 13.3 LTS dan di bawahnya. Lihat Apa direktori kerja saat ini yang default?.

Batasan

  • Jika alur kerja Anda menggunakan kode sumber yang terletak di repositori Git jarak jauh, Anda tidak dapat menulis ke direktori saat ini atau menulis menggunakan jalur relatif. Tulis data ke opsi lokasi lain.
  • Anda tidak dapat menggunakan perintah git saat menyimpan ke file ruang kerja. Pembuatan direktori .git tidak diperbolehkan dalam file ruang kerja.
  • Membaca dari file ruang kerja menggunakan eksekutor Spark (seperti spark.read.format("csv").load("file:/Workspace/Users/<user-folder>/data.csv")) tidak didukung pada layanan komputasi tanpa server.
  • Eksekutor tidak dapat menulis ke file ruang kerja.
  • Symlinks hanya didukung untuk direktori target di bawah folder akar /Workspace, seperti os.symlink("/Workspace/Users/someone@example.com/Testing", "Testing").
  • File ruang kerja tidak dapat diakses dari fungsi yang ditentukan pengguna (UDF) pada kluster dengan mode akses standar pada Databricks Runtime 14.2 ke bawah.
  • Notebook hanya didukung sebagai file ruang kerja pada Databricks Runtime 16.2 ke atas, dan di lingkungan tanpa server 2 ke atas.
  • Notebook tidak dapat diimpor sebagai modul Python pada Databricks Runtime 16.0 ke atas. Sebagai gantinya, ubah format buku catatan, atau jika Anda ingin kode diimpor, refaktor buku catatan ke dalam file Python.
  • Kueri, peringatan, dan dasbor hanya didukung sebagai file di ruang kerja pada Databricks Runtime 16.4 ke atas, dan pada lingkungan tanpa server 2 ke atas. Selain itu, file ruang kerja ini tidak dapat diganti namanya.
  • Hanya buku catatan dan file yang mendukung tampilan dan pengeditan menggunakan perintah sistem file, seperti %sh ls.
  • Menggunakan perintah dbutils.fs untuk mengakses file ruang kerja tidak didukung pada komputasi tanpa server. Gunakan sel %sh di buku catatan atau perintah khusus bahasa seperti shutil di Python saat menjalankan buku catatan pada komputasi tanpa server.

Batas ukuran file

  • Ukuran file ruang kerja dibatasi hingga 500MB. Operasi yang mencoba mengunduh atau membuat file yang lebih besar dari batas ini akan gagal.

Pembatasan izin akses file

Izin untuk mengakses file dalam folder di bawah /Workspace kedaluwarsa setelah 36 jam untuk komputasi interaktif dan setelah 30 hari untuk pekerjaan. Databricks merekomendasikan agar eksekusi yang berlangsung lama dijalankan sebagai tugas jika membutuhkan akses ke file /Workspace.

Aktifkan file ruang kerja

Untuk mengaktifkan dukungan untuk file non-notebook di ruang kerja Databricks Anda, panggil REST API /api/2.0/workspace-conf dari notebook atau lingkungan lain dengan akses ke ruang kerja Databricks Anda. File ruang kerja diaktifkan secara default.

Untuk mengaktifkan atau mengaktifkan kembali dukungan untuk file non-buku catatan di ruang kerja Databricks Anda, panggil /api/2.0/workspace-conf dan dapatkan nilai kunci enableWorkspaceFileSystem. Jika diatur ke true, file selain buku catatan sudah diaktifkan untuk ruang kerja Anda.

Contoh berikut menunjukkan bagaimana Anda dapat memanggil API ini dari notebook untuk memeriksa apakah file ruang kerja dinonaktifkan dan jika demikian, aktifkan kembali.

Contoh: Notebook untuk mengaktifkan kembali dukungan file ruang kerja Databricks

Ambil buku catatan