Apa itu file ruang kerja?

File ruang kerja adalah file apa pun di ruang kerja Azure Databricks yang bukan buku catatan Databricks. File ruang kerja dapat berupa jenis file apa pun. Contoh umumnya termasuk:

  • .py file yang digunakan dalam modul kustom.
  • .md file, seperti README.md.
  • .csv atau file data kecil lainnya.
  • .txt File.
  • .whl Perpustakaan.
  • File log.

File ruang kerja mencakup file yang sebelumnya disebut sebagai "File di Repos."

Penting

File ruang kerja diaktifkan di mana saja secara default di Databricks Runtime versi 11.2, tetapi dapat dinonaktifkan oleh admin menggunakan REST API. Untuk beban kerja produksi, gunakan Databricks Runtime 11.3 LTS atau lebih tinggi. Hubungi administrator ruang kerja Anda jika Anda tidak dapat mengakses fungsionalitas ini.

Apa yang dapat Anda lakukan dengan file ruang kerja

Azure Databricks menyediakan fungsionalitas yang mirip dengan pengembangan lokal untuk banyak jenis file ruang kerja, termasuk editor file bawaan. Tidak semua kasus penggunaan untuk semua jenis file didukung. Misalnya, meskipun Anda dapat menyertakan gambar dalam direktori atau repositori yang diimpor, Anda tidak dapat menyematkan gambar dalam buku catatan.

Anda dapat membuat, mengedit, dan mengelola akses ke file ruang kerja menggunakan pola yang sudah dikenal dari interaksi buku catatan. Anda dapat menggunakan jalur relatif untuk impor pustaka dari file ruang kerja, mirip dengan pengembangan lokal. Untuk detail selengkapnya, lihat:

Skrip init yang disimpan dalam file ruang kerja memiliki perilaku khusus. Anda dapat menggunakan file ruang kerja untuk menyimpan dan mereferensikan skrip init dalam versi Databricks Runtime apa pun. Lihat Menyimpan skrip init dalam file ruang kerja.

Catatan

Dalam Databricks Runtime 14.0 ke atas, direktori kerja default saat ini (CWD) untuk kode yang dijalankan secara lokal adalah direktori yang berisi notebook atau skrip yang dijalankan. Ini adalah perubahan perilaku dari Databricks Runtime 13.3 LTS dan di bawahnya. Lihat Apa direktori kerja default saat ini?.

Batasan

Daftar lengkap batasan file ruang kerja ditemukan dalam batasan file Ruang Kerja.

Batas ukuran file

File ruang kerja individual dibatasi hingga 500 MB.

Pengguna dapat mengunggah ukuran file hingga 500 MB dari UI. Ukuran file maksimum yang diizinkan saat menulis dari kluster adalah 256 MB.

Versi Databricks Runtime untuk file di folder Git dengan kluster dengan Azure Databricks Container Services

Pada kluster yang menjalankan Databricks Runtime 11.3 LTS ke atas, pengaturan default memungkinkan Anda menggunakan file ruang kerja di folder Git dengan Azure Databricks Container Services (DCS).

Pada kluster yang menjalankan Databricks Runtime versi 10.4 LTS dan 9.1 LTS, Anda harus mengonfigurasi dockerfile untuk mengakses file ruang kerja di folder Git pada kluster dengan DCS. Lihat dockerfiles berikut untuk versi Databricks Runtime yang diinginkan:

Lihat Menyesuaikan kontainer dengan Databricks Container Service

Mengaktifkan file ruang kerja

Untuk mengaktifkan dukungan untuk file non-notebook di ruang kerja Databricks Anda, panggil REST API /api/2.0/workspace-conf dari notebook atau lingkungan lain dengan akses ke ruang kerja Databricks Anda. File ruang kerja diaktifkan secara default.

Untuk mengaktifkan atau mengaktifkan kembali dukungan untuk file non-notebook di ruang kerja Databricks Anda, panggil /api/2.0/workspace-conf dan dapatkan nilai enableWorkspaceFileSystem kunci. Jika diatur ke true, file non-buku catatan sudah diaktifkan untuk ruang kerja Anda.

Contoh berikut menunjukkan bagaimana Anda dapat memanggil API ini dari notebook untuk memeriksa apakah file ruang kerja dinonaktifkan dan jika demikian, aktifkan kembali.

Contoh: Notebook untuk mengaktifkan kembali dukungan file ruang kerja Databricks

Dapatkan buku catatan