Bagikan melalui


Rekomendasi untuk file dalam volume dan file ruang kerja

Saat mengunggah atau menyimpan data atau file ke Azure Databricks, Anda dapat memilih untuk menyimpan file-file ini menggunakan volume Unity Catalog atau file ruang kerja. Artikel ini berisi rekomendasi dan persyaratan untuk menggunakan lokasi ini. Untuk detail selengkapnya tentang volume dan file ruang kerja, lihat Apa itu volume Katalog Unity? dan Apa itu file ruang kerja?.

Databricks merekomendasikan penggunaan volume Unity Catalog untuk menyimpan data, pustaka, dan membangun artefak. Simpan buku catatan, kueri SQL, dan file kode sebagai file ruang kerja. Anda dapat mengonfigurasi direktori file ruang kerja sebagai folder Git untuk disinkronkan dengan repositori Git jarak jauh. Lihat Integrasi Git dengan folder Databricks Git. File data kecil yang digunakan untuk skenario pengujian juga dapat disimpan sebagai file ruang kerja.

Tabel di bawah ini memberikan rekomendasi khusus untuk file, tergantung pada jenis file atau kebutuhan fitur Anda.

Penting

Databricks File System (DBFS) juga tersedia untuk penyimpanan file, tetapi tidak disarankan, karena semua pengguna ruang kerja memiliki akses ke file di DBFS. Lihat DBFS.

Tipe file

Tabel berikut ini menyediakan rekomendasi penyimpanan untuk jenis file. Databricks mendukung banyak format file di luar apa yang disediakan dalam tabel ini sebagai contoh.

Jenis file Rekomendasi
Objek Databricks, seperti buku catatan dan kueri Simpan sebagai file ruang kerja
File data terstruktur, seperti file Parquet dan file ORC Simpan dalam volume Katalog Unity
File data semi-terstruktur, seperti file teks (.csv, .txt) dan file JSON (.json) Simpan dalam volume Katalog Unity
File data yang tidak terstruktur, seperti file gambar (.png, .svg), file audio (.mp3), dan file dokumen (.pdf, .docx) Simpan dalam volume Katalog Unity
File data mentah yang digunakan untuk adhoc atau eksplorasi data awal Simpan dalam volume Katalog Unity
Data operasional, seperti file log Simpan dalam volume Katalog Unity
File arsip besar, seperti file ZIP (.zip) Simpan dalam volume Katalog Unity
File kode sumber, seperti file Python (.py), file Java (.java), dan file Scala (.scala) Simpan sebagai file ruang kerja, jika berlaku, dengan objek terkait lainnya, seperti buku catatan dan kueri.

Databricks merekomendasikan pengelolaan file-file ini di folder Git untuk kontrol versi dan pelacakan perubahan file-file ini.
Membangun artefak dan pustaka, seperti roda Python (.whl) dan file JAR (.jar) Simpan dalam volume Katalog Unity
File konfigurasi Simpan file konfigurasi yang diperlukan di seluruh ruang kerja dalam volume Katalog Unity, tetapi simpan sebagai file ruang kerja jika file tersebut adalah file proyek di folder Git.

Perbandingan fitur

Tabel berikut membandingkan penawaran fitur file ruang kerja dan volume Unity Catalog.

Fitur File ruang kerja Volume Katalog Unity
Akses file File ruang kerja hanya dapat diakses satu sama lain dalam ruang kerja yang sama. File dapat diakses secara global di seluruh ruang kerja.
Akses terprogram File dapat diakses menggunakan:

* API Spark
* SEKRING
* dbutil
* REST API
* SDK Databricks
* Databricks CLI
File dapat diakses menggunakan:

* API Spark
* SEKRING
* dbutil
* REST API
* SDK Databricks
* Konektor SQL Databricks
* Databricks CLI
* Penyedia Databricks Terraform
Bundel Aset Databricks Secara default, semua file dalam bundel, yang mencakup pustaka dan objek Databricks seperti notebook dan kueri, disebarkan dengan aman sebagai file ruang kerja. Izin ditentukan dalam konfigurasi bundel. Bundel dapat disesuaikan untuk menyertakan pustaka yang sudah ada dalam volume ketika pustaka melebihi batas ukuran file ruang kerja. Lihat Dependensi pustaka Bundel Aset Databricks.
Tingkat izin file Izin berada di tingkat git-folder jika file berada di folder Git, jika tidak, izin diatur di tingkat file. Izin berada di tingkat volume.
Pengelolaan izin Izin dikelola oleh ACL ruang kerja dan terbatas pada ruang kerja yang berisi. Metadata dan izin dikelola oleh Katalog Unity. Izin ini berlaku di semua ruang kerja yang memiliki akses ke katalog.
Pemasangan penyimpanan eksternal Tidak mendukung pemasangan penyimpanan eksternal Menyediakan opsi untuk menunjuk ke himpunan data yang sudah ada sebelumnya pada penyimpanan eksternal dengan membuat volume eksternal. Lihat Apa itu volume Katalog Unity?.
Dukungan UDF Tidak didukung Menulis dari UDF didukung menggunakan Volume FUSE
Ukuran file Simpan file yang lebih kecil kurang dari 500MB, seperti file kode sumber (.py, , .md) .ymlyang diperlukan bersama notebook. Simpan file data yang sangat besar pada batas yang ditentukan oleh penyedia layanan cloud.
Unggah & unduh Dukungan untuk mengunggah dan mengunduh hingga 10MB. Dukungan untuk mengunggah dan mengunduh hingga 5GB.
Dukungan pembuatan tabel Tabel tidak dapat dibuat dengan file ruang kerja sebagai lokasi. Tabel dapat dibuat dari file dalam volume dengan menjalankan COPY INTO, Autoloader, atau opsi lain yang dijelaskan dalam Menyerap data ke dalam lakehouse Databricks.
Struktur direktori & jalur file File diatur dalam direktori berlapis, masing-masing dengan model izinnya sendiri:

* Direktori beranda pengguna, satu untuk setiap pengguna dan perwakilan layanan di ruang kerja
* Folder Git
*Para
File diatur dalam direktori berlapis di dalam volume

Lihat Bagaimana Anda dapat mengakses data di Unity Catalog?.
Riwayat file Gunakan folder Git dalam ruang kerja untuk melacak perubahan file. Log audit tersedia.