Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Saat mengunggah atau menyimpan data atau file ke Azure Databricks, Anda dapat memilih untuk menyimpan file-file ini menggunakan volume Unity Catalog atau file ruang kerja. Artikel ini berisi rekomendasi dan persyaratan untuk menggunakan lokasi ini. Untuk detail selengkapnya tentang volume dan file ruang kerja, lihat Apa itu volume Katalog Unity? dan Apa itu file ruang kerja?.
Databricks merekomendasikan penggunaan volume Unity Catalog untuk menyimpan data, pustaka, dan membangun artefak. Simpan buku catatan, kueri SQL, dan file kode sebagai file ruang kerja. Anda dapat mengonfigurasi direktori file ruang kerja sebagai folder Git untuk disinkronkan dengan repositori Git jarak jauh. Lihat Folder Git Azure Databricks. File data kecil yang digunakan untuk skenario pengujian juga dapat disimpan sebagai file ruang kerja.
Tabel di bawah ini memberikan rekomendasi khusus untuk file, tergantung pada jenis file atau kebutuhan fitur Anda.
Jenis file
Tabel berikut ini menyediakan rekomendasi penyimpanan untuk jenis file. Databricks mendukung banyak format file di luar apa yang disediakan dalam tabel ini sebagai contoh.
| Jenis file | Recommendation |
|---|---|
| Objek Databricks, seperti buku catatan dan kueri | Simpan sebagai file ruang kerja |
| File data terstruktur, seperti file Parquet dan file ORC | Simpan dalam volume Katalog Unity |
File data semi-terstruktur, seperti file teks (.csv, .txt) dan file JSON (.json) |
Simpan dalam volume Katalog Unity |
File data yang tidak terstruktur, seperti file gambar (.png, .svg), file audio (.mp3), dan file dokumen (.pdf, .docx) |
Simpan dalam volume Katalog Unity |
| File data mentah yang digunakan untuk adhoc atau eksplorasi data awal | Simpan dalam volume Katalog Unity |
| Data operasional, seperti file log | Simpan dalam volume Katalog Unity |
File arsip besar, seperti file ZIP (.zip) |
Simpan dalam volume Katalog Unity |
File kode sumber, seperti file Python (.py), file Java (.java), dan file Scala (.scala) |
Simpan sebagai file ruang kerja, jika berlaku, dengan objek terkait lainnya, seperti buku catatan dan kueri. Databricks merekomendasikan pengelolaan file-file ini di folder Git untuk kontrol versi dan pelacakan perubahan file-file ini. |
Membangun artefak dan pustaka, seperti roda Python (.whl) dan file JAR (.jar) |
Simpan dalam volume Katalog Unity |
| File konfigurasi | Simpan file konfigurasi yang diperlukan di seluruh ruang kerja dalam volume Katalog Unity, tetapi simpan sebagai file ruang kerja jika file tersebut adalah file proyek di folder Git. |
Perbandingan fitur
Tabel berikut membandingkan penawaran fitur workspace files dan volumes Unity Catalog.
| Feature | File ruang kerja | Katalog Volume Unity |
|---|---|---|
| Akses file | File ruang kerja hanya dapat diakses satu sama lain dalam ruang kerja yang sama. | File dapat diakses secara global di seluruh ruang kerja. |
| Akses terprogram | File dapat diakses menggunakan:
|
File dapat diakses menggunakan:
|
| Paket Otomatisasi Deklaratif | Secara default, semua file dalam bundel, yang mencakup pustaka dan objek Databricks seperti notebook dan kueri, disebarkan dengan aman sebagai file ruang kerja. Izin ditentukan dalam konfigurasi bundel. | Bundel dapat disesuaikan untuk menyertakan pustaka yang sudah ada dalam volume ketika pustaka melebihi batas ukuran file ruang kerja. Lihat Dependensi pustaka Bundel Otomatisasi Deklaratif. |
| Tingkat izin berkas | Izin berada di tingkat git-folder jika file berada di folder Git, jika tidak, izin diatur di tingkat file. | Hak akses berada di tingkat volume. |
| Manajemen izin | Hak akses dikelola oleh ACL ruang kerja dan terbatas pada ruang kerja yang menampungnya. | Metadata dan izin dikelola oleh Unity Catalog. Izin ini berlaku di semua ruang kerja yang memiliki akses ke katalog. |
| Pemasangan penyimpanan eksternal | Tidak mendukung pemasangan penyimpanan eksternal | Menyediakan opsi untuk menunjuk ke himpunan data yang sudah ada sebelumnya pada penyimpanan eksternal dengan membuat volume eksternal. Lihat Apa yang dimaksud dengan volume Katalog Unity?. |
| Dukungan UDF | Tidak didukung | Penulisan dari UDF didukung menggunakan Volumes FUSE |
| Ukuran file | Simpan file yang lebih kecil, kurang dari 500MB, seperti file kode sumber (.py, .md, .yml) yang diperlukan bersama notebook. |
Simpan file data yang sangat besar pada batas yang ditentukan oleh penyedia layanan cloud. |
| Unggah & unduh | Dukungan untuk mengunggah dan mengunduh hingga 500MB. | Dukungan untuk mengunggah dan mengunduh hingga 5 GB. Untuk mengunggah file lokal ke volume, lihat Bekerja dengan file dalam volume Katalog Unity. Untuk mengunduh file dari internet ke dalam volume, lihat Mengunduh data dari internet. |
| Dukungan pembuatan tabel | Tabel tidak dapat dibuat dengan file ruang kerja sebagai lokasi. | Buat tabel dari file dalam volume dengan menjalankan COPY INTO, Auto Loader, atau opsi lain yang dijelaskan dalam konektor Standar di Lakeflow Connect. |
| Struktur direktori & jalur file | File diatur dalam direktori berlapis, masing-masing dengan model izinnya sendiri:
|
File diatur dalam direktori berlapis di dalam volume Lihat Mengakses data di Katalog Unity. |
| Riwayat berkas | Gunakan folder Git dalam ruang kerja untuk melacak perubahan file. | Log audit tersedia. |