Apa itu Databricks File System (DBFS)?

Databricks File System (DBFS) adalah sistem file terdistribusi yang dipasang ke ruang kerja Azure Databricks dan tersedia di kluster Azure Databricks. DBFS adalah abstraksi di atas penyimpanan objek yang dapat diskalakan yang memetakan panggilan sistem file seperti Unix ke panggilan API penyimpanan cloud asli.

Catatan

Ruang kerja Azure Databricks disebarkan dengan volume akar DBFS, dapat diakses oleh semua pengguna secara default. Databricks merekomendasikan untuk tidak menyimpan data produksi di lokasi ini.

Apa yang dapat Anda lakukan dengan DBFS?

DBFS memberikan kemudahan dengan memetakan URI penyimpanan objek cloud ke jalur relatif.

  • Memungkinkan Anda berinteraksi dengan penyimpanan objek menggunakan direktori dan semantik file alih-alih perintah API khusus cloud.
  • Memungkinkan Anda memasang lokasi penyimpanan objek cloud sehingga Anda dapat memetakan kredensial penyimpanan ke jalur di ruang kerja Azure Databricks.
  • Menyederhanakan proses file yang bertahan ke penyimpanan objek, memungkinkan komputer virtual dan penyimpanan volume yang terpasang dihapus dengan aman pada penghentian kluster.
  • Menyediakan lokasi yang nyaman untuk menyimpan skrip init, JAR, pustaka, dan konfigurasi untuk inisialisasi kluster.
  • Menyediakan lokasi yang nyaman untuk file titik pemeriksaan yang dibuat selama pelatihan model dengan pustaka pembelajaran mendalam OSS.

Catatan

DBFS adalah implementasi Azure Databricks untuk FUSE. Lihat Bekerja dengan file di Azure Databricks.

Berinteraksi dengan file di penyimpanan objek berbasis cloud

DBFS menyediakan banyak opsi untuk berinteraksi dengan file di penyimpanan objek cloud:

Memasang penyimpanan objek

Pemasangan penyimpanan objek ke DBFS memungkinkan Anda untuk mengakses objek dalam penyimpanan objek seolah-olah berada di sistem file lokal. Pemasangan menyimpan konfigurasi Hadoop yang diperlukan untuk mengakses penyimpanan, jadi Anda tidak perlu menentukan pengaturan ini dalam kode atau selama konfigurasi kluster.

Untuk informasi selengkapnya, lihat Memasang penyimpanan objek cloud di Azure Databricks.

Apa itu akar DBFS?

Akar DBFS adalah lokasi penyimpanan default untuk ruang kerja Azure Databricks, yang disediakan sebagai bagian dari pembuatan ruang kerja di akun cloud yang berisi ruang kerja Azure Databricks. Untuk detail tentang konfigurasi akar dan penyebaran DBFS, lihat mulai cepat Azure Databricks.

Beberapa pengguna Azure Databricks dapat merujuk ke akar DBFS sebagai "DBFS" atau "DBFS"; penting untuk membedakan bahwa DBFS adalah sistem file yang digunakan untuk berinteraksi dengan data di penyimpanan objek cloud, dan akar DBFS adalah lokasi penyimpanan objek cloud. Anda menggunakan DBFS untuk berinteraksi dengan akar DBFS, tetapi konsepnya berbeda, dan DBFS memiliki banyak aplikasi di luar akar DBFS.

Akar DBFS berisi sejumlah lokasi khusus yang berfungsi sebagai default untuk berbagai tindakan yang dilakukan oleh pengguna di ruang kerja. Untuk detailnya, lihat Direktori apa yang ada di Akar DBFS secara default?.

Untuk mengonfigurasi kunci yang dikelola pelanggan untuk akun penyimpanan yang menyertakan akar DBFS, lihat Kunci yang dikelola pelanggan untuk akar DBFS.

Untuk membatasi akses jaringan ke akun penyimpanan yang menyertakan akar DBFS, lihat Mengaktifkan dukungan firewall untuk akun penyimpanan ruang kerja Anda.

Bagaimana cara kerja DBFS dengan Unity Catalog?

Katalog Unity menambahkan konsep lokasi eksternal dan kredensial penyimpanan terkelola untuk membantu organisasi memberikan akses hak istimewa paling sedikit ke data di penyimpanan objek cloud. Katalog Unity juga menyediakan lokasi penyimpanan default baru untuk tabel terkelola. Beberapa konfigurasi keamanan menyediakan akses langsung ke sumber daya yang dikelola Katalog Unity dan DBFS. Databricks telah mengkompilasi rekomendasi untuk menggunakan DBFS dan Unity Catalog.