Bagikan melalui


Volume terkelola vs. eksternal

Artikel ini membahas perbedaan antara volume terkelola dan volume eksternal dan alasan mengapa Anda dapat memilih untuk menggunakan volume eksternal. Databricks merekomendasikan volume terkelola sebagai solusi paling sederhana untuk menyimpan dan mengelola akses ke data non-tabular.

Untuk panduan selengkapnya tentang menggunakan Katalog Unity untuk mengonfigurasi akses ke penyimpanan objek cloud, lihat Menyambungkan ke penyimpanan objek cloud menggunakan Katalog Unity.

Perbedaan perilaku antara volume terkelola dan eksternal

Volume terkelola dan eksternal memberikan pengalaman yang hampir identik saat menggunakan alat, UI, dan API Azure Databricks. Berikut ini adalah perbedaan antara jenis volume ini.

Volume terkelola memberikan pengalaman penyimpanan yang dikelola sepenuhnya. Ini berarti sebagai berikut:

  • Semua interaksi dengan file dalam volume terkelola harus melalui Katalog Unity.
  • Penamaan direktori dan tata letak data dikelola oleh Katalog Unity. Nama direktori menyertakan hash untuk menghindari konflik di akun penyimpanan objek cloud yang mendasarinya.
  • Saat Anda menghilangkan volume terkelola, Azure Databricks menghapus data yang mendasar dalam waktu 30 hari.

Volume eksternal membawa tata kelola data ke penyimpanan objek cloud. Ini berarti sebagai berikut:

  • Anda dapat menggunakan URI cloud di Azure Databricks atau sistem eksternal untuk berinteraksi dengan file dalam volume eksternal.
  • Semua direktori yang dibuat dalam volume eksternal atau file yang diunggah relatif terhadap LOCATION yang ditentukan saat pembuatan.
  • Saat Anda menghilangkan volume eksternal, Anda menghapus volume dari Katalog Unity tetapi data yang mendasar tetap tidak berubah di lokasi eksternal.

Mengapa menggunakan volume eksternal?

Volume eksternal memungkinkan Anda menambahkan tata kelola data Katalog Unity ke direktori penyimpanan objek cloud yang ada. Beberapa kasus penggunaan untuk volume eksternal meliputi yang berikut ini:

  • Menambahkan tata kelola ke file data tanpa migrasi.
  • Mengatur file yang dihasilkan oleh sistem lain yang harus diserap atau diakses oleh Azure Databricks.
  • Mengatur data yang dihasilkan oleh Azure Databricks yang harus diakses langsung dari penyimpanan objek cloud oleh sistem lain.

Databricks merekomendasikan penggunaan volume eksternal untuk menyimpan file data non-tabular yang dibaca atau ditulis oleh sistem eksternal selain Azure Databricks. Katalog Unity tidak mengatur pembacaan dan penulisan yang dilakukan langsung terhadap penyimpanan objek cloud dari sistem eksternal, jadi Anda harus mengonfigurasi kebijakan dan kredensial tambahan di akun cloud Anda untuk memastikan bahwa kebijakan tata kelola data dihormati di luar Azure Databricks.