Catatan
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba masuk atau mengubah direktori.
Akses ke halaman ini memerlukan otorisasi. Anda dapat mencoba mengubah direktori.
Halaman ini berfokus pada menemukan dan menjelajahi direktori dan file data yang dikelola dengan volume Unity Catalog, termasuk instruksi berbasis UI untuk menjelajahi volume dengan Catalog Explorer. Ini termasuk contoh untuk eksplorasi data terprogram dalam penyimpanan objek cloud menggunakan jalur volume dan URI cloud.
Databricks merekomendasikan penggunaan volume untuk mengelola akses ke data di penyimpanan objek cloud. Untuk informasi selengkapnya tentang menyambungkan ke data di penyimpanan objek cloud, lihat Menyambungkan ke sumber data dan layanan eksternal.
Untuk panduan lengkap tentang cara berinteraksi dengan file di semua lokasi, lihat Bekerja dengan file di Azure Databricks.
Penting
Saat mencari File di UI ruang kerja, Anda mungkin menemukan file data yang disimpan sebagai file ruang kerja. Databricks merekomendasikan penggunaan file ruang kerja terutama untuk kode (seperti skrip dan pustaka), skrip init, atau file konfigurasi. Anda idealnya harus membatasi data yang disimpan sebagai file ruang kerja ke himpunan data kecil yang mungkin digunakan untuk tugas seperti pengujian selama pengembangan dan QA. Lihat Apa itu file ruang kerja?.
Membandingkan volume dan konfigurasi penyimpanan objek cloud warisan
Saat Anda menggunakan volume untuk mengelola akses ke data di penyimpanan objek cloud, Anda hanya dapat menggunakan jalur volume untuk mengakses data, dan jalur ini tersedia dengan semua komputasi yang mendukung Katalog Unity. Anda tidak dapat mendaftarkan file data yang mendukung tabel Unity Catalog menggunakan volume. Databricks merekomendasikan penggunaan nama tabel alih-alih jalur file untuk berinteraksi dengan data terstruktur yang terdaftar sebagai tabel Unity Catalog. Lihat Aturan jalur dan akses dalam volume Katalog Unity.
Jika Anda menggunakan metode warisan untuk mengonfigurasi akses ke data di penyimpanan objek cloud, Azure Databricks kembali ke izin ACL tabel warisan. Pengguna yang ingin mengakses data menggunakan URI cloud dari gudang SQL atau komputasi yang dikonfigurasi dengan mode akses standar (sebelumnya dibagikan) memerlukan izin ANY FILE. Lihat Kontrol akses tabel metastore Apache Hive (warisan).
Azure Databricks menyediakan beberapa API untuk mencantumkan file di penyimpanan objek cloud. Sebagian besar contoh dalam artikel ini berfokus pada menggunakan volume. Untuk contoh tentang berinteraksi dengan data pada penyimpanan objek yang dikonfigurasi tanpa volume, lihat Mencantumkan file dengan URI.
Menjelajahi volume
Anda dapat menggunakan Catalog Explorer untuk menjelajahi data dalam volume dan meninjau detail volume. Anda hanya dapat melihat volume yang memiliki izin untuk dibaca, sehingga Anda bisa mengkueri semua data yang ditemukan dengan cara ini.
Anda dapat menggunakan SQL untuk menjelajahi volume dan metadatanya. Untuk mencantumkan file dalam volume, Anda dapat menggunakan SQL, %fs perintah ajaib, atau utilitas Databricks. Saat berinteraksi dengan data dalam volume, Anda menggunakan jalur yang disediakan oleh Unity Catalog, yang selalu memiliki format berikut:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Menampilkan volume
SQL
Jalankan perintah berikut untuk melihat daftar volume dalam skema tertentu.
SHOW VOLUMES IN catalog_name.schema_name;
Lihat SHOW VOLUMES.
Penjelajah Katalog
Untuk menampilkan volume dalam skema tertentu dengan Catalog Explorer, lakukan hal berikut:
- Pilih
Ikon katalog .
- Pilih katalog.
- Pilih skema.
- Klik Volume untuk memperluas semua volume dalam skema.
Catatan
Jika tidak ada volume yang terdaftar ke skema, opsi Volume tidak ditampilkan. Sebagai gantinya, Anda akan melihat daftar tabel yang tersedia.
Lihat detail volume
SQL
Jalankan perintah berikut untuk menggambarkan volume.
DESCRIBE VOLUME volume_name
Lihat DESCRIBE VOLUME.
Penjelajah Katalog
Klik nama volume dan pilih tab Detail untuk meninjau detail volume.
Lihat file dalam volume
SQL
Jalankan perintah berikut untuk mencantumkan file dalam volume.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Penjelajah Katalog
Klik nama volume dan pilih tab Detail untuk meninjau detail volume.
%fs
Jalankan perintah berikut untuk mencantumkan file dalam volume.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Utilitas Databricks
Jalankan perintah berikut untuk mencantumkan file dalam volume.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Pratinjau file dalam volume
Klik pada nama file di volume Catalog Explorer untuk melihat pratinjau file.
Penting
Pengguna harus memiliki izin READ VOLUME pada volume yang berisi untuk mempratinjau file.
File teks menampilkan isi dalam teks biasa.
File gambar yang didukung menghasilkan gambar.
Pengalaman pratinjau mencoba memberikan penyorotan sintaks untuk file seperti .yml, .yaml, dan .json.
Catatan
Pratinjau mungkin gagal ditampilkan dengan benar jika file rusak, struktur konten salah, atau ekstensi yang salah digunakan.
Format file berikut didukung:
- File gambar: jpg, jpeg, png, gif, bmp, webp, ico
- File gambar vektor: svg
- File teks: txt, log, md
- File video: mp4, webm, ogg, mov, avi, mkv, m4v (jenis file lain mungkin didukung, tergantung pada browser Anda)
- File audio: mp3, wav, m4a, flac, aac, wma (jenis file lain mungkin didukung tergantung pada browser Anda)
- File data yang semi terstruktur: json, csv
- Berkas konfigurasi: yaml, yml
- File dokumen: pdf
- File lembar kerja: xls, xlsx
- File data kolom: parket
Mencantumkan file dengan URI
Anda dapat mengkueri penyimpanan objek cloud yang dikonfigurasi dengan metode selain volume menggunakan URI. Anda harus terhubung ke komputasi dengan hak istimewa untuk mengakses lokasi cloud. Izin ANY FILE diperlukan pada gudang SQL dan komputasi yang dikonfigurasi dengan mode akses standar (sebelumnya mode akses bersama).
Catatan
Akses URI ke penyimpanan objek yang dikonfigurasi dengan volume tidak didukung. Anda tidak dapat menggunakan Catalog Explorer untuk meninjau konten penyimpanan objek yang tidak dikonfigurasi dengan volume.
Contoh berikut mencakup contoh URI untuk data yang disimpan dengan Azure Data Lake Storage, S3, dan GCS.
SQL
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Utilitas Databricks
Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")