Menjelajahi penyimpanan dan menemukan file data

Halaman ini berfokus pada menemukan dan menjelajahi direktori dan file data yang dikelola dengan volume Unity Catalog, termasuk instruksi berbasis UI untuk menjelajahi volume dengan Catalog Explorer. Ini termasuk contoh untuk eksplorasi data terprogram dalam penyimpanan objek cloud menggunakan jalur volume dan URI cloud.

Databricks merekomendasikan penggunaan volume untuk mengelola akses ke data di penyimpanan objek cloud. Untuk informasi selengkapnya tentang menyambungkan ke data di penyimpanan objek cloud, lihat Menyambungkan ke sumber data dan layanan eksternal.

Untuk panduan lengkap tentang cara berinteraksi dengan file di semua lokasi, lihat Bekerja dengan file di Azure Databricks.

Penting

Saat mencari File di UI ruang kerja, Anda mungkin menemukan file data yang disimpan sebagai file ruang kerja. Databricks merekomendasikan penggunaan file ruang kerja terutama untuk kode (seperti skrip dan pustaka), skrip init, atau file konfigurasi. Anda idealnya harus membatasi data yang disimpan sebagai file ruang kerja ke himpunan data kecil yang mungkin digunakan untuk tugas seperti pengujian selama pengembangan dan QA. Lihat Apa itu file ruang kerja?.

Membandingkan volume dan konfigurasi penyimpanan objek cloud warisan

Saat Anda menggunakan volume untuk mengelola akses ke data di penyimpanan objek cloud, Anda hanya dapat menggunakan jalur volume untuk mengakses data, dan jalur ini tersedia dengan semua komputasi yang mendukung Katalog Unity. Anda tidak dapat mendaftarkan file data yang mendukung tabel Unity Catalog menggunakan volume. Databricks merekomendasikan penggunaan nama tabel alih-alih jalur file untuk berinteraksi dengan data terstruktur yang terdaftar sebagai tabel Unity Catalog. Lihat Aturan jalur dan akses dalam volume Katalog Unity.

Jika Anda menggunakan metode warisan untuk mengonfigurasi akses ke data di penyimpanan objek cloud, Azure Databricks kembali ke izin ACL tabel warisan. Pengguna yang ingin mengakses data menggunakan URI cloud dari gudang SQL atau komputasi yang dikonfigurasi dengan mode akses standar (sebelumnya dibagikan) memerlukan izin ANY FILE. Lihat Kontrol akses tabel metastore Apache Hive (warisan).

Azure Databricks menyediakan beberapa API untuk mencantumkan file di penyimpanan objek cloud. Sebagian besar contoh dalam artikel ini berfokus pada menggunakan volume. Untuk contoh tentang berinteraksi dengan data pada penyimpanan objek yang dikonfigurasi tanpa volume, lihat Mencantumkan file dengan URI.

Menjelajahi volume

Anda dapat menggunakan Catalog Explorer untuk menjelajahi data dalam volume dan meninjau detail volume. Anda hanya dapat melihat volume yang memiliki izin untuk dibaca, sehingga Anda bisa mengkueri semua data yang ditemukan dengan cara ini.

Anda dapat menggunakan SQL untuk menjelajahi volume dan metadatanya. Untuk mencantumkan file dalam volume, Anda dapat menggunakan SQL, %fs perintah ajaib, atau utilitas Databricks. Saat berinteraksi dengan data dalam volume, Anda menggunakan jalur yang disediakan oleh Unity Catalog, yang selalu memiliki format berikut:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Menampilkan volume

SQL

Jalankan perintah berikut untuk melihat daftar volume dalam skema tertentu.

SHOW VOLUMES IN catalog_name.schema_name;

Lihat SHOW VOLUMES.

Penjelajah Katalog

Untuk menampilkan volume dalam skema tertentu dengan Catalog Explorer, lakukan hal berikut:

  1. Pilih ikon Data.Ikon katalog .
  2. Pilih katalog.
  3. Pilih skema.
  4. Klik Volume untuk memperluas semua volume dalam skema.

Catatan

Jika tidak ada volume yang terdaftar ke skema, opsi Volume tidak ditampilkan. Sebagai gantinya, Anda akan melihat daftar tabel yang tersedia.

Lihat detail volume

SQL

Jalankan perintah berikut untuk menggambarkan volume.

DESCRIBE VOLUME volume_name

Lihat DESCRIBE VOLUME.

Penjelajah Katalog

Klik nama volume dan pilih tab Detail untuk meninjau detail volume.

Lihat file dalam volume

SQL

Jalankan perintah berikut untuk mencantumkan file dalam volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Penjelajah Katalog

Klik nama volume dan pilih tab Detail untuk meninjau detail volume.

%fs

Jalankan perintah berikut untuk mencantumkan file dalam volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Utilitas Databricks

Jalankan perintah berikut untuk mencantumkan file dalam volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Pratinjau file dalam volume

Klik pada nama file di volume Catalog Explorer untuk melihat pratinjau file.

Penting

Pengguna harus memiliki izin READ VOLUME pada volume yang berisi untuk mempratinjau file.

File teks menampilkan isi dalam teks biasa.

File gambar yang didukung menghasilkan gambar.

Pengalaman pratinjau mencoba memberikan penyorotan sintaks untuk file seperti .yml, .yaml, dan .json.

Catatan

Pratinjau mungkin gagal ditampilkan dengan benar jika file rusak, struktur konten salah, atau ekstensi yang salah digunakan.

Format file berikut didukung:

  • File gambar: jpg, jpeg, png, gif, bmp, webp, ico
  • File gambar vektor: svg
  • File teks: txt, log, md
  • File video: mp4, webm, ogg, mov, avi, mkv, m4v (jenis file lain mungkin didukung, tergantung pada browser Anda)
  • File audio: mp3, wav, m4a, flac, aac, wma (jenis file lain mungkin didukung tergantung pada browser Anda)
  • File data yang semi terstruktur: json, csv
  • Berkas konfigurasi: yaml, yml
  • File dokumen: pdf
  • File lembar kerja: xls, xlsx
  • File data kolom: parket

Mencantumkan file dengan URI

Anda dapat mengkueri penyimpanan objek cloud yang dikonfigurasi dengan metode selain volume menggunakan URI. Anda harus terhubung ke komputasi dengan hak istimewa untuk mengakses lokasi cloud. Izin ANY FILE diperlukan pada gudang SQL dan komputasi yang dikonfigurasi dengan mode akses standar (sebelumnya mode akses bersama).

Catatan

Akses URI ke penyimpanan objek yang dikonfigurasi dengan volume tidak didukung. Anda tidak dapat menggunakan Catalog Explorer untuk meninjau konten penyimpanan objek yang tidak dikonfigurasi dengan volume.

Contoh berikut mencakup contoh URI untuk data yang disimpan dengan Azure Data Lake Storage, S3, dan GCS.

SQL

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Utilitas Databricks

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")