Bagikan melalui


Menjelajahi penyimpanan dan menemukan file data

Artikel ini berfokus pada menemukan dan menjelajahi direktori dan file data yang dikelola dengan volume Unity Catalog, termasuk instruksi berbasis UI untuk menjelajahi volume dengan Catalog Explorer. Artikel ini juga menyediakan contoh untuk eksplorasi data terprogram dalam penyimpanan objek cloud menggunakan jalur volume dan URI cloud.

Databricks merekomendasikan penggunaan volume untuk mengelola akses ke data di penyimpanan objek cloud. Untuk informasi selengkapnya tentang menyambungkan ke data di penyimpanan objek cloud, lihat Menyambungkan ke sumber data.

Untuk panduan lengkap tentang cara berinteraksi dengan file di semua lokasi, lihat Bekerja dengan file di Azure Databricks.

Penting

Saat mencari File di UI ruang kerja, Anda mungkin menemukan file data yang disimpan sebagai file ruang kerja. Databricks merekomendasikan penggunaan file ruang kerja terutama untuk kode (seperti skrip dan pustaka), skrip init, atau file konfigurasi. Anda idealnya harus membatasi data yang disimpan sebagai file ruang kerja ke himpunan data kecil yang mungkin digunakan untuk tugas seperti pengujian selama pengembangan dan QA. Lihat Apa itu file ruang kerja?.

Konfigurasi objek cloud volume vs. warisan

Saat Anda menggunakan volume untuk mengelola akses ke data di penyimpanan objek cloud, Anda hanya dapat menggunakan jalur volume untuk mengakses data, dan jalur ini tersedia dengan semua komputasi yang mendukung Katalog Unity. Anda tidak dapat mendaftarkan file data yang mendukung tabel Unity Catalog menggunakan volume. Databricks merekomendasikan penggunaan nama tabel alih-alih jalur file untuk berinteraksi dengan data terstruktur yang terdaftar sebagai tabel Unity Catalog. Lihat Bagaimana cara kerja jalur untuk data yang dikelola oleh Unity Catalog?.

Jika Anda menggunakan metode warisan untuk mengonfigurasi akses ke data di penyimpanan objek cloud, Azure Databricks kembali ke izin ACL tabel warisan. Pengguna yang ingin mengakses data menggunakan URI cloud dari gudang SQL atau komputasi yang dikonfigurasi dengan mode akses bersama memerlukan ANY FILE izin. Lihat Kontrol akses tabel metastore Apache Hive (warisan).

Azure Databricks menyediakan beberapa API untuk mencantumkan file di penyimpanan objek cloud. Sebagian besar contoh dalam artikel ini berfokus pada penggunaan volume. Untuk contoh tentang berinteraksi dengan data pada penyimpanan objek yang dikonfigurasi tanpa volume, lihat Mencantumkan file dengan URI.

Menjelajahi volume

Anda dapat menggunakan Catalog Explorer untuk menjelajahi data dalam volume dan meninjau detail volume. Anda hanya dapat melihat volume yang memiliki izin untuk dibaca, sehingga Anda bisa mengkueri semua data yang ditemukan dengan cara ini.

Anda dapat menggunakan SQL untuk menjelajahi volume dan metadatanya. Untuk mencantumkan file dalam volume, Anda dapat menggunakan SQL, %fs perintah ajaib, atau utilitas Databricks. Saat berinteraksi dengan data dalam volume, Anda menggunakan jalur yang disediakan oleh Unity Catalog, yang selalu memiliki format berikut:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Menampilkan volume

SQL

Jalankan perintah berikut untuk melihat daftar volume dalam skema tertentu.

SHOW VOLUMES IN catalog_name.schema_name;

Lihat MENAMPILKAN VOLUME.

Penjelajah Katalog

Untuk menampilkan volume dalam skema tertentu dengan Catalog Explorer, lakukan hal berikut:

  1. Ikon katalog Pilih ikon Katalog.
  2. Pilih katalog.
  3. Pilih skema.
  4. Klik Volume untuk memperluas semua volume dalam skema.

Catatan

Jika tidak ada volume yang terdaftar ke skema, opsi Volume tidak ditampilkan. Sebagai gantinya, Anda akan melihat daftar tabel yang tersedia.

Lihat detail volume

SQL

Jalankan perintah berikut untuk menjelaskan volume.

DESCRIBE VOLUME volume_name

Lihat MENDESKRIPSIKAN VOLUME.

Penjelajah Katalog

Klik nama volume dan pilih tab Detail untuk meninjau detail volume.

Lihat file dalam volume

SQL

Jalankan perintah berikut untuk mencantumkan file dalam volume.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Penjelajah Katalog

Klik nama volume dan pilih tab Detail untuk meninjau detail volume.

%fs

Jalankan perintah berikut untuk mencantumkan file dalam volume.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Utilitas Databricks

Jalankan perintah berikut untuk mencantumkan file dalam volume.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Mencantumkan file dengan URI

Anda dapat mengkueri penyimpanan objek cloud yang dikonfigurasi dengan metode selain volume menggunakan URI. Anda harus terhubung ke komputasi dengan hak istimewa untuk mengakses lokasi cloud. Izin ANY FILE diperlukan pada gudang SQL dan komputasi yang dikonfigurasi dengan mode akses bersama.

Catatan

Akses URI ke penyimpanan objek yang dikonfigurasi dengan volume tidak didukung. Anda tidak dapat menggunakan Catalog Explorer untuk meninjau konten penyimpanan objek yang tidak dikonfigurasi dengan volume.

Contoh berikut mencakup contoh URI untuk data yang disimpan dengan Azure Data Lake Storage Gen2, S3, dan GCS.

SQL

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Utilitas Databricks

Jalankan perintah berikut untuk mencantumkan file di penyimpanan objek cloud.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")