Aracılığıyla paylaş


Depolamayı keşfetme ve veri dosyalarını bulma

Bu sayfa, Unity Catalog birimleriyle yönetilen dizinleri ve veri dosyalarını bulmaya ve keşfetmeye odaklanır; ayrıca, Katalog Gezgini ile birimleri keşfetmek için kullanıcı arabirimi tabanlı talimatları içerir. Birim yollarını ve bulut URI'lerini kullanarak bulut nesne depolamadaki verilerin program aracılığıyla keşfine yönelik örnekler içerir.

Databricks, bulut nesne depolamadaki verilere erişimi yönetmek için birimlerin kullanılmasını önerir. Bulut nesne depolamadaki verilere bağlanma hakkında daha fazla bilgi için bkz. Veri kaynaklarına ve dış hizmetlere bağlanma.

Tüm konumlardaki dosyalarla etkileşim kurma hakkında ayrıntılı bilgi için bkz . Azure Databricks'te dosyalarla çalışma.

Önemli

Çalışma alanı kullanıcı arabiriminde Dosyalar'ı ararken, çalışma alanı dosyaları olarak depolanan veri dosyalarını keşfedebilirsiniz. Databricks öncelikle kod (betikler ve kitaplıklar gibi), başlatma betikleri veya yapılandırma dosyaları için çalışma alanı dosyalarının kullanılmasını önerir. İdeal olarak çalışma alanı dosyaları olarak depolanan verileri geliştirme ve soru-cevap sırasında test etme gibi görevler için kullanılabilecek küçük veri kümeleriyle sınırlamanız gerekir. Bkz . Çalışma alanı dosyaları nedir?.

Birimler ve eski bulut nesnesi yapılandırmaları karşılaştırması

Bulut nesne depolamadaki verilere erişimi yönetmek için birimleri kullandığınızda, yalnızca verilere erişmek için birimler yolunu kullanabilirsiniz ve bu yollar Unity Kataloğu özellikli tüm işlemlerde kullanılabilir. Birimleri kullanarak Unity Kataloğu tablolarını yedekleyerek veri dosyalarını kaydedemezsiniz. Databricks, Unity Kataloğu tabloları olarak kaydedilen yapılandırılmış verilerle etkileşime geçmek için dosya yolları yerine tablo adlarının kullanılmasını önerir. Bkz. Unity Kataloğu birimlerinde yol kuralları ve erişim.

Bulut nesne depolamadaki verilere erişimi yapılandırmak için eski bir yöntem kullanırsanız, Azure Databricks eski tablo ACL'leri izinlerine geri döner. SQL ambarlarından veya standart erişim moduyla yapılandırılan işlemle (önceden paylaşılan) bulut URI'lerini kullanarak verilere erişmek isteyen kullanıcılar ANY FILE iznine ihtiyaç duyar. Bkz. Hive meta veri deposu tablo erişim denetimi (eski).

Azure Databricks, dosyaları bulut nesne depolama alanında listelemek için çeşitli API'ler sağlar. Bu makaledeki örneklerin çoğu hacimleri kullanmaya odaklanır. Birimler olmadan yapılandırılmış nesne depolamadaki verilerle etkileşime ilişkin örnekler için bkz . URI'lerle dosyaları listeleme.

Hacimleri keşfetme

Birimlerdeki verileri keşfetmek ve birimin ayrıntılarını gözden geçirmek için Katalog Gezgini'ni kullanabilirsiniz. Yalnızca okuma izinlerine sahip olduğunuz birimleri görebilirsiniz, böylece bu şekilde bulunan tüm verileri sorgulayabilirsiniz.

Birimleri ve bunların meta verilerini keşfetmek için SQL'i kullanabilirsiniz. Birimlerdeki dosyaları listelemek için SQL, %fs sihirli komut veya Databricks yardımcı programlarını kullanabilirsiniz. Birimlerdeki verilerle etkileşim kurarken, Unity Kataloğu tarafından sağlanan ve her zaman aşağıdaki biçime sahip olan yolu kullanırsınız:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Hacimleri görüntüle

SQL

Belirli bir şemadaki birimlerin listesini görmek için aşağıdaki komutu çalıştırın.

SHOW VOLUMES IN catalog_name.schema_name;

Bkz. SHOW VOLUMES.

Katalog Gezgini

Belirli bir şemadaki birimleri Katalog Gezgini ile görüntülemek için aşağıdakileri yapın:

  1. Veri simgesini seçin. Katalog simgesi.
  2. Bir katalog seçin.
  3. Bir şema seçin.
  4. Şemadaki tüm birimleri genişletmek için Birimler'e tıklayın.

Not

Şemaya kayıtlı birim yoksa, Birimler seçeneği görüntülenmez. Bunun yerine, kullanılabilir tabloların listesini görürsünüz.

Cilt ayrıntılarına bakın

SQL

Birimi açıklamak için aşağıdaki komutu çalıştırın.

DESCRIBE VOLUME volume_name

Bkz. DESCRIBE VOLUME.

Katalog Gezgini

Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.

Birimlerdeki dosyaları görme

SQL

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Katalog Gezgini

Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.

%fs

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Databricks yardımcı programları

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

Birimlerdeki dosyaları önizleme

Dosyanın önizlemesini görmek için Katalog Gezgini'nden bir birimdeki dosyanın adına tıklayın.

Önemli

Kullanıcıların dosyaları önizlemek için içeren birim üzerinde READ VOLUME iznine sahip olması gerekir.

Metin dosyaları içeriği düz metin olarak görüntüler.

Desteklenen görüntü dosyaları görüntüleri işler.

Önizleme deneyimi, .yml, .yamlve .jsongibi dosyalar için söz dizimi vurgulama sağlamaya çalışır.

Not

Dosyalar bozuksa, içerik yanlış biçimlendirilmişse veya yanlış uzantı kullanılıyorsa önizlemeler düzgün işlenemez.

Aşağıdaki dosya biçimleri desteklenir:

  • Resim dosyaları: jpg, jpeg, png, gif, bmp, webp, ico
  • Vektör görüntü dosyaları: svg
  • Metin dosyaları: txt, log, md
  • Video dosyaları: mp4, webm, ogg, mov, avi, mkv, m4v ( tarayıcınıza bağlı olarak diğer dosya türleri desteklenebilir)
  • Ses dosyaları: mp3, wav, m4a, flac, aac, wma ( tarayıcınıza bağlı olarak diğer dosya türleri desteklenebilir)
  • Yarı yapılandırılmış veri dosyaları: json, csv
  • Yapılandırma dosyaları: yaml, yml
  • Belge dosyaları: pdf
  • Elektronik tablo dosyaları: xls, xlsx
  • Sütunlu veri dosyaları: parquet

URI'lerle dosyaları listeleme

URI'leri kullanarak birimler dışındaki yöntemlerle yapılandırılmış bulut nesnesi depolama alanını sorgulayabilirsiniz. Bulut konumuna erişmek için işleme ayrıcalıklarla bağlı olmanız gerekir. ANY FILE izni, standart erişim modu (eski adıyla paylaşılan erişim modu) ile yapılandırılmış SQL ambarlarında ve işlemde gereklidir.

Not

Birimlerle yapılandırılan nesne depolamaya URI erişimi desteklenmez. Birimlerle yapılandırılmamış nesne depolama içeriğini gözden geçirmek için Katalog Gezgini'ni kullanamazsınız.

Aşağıdaki örnekler Azure Data Lake Storage, S3 ve GCS ile depolanan verilere yönelik örnek URI'leri içerir.

SQL

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Databricks yardımcı programları

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")