Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfa, Unity Catalog birimleriyle yönetilen dizinleri ve veri dosyalarını bulmaya ve keşfetmeye odaklanır; ayrıca, Katalog Gezgini ile birimleri keşfetmek için kullanıcı arabirimi tabanlı talimatları içerir. Birim yollarını ve bulut URI'lerini kullanarak bulut nesne depolamadaki verilerin program aracılığıyla keşfine yönelik örnekler içerir.
Databricks, bulut nesne depolamadaki verilere erişimi yönetmek için birimlerin kullanılmasını önerir. Bulut nesne depolamadaki verilere bağlanma hakkında daha fazla bilgi için bkz. Veri kaynaklarına ve dış hizmetlere bağlanma.
Tüm konumlardaki dosyalarla etkileşim kurma hakkında ayrıntılı bilgi için bkz . Azure Databricks'te dosyalarla çalışma.
Önemli
Çalışma alanı kullanıcı arabiriminde Dosyalar'ı ararken, çalışma alanı dosyaları olarak depolanan veri dosyalarını keşfedebilirsiniz. Databricks öncelikle kod (betikler ve kitaplıklar gibi), başlatma betikleri veya yapılandırma dosyaları için çalışma alanı dosyalarının kullanılmasını önerir. İdeal olarak çalışma alanı dosyaları olarak depolanan verileri geliştirme ve soru-cevap sırasında test etme gibi görevler için kullanılabilecek küçük veri kümeleriyle sınırlamanız gerekir. Bkz . Çalışma alanı dosyaları nedir?.
Birimler ve eski bulut nesnesi yapılandırmaları karşılaştırması
Bulut nesne depolamadaki verilere erişimi yönetmek için birimleri kullandığınızda, yalnızca verilere erişmek için birimler yolunu kullanabilirsiniz ve bu yollar Unity Kataloğu özellikli tüm işlemlerde kullanılabilir. Birimleri kullanarak Unity Kataloğu tablolarını yedekleyerek veri dosyalarını kaydedemezsiniz. Databricks, Unity Kataloğu tabloları olarak kaydedilen yapılandırılmış verilerle etkileşime geçmek için dosya yolları yerine tablo adlarının kullanılmasını önerir. Bkz. Unity Kataloğu birimlerinde yol kuralları ve erişim.
Bulut nesne depolamadaki verilere erişimi yapılandırmak için eski bir yöntem kullanırsanız, Azure Databricks eski tablo ACL'leri izinlerine geri döner. SQL ambarlarından veya standart erişim moduyla yapılandırılan işlemle (önceden paylaşılan) bulut URI'lerini kullanarak verilere erişmek isteyen kullanıcılar ANY FILE iznine ihtiyaç duyar. Bkz. Hive meta veri deposu tablo erişim denetimi (eski).
Azure Databricks, dosyaları bulut nesne depolama alanında listelemek için çeşitli API'ler sağlar. Bu makaledeki örneklerin çoğu hacimleri kullanmaya odaklanır. Birimler olmadan yapılandırılmış nesne depolamadaki verilerle etkileşime ilişkin örnekler için bkz . URI'lerle dosyaları listeleme.
Hacimleri keşfetme
Birimlerdeki verileri keşfetmek ve birimin ayrıntılarını gözden geçirmek için Katalog Gezgini'ni kullanabilirsiniz. Yalnızca okuma izinlerine sahip olduğunuz birimleri görebilirsiniz, böylece bu şekilde bulunan tüm verileri sorgulayabilirsiniz.
Birimleri ve bunların meta verilerini keşfetmek için SQL'i kullanabilirsiniz. Birimlerdeki dosyaları listelemek için SQL, %fs sihirli komut veya Databricks yardımcı programlarını kullanabilirsiniz. Birimlerdeki verilerle etkileşim kurarken, Unity Kataloğu tarafından sağlanan ve her zaman aşağıdaki biçime sahip olan yolu kullanırsınız:
/Volumes/catalog_name/schema_name/volume_name/path/to/data
Hacimleri görüntüle
SQL
Belirli bir şemadaki birimlerin listesini görmek için aşağıdaki komutu çalıştırın.
SHOW VOLUMES IN catalog_name.schema_name;
Bkz. SHOW VOLUMES.
Katalog Gezgini
Belirli bir şemadaki birimleri Katalog Gezgini ile görüntülemek için aşağıdakileri yapın:
-
Katalog simgesi.
- Bir katalog seçin.
- Bir şema seçin.
- Şemadaki tüm birimleri genişletmek için Birimler'e tıklayın.
Not
Şemaya kayıtlı birim yoksa, Birimler seçeneği görüntülenmez. Bunun yerine, kullanılabilir tabloların listesini görürsünüz.
Cilt ayrıntılarına bakın
SQL
Birimi açıklamak için aşağıdaki komutu çalıştırın.
DESCRIBE VOLUME volume_name
Bkz. DESCRIBE VOLUME.
Katalog Gezgini
Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.
Birimlerdeki dosyaları görme
SQL
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
LIST '/Volumes/catalog_name/schema_name/volume_name/'
Katalog Gezgini
Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.
%fs
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
%fs ls /Volumes/catalog_name/schema_name/volume_name/
Databricks yardımcı programları
Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.
dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")
Birimlerdeki dosyaları önizleme
Dosyanın önizlemesini görmek için Katalog Gezgini'nden bir birimdeki dosyanın adına tıklayın.
Önemli
Kullanıcıların dosyaları önizlemek için içeren birim üzerinde READ VOLUME iznine sahip olması gerekir.
Metin dosyaları içeriği düz metin olarak görüntüler.
Desteklenen görüntü dosyaları görüntüleri işler.
Önizleme deneyimi, .yml, .yamlve .jsongibi dosyalar için söz dizimi vurgulama sağlamaya çalışır.
Not
Dosyalar bozuksa, içerik yanlış biçimlendirilmişse veya yanlış uzantı kullanılıyorsa önizlemeler düzgün işlenemez.
Aşağıdaki dosya biçimleri desteklenir:
- Resim dosyaları: jpg, jpeg, png, gif, bmp, webp, ico
- Vektör görüntü dosyaları: svg
- Metin dosyaları: txt, log, md
- Video dosyaları: mp4, webm, ogg, mov, avi, mkv, m4v ( tarayıcınıza bağlı olarak diğer dosya türleri desteklenebilir)
- Ses dosyaları: mp3, wav, m4a, flac, aac, wma ( tarayıcınıza bağlı olarak diğer dosya türleri desteklenebilir)
- Yarı yapılandırılmış veri dosyaları: json, csv
- Yapılandırma dosyaları: yaml, yml
- Belge dosyaları: pdf
- Elektronik tablo dosyaları: xls, xlsx
- Sütunlu veri dosyaları: parquet
URI'lerle dosyaları listeleme
URI'leri kullanarak birimler dışındaki yöntemlerle yapılandırılmış bulut nesnesi depolama alanını sorgulayabilirsiniz. Bulut konumuna erişmek için işleme ayrıcalıklarla bağlı olmanız gerekir.
ANY FILE izni, standart erişim modu (eski adıyla paylaşılan erişim modu) ile yapılandırılmış SQL ambarlarında ve işlemde gereklidir.
Not
Birimlerle yapılandırılan nesne depolamaya URI erişimi desteklenmez. Birimlerle yapılandırılmamış nesne depolama içeriğini gözden geçirmek için Katalog Gezgini'ni kullanamazsınız.
Aşağıdaki örnekler Azure Data Lake Storage, S3 ve GCS ile depolanan verilere yönelik örnek URI'leri içerir.
SQL
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'
-- S3
LIST 's3://bucket-name/path/to/data'
-- GCS
LIST 'gs://bucket-name/path/to/data'
%fs
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data
# S3
%fs ls s3://bucket-name/path/to/data
# GCS
%fs ls gs://bucket-name/path/to/data
Databricks yardımcı programları
Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.
# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")
# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")
# GCS
dbutils.fs.ls("bucket-name/path/to/data")