Aracılığıyla paylaş


Depolamayı keşfetme ve veri dosyalarını bulma

Bu makale, Unity Kataloğu birimleriyle yönetilen dizinleri ve veri dosyalarını bulmaya ve keşfetmeye odaklanır. Bu makale, Katalog Gezgini ile birimleri keşfetmeye yönelik kullanıcı arabirimi tabanlı yönergeler de dahil olmak üzere. Bu makalede, birim yolları ve bulut URI'leri kullanılarak bulut nesne depolamadaki verilerin program aracılığıyla keşfine yönelik örnekler de sağlanır.

Databricks, bulut nesne depolamadaki verilere erişimi yönetmek için birimlerin kullanılmasını önerir. Bulut nesne depolamadaki verilere bağlanma hakkında daha fazla bilgi için bkz . Veri kaynaklarına bağlanma.

Tüm konumlardaki dosyalarla etkileşim kurma hakkında ayrıntılı bilgi için bkz . Azure Databricks'te dosyalarla çalışma.

Önemli

Çalışma alanı kullanıcı arabiriminde Dosyalar'ı ararken, çalışma alanı dosyaları olarak depolanan veri dosyalarını keşfedebilirsiniz. Databricks öncelikle kod (betikler ve kitaplıklar gibi), başlatma betikleri veya yapılandırma dosyaları için çalışma alanı dosyalarının kullanılmasını önerir. İdeal olarak çalışma alanı dosyaları olarak depolanan verileri geliştirme ve soru-cevap sırasında test etme gibi görevler için kullanılabilecek küçük veri kümeleriyle sınırlamanız gerekir. Bkz . Çalışma alanı dosyaları nedir?.

Birimler ve eski bulut nesnesi yapılandırmaları karşılaştırması

Bulut nesne depolamadaki verilere erişimi yönetmek için birimleri kullandığınızda, yalnızca verilere erişmek için birimler yolunu kullanabilirsiniz ve bu yollar Unity Kataloğu özellikli tüm işlemlerde kullanılabilir. Birimleri kullanarak Unity Kataloğu tablolarını yedekleyerek veri dosyalarını kaydedemezsiniz. Databricks, Unity Kataloğu tabloları olarak kaydedilen yapılandırılmış verilerle etkileşime geçmek için dosya yolları yerine tablo adlarının kullanılmasını önerir. Bkz. Unity Kataloğu tarafından yönetilen veriler için yollar nasıl çalışır?

Bulut nesne depolamadaki verilere erişimi yapılandırmak için eski bir yöntem kullanırsanız, Azure Databricks eski tablo ACL'leri izinlerine geri döner. SQL ambarlarından veya paylaşılan erişim moduyla yapılandırılmış işlemden bulut URI'lerini kullanarak verilere erişmek isteyen kullanıcılara izin gerekir ANY FILE . Bkz. Hive meta veri deposu tablo erişim denetimi (eski).

Azure Databricks, dosyaları bulut nesne depolama alanında listelemek için çeşitli API'ler sağlar. Bu makaledeki örneklerin çoğu birimleri kullanmaya odaklanır. Birimler olmadan yapılandırılmış nesne depolamadaki verilerle etkileşime ilişkin örnekler için bkz . URI'lerle dosyaları listeleme.

Birimleri keşfetme

Birimlerdeki verileri keşfetmek ve birimin ayrıntılarını gözden geçirmek için Katalog Gezgini'ni kullanabilirsiniz. Yalnızca okuma izinlerine sahip olduğunuz birimleri görebilirsiniz, böylece bu şekilde bulunan tüm verileri sorgulayabilirsiniz.

Birimleri ve bunların meta verilerini keşfetmek için SQL'i kullanabilirsiniz. Birimlerdeki dosyaları listelemek için SQL, %fs sihirli komut veya Databricks yardımcı programlarını kullanabilirsiniz. Birimlerdeki verilerle etkileşim kurarken, Unity Kataloğu tarafından sağlanan ve her zaman aşağıdaki biçime sahip olan yolu kullanırsınız:

/Volumes/catalog_name/schema_name/volume_name/path/to/data

Birimleri görüntüleme

SQL

Belirli bir şemadaki birimlerin listesini görmek için aşağıdaki komutu çalıştırın.

SHOW VOLUMES IN catalog_name.schema_name;

Bkz. BIRIMLERI GÖSTERME.

Katalog Gezgini

Belirli bir şemadaki birimleri Katalog Gezgini ile görüntülemek için aşağıdakileri yapın:

  1. Katalog simgesi Katalog simgesini seçin.
  2. Bir katalog seçin.
  3. Bir şema seçin.
  4. Şemadaki tüm birimleri genişletmek için Birimler'e tıklayın.

Not

Şemaya kayıtlı birim yoksa, Birimler seçeneği görüntülenmez. Bunun yerine, kullanılabilir tabloların listesini görürsünüz.

Birim ayrıntılarına bakın

SQL

Birimi açıklamak için aşağıdaki komutu çalıştırın.

DESCRIBE VOLUME volume_name

Bkz . DESCRIBE VOLUME.

Katalog Gezgini

Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.

Birimlerdeki dosyaları görme

SQL

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

LIST '/Volumes/catalog_name/schema_name/volume_name/'

Katalog Gezgini

Birim adına tıklayın ve birim ayrıntılarını gözden geçirmek için Ayrıntılar sekmesini seçin.

%fs

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

%fs ls /Volumes/catalog_name/schema_name/volume_name/

Databricks yardımcı programları

Bir birimdeki dosyaları listelemek için aşağıdaki komutu çalıştırın.

dbutils.fs.ls("/Volumes/catalog_name/schema_name/volume_name/")

URI'lerle dosyaları listeleme

URI'leri kullanarak birimler dışındaki yöntemlerle yapılandırılmış bulut nesnesi depolama alanını sorgulayabilirsiniz. Bulut konumuna erişmek için işleme ayrıcalıklarla bağlı olmanız gerekir. İzin ANY FILE , sql ambarlarında ve paylaşılan erişim moduyla yapılandırılmış işlemde gereklidir.

Not

Birimlerle yapılandırılan nesne depolamaya URI erişimi desteklenmez. Birimlerle yapılandırılmamış nesne depolama içeriğini gözden geçirmek için Katalog Gezgini'ni kullanamazsınız.

Aşağıdaki örnekler Azure Data Lake Storage 2. Nesil, S3 ve GCS ile depolanan veriler için örnek URI'leri içerir.

SQL

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.

-- ADLS 2
LIST 'abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data'

-- S3
LIST 's3://bucket-name/path/to/data'

-- GCS
LIST 'gs://bucket-name/path/to/data'

%fs

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.

# ADLS 2
%fs ls abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data

# S3
%fs ls s3://bucket-name/path/to/data

# GCS
%fs ls gs://bucket-name/path/to/data

Databricks yardımcı programları

Bulut nesne depolamasındaki dosyaları listelemek için aşağıdaki komutu çalıştırın.


# ADLS 2
dbutils.fs.ls("abfss://container-name@storage-account-name.dfs.core.windows.net/path/to/data")

# S3
dbutils.fs.ls("s3://bucket-name/path/to/data")

# GCS
dbutils.fs.ls("bucket-name/path/to/data")