Aracılığıyla paylaş


Birimlerdeki dosyalar ve çalışma alanı dosyaları için öneriler

Verileri veya dosyaları Azure Databricks'e yüklediğinizde veya kaydettiğinizde, Unity Kataloğu birimlerini veya çalışma alanı dosyalarını kullanarak bu dosyaları depolamayı seçebilirsiniz. Bu makale, bu konumları kullanmaya yönelik öneriler ve gereksinimler içerir. Birimler ve çalışma alanı dosyaları hakkında daha fazla bilgi için bkz . Unity Kataloğu birimleri nedir? ve Çalışma alanı dosyaları nedir?.

Databricks verileri, kitaplıkları ve yapıtları depolamak için Unity Kataloğu birimlerinin kullanılmasını önerir. Not defterlerini, SQL sorgularını ve kod dosyalarını çalışma alanı dosyaları olarak depolayın. Çalışma alanı dosya dizinlerini git klasörleri olarak yapılandırarak uzak Git depolarıyla eşitleme yapabilirsiniz. Bkz . Databricks Git klasörleri için Git tümleştirmesi. Test senaryoları için kullanılan küçük veri dosyaları da çalışma alanı dosyaları olarak depolanabilir.

Aşağıdaki tablolar, dosya türünüz veya özellik gereksinimlerinize bağlı olarak dosyalar için belirli öneriler sağlar.

Önemli

Databricks Dosya Sistemi (DBFS) dosya depolama için de kullanılabilir, ancak tüm çalışma alanı kullanıcılarının DBFS'deki dosyalara erişimi olduğundan önerilmez. Bkz. DBFS.

Dosya türleri

Aşağıdaki tabloda dosya türleri için depolama önerileri sağlanmaktadır. Databricks, örnek olarak bu tabloda sağlananların ötesinde birçok dosya biçimi destekler.

Dosya türü Öneri
Not defterleri ve sorgular gibi Databricks nesneleri Çalışma alanı dosyaları olarak depolama
Parquet dosyaları ve ORC dosyaları gibi yapılandırılmış veri dosyaları Unity Kataloğu birimlerinde depolama
Metin dosyaları (, .txt) ve JSON dosyaları (.csv) gibi yarı yapılandırılmış veri dosyaları.json Unity Kataloğu birimlerinde depolama
Görüntü dosyaları (, ), ses dosyaları (.png.svg) ve belge dosyaları.mp3 (, .docx) gibi yapılandırılmamış veri dosyaları.pdf Unity Kataloğu birimlerinde depolama
Geçici veya erken veri keşfi için kullanılan ham veri dosyaları Unity Kataloğu birimlerinde depolama
Günlük dosyaları gibi işlemsel veriler Unity Kataloğu birimlerinde depolama
ZIP dosyaları gibi büyük arşiv dosyaları (.zip) Unity Kataloğu birimlerinde depolama
Python dosyaları (), Java dosyaları (.py) ve Scala dosyaları.java (.scala) gibi kaynak kod dosyaları Varsa, not defterleri ve sorgular gibi diğer ilgili nesnelerle çalışma alanı dosyaları olarak depolayın.

Databricks, bu dosyaların sürüm denetimi ve değişiklik izlemesi için bir Git klasöründe yönetilmesini önerir.
Python tekerlekleri () ve JAR dosyaları.jar (.whl) gibi yapıtlar ve kitaplıklar oluşturma Unity Kataloğu birimlerinde depolama
Yapılandırma dosyaları Çalışma alanları arasında gereken yapılandırma dosyalarını Unity Kataloğu birimlerinde depolayın, ancak bir Git klasöründe proje dosyalarıysa çalışma alanı dosyaları olarak depolayın.

Özellik karşılaştırması

Aşağıdaki tabloda çalışma alanı dosyalarının ve Unity Kataloğu birimlerinin özellik teklifleri karşılaştırlanmıştır.

Özellik Çalışma alanı dosyaları Unity Kataloğu birimleri
Dosya erişimi Çalışma alanı dosyalarına yalnızca aynı çalışma alanı içinde erişilebilir. Dosyalara çalışma alanları arasında genel olarak erişilebilir.
Program aracılığıyla erişim Dosyalara aşağıdakiler kullanılarak erişilebilir:

- Spark API'leri
- BİRLEŞMEK
- dbutils
- REST API
- Databricks SDK'ları
- Databricks CLI
Dosyalara aşağıdakiler kullanılarak erişilebilir:

- Spark API'leri
- BİRLEŞMEK
- dbutils
- REST API
- Databricks SDK'ları
- Databricks SQL Bağlayıcıları
- Databricks CLI
- Databricks Terraform Sağlayıcısı
Databricks Varlık Paketleri Varsayılan olarak, kitaplıkları ve not defterleri ve sorgular gibi Databricks nesnelerini içeren bir paketteki tüm dosyalar çalışma alanı dosyaları olarak güvenli bir şekilde dağıtılır. İzinler paket yapılandırmasında tanımlanır. Paketler, kitaplıklar çalışma alanı dosyalarının boyut sınırını aştığında zaten birimlerdeki kitaplıkları içerecek şekilde özelleştirilebilir. Bkz . Databricks Varlık Paketleri kitaplık bağımlılıkları.
Dosya izin düzeyi dosya git klasöründeyse, izinler Git klasörü düzeyindedir, aksi takdirde izinler dosya düzeyinde ayarlanır. İzinler birim düzeyindedir.
İzin yönetimi İzinler çalışma alanı ACL'leri tarafından yönetilir ve içeren çalışma alanıyla sınırlıdır. Meta veriler ve izinler Unity Kataloğu tarafından yönetilir. Bu izinler kataloğa erişimi olan tüm çalışma alanlarında geçerlidir.
Dış depolama bağlama Dış depolamanın bağlanmayı desteklemez Dış birim oluşturarak dış depolamada önceden var olan veri kümelerini işaret etme seçeneği sağlar. Bkz . Unity Kataloğu birimleri nedir?.
UDF desteği Desteklenmez UDF'lerden yazma, Volumes FUSE kullanılarak desteklenir
Dosya boyutu Not defterleriyle birlikte gereken kaynak kod dosyaları (.py, .md, .yml) gibi 500 MB'tan küçük dosyaları depolayın. Çok büyük veri dosyalarını bulut hizmeti sağlayıcıları tarafından belirlenen sınırlarda depolayın.
Karşıya yükle ve indir 10 MB'a kadar karşıya yükleme ve indirme desteği. 5 GB'a kadar karşıya yükleme ve indirme desteği.
Tablo oluşturma desteği Tablolar, konum olarak çalışma alanı dosyalarıyla oluşturulamaz. Veriler Databricks lakehouse'a veri alma bölümünde açıklanan diğer seçenekler çalıştırılarak, Otomatik Yükleyici veya diğer seçenekler çalıştırılarak COPY INTObir birimdeki dosyalardan tablolar oluşturulabilir.
Dizin yapısı ve dosya yolları Dosyalar, her biri kendi izin modeline sahip iç içe dizinlerde düzenlenir:

- Çalışma alanında her kullanıcı ve hizmet sorumlusu için bir tane olan kullanıcı giriş dizinleri
- Git klasörleri
-Paylaşılan
Dosyalar bir birimin içindeki iç içe dizinlerde düzenlenir

Bkz. Unity Kataloğu'nda verilere nasıl erişebilirsiniz?.
Dosya geçmişi Dosya değişikliklerini izlemek için çalışma alanları içindeki Git klasörünü kullanın. Denetim günlükleri kullanılabilir.