Birimlerdeki dosyalar ve çalışma alanı dosyaları için öneriler
Verileri veya dosyaları Azure Databricks'e yüklediğinizde veya kaydettiğinizde, Unity Kataloğu birimlerini veya çalışma alanı dosyalarını kullanarak bu dosyaları depolamayı seçebilirsiniz. Bu makale, bu konumları kullanmaya yönelik öneriler ve gereksinimler içerir. Birimler ve çalışma alanı dosyaları hakkında daha fazla bilgi için bkz . Unity Kataloğu birimleri nedir? ve Çalışma alanı dosyaları nedir?.
Databricks verileri, kitaplıkları ve yapıtları depolamak için Unity Kataloğu birimlerinin kullanılmasını önerir. Not defterlerini, SQL sorgularını ve kod dosyalarını çalışma alanı dosyaları olarak depolayın. Çalışma alanı dosya dizinlerini git klasörleri olarak yapılandırarak uzak Git depolarıyla eşitleme yapabilirsiniz. Bkz . Databricks Git klasörleri için Git tümleştirmesi. Test senaryoları için kullanılan küçük veri dosyaları da çalışma alanı dosyaları olarak depolanabilir.
Aşağıdaki tablolar, dosya türünüz veya özellik gereksinimlerinize bağlı olarak dosyalar için belirli öneriler sağlar.
Önemli
Databricks Dosya Sistemi (DBFS) dosya depolama için de kullanılabilir, ancak tüm çalışma alanı kullanıcılarının DBFS'deki dosyalara erişimi olduğundan önerilmez. Bkz. DBFS.
Dosya türleri
Aşağıdaki tabloda dosya türleri için depolama önerileri sağlanmaktadır. Databricks, örnek olarak bu tabloda sağlananların ötesinde birçok dosya biçimi destekler.
Dosya türü | Öneri |
---|---|
Not defterleri ve sorgular gibi Databricks nesneleri | Çalışma alanı dosyaları olarak depolama |
Parquet dosyaları ve ORC dosyaları gibi yapılandırılmış veri dosyaları | Unity Kataloğu birimlerinde depolama |
Metin dosyaları (, .txt ) ve JSON dosyaları (.csv ) gibi yarı yapılandırılmış veri dosyaları.json |
Unity Kataloğu birimlerinde depolama |
Görüntü dosyaları (, ), ses dosyaları (.png .svg ) ve belge dosyaları.mp3 (, .docx ) gibi yapılandırılmamış veri dosyaları.pdf |
Unity Kataloğu birimlerinde depolama |
Geçici veya erken veri keşfi için kullanılan ham veri dosyaları | Unity Kataloğu birimlerinde depolama |
Günlük dosyaları gibi işlemsel veriler | Unity Kataloğu birimlerinde depolama |
ZIP dosyaları gibi büyük arşiv dosyaları (.zip ) |
Unity Kataloğu birimlerinde depolama |
Python dosyaları (), Java dosyaları (.py ) ve Scala dosyaları.java (.scala ) gibi kaynak kod dosyaları |
Varsa, not defterleri ve sorgular gibi diğer ilgili nesnelerle çalışma alanı dosyaları olarak depolayın. Databricks, bu dosyaların sürüm denetimi ve değişiklik izlemesi için bir Git klasöründe yönetilmesini önerir. |
Python tekerlekleri () ve JAR dosyaları.jar (.whl ) gibi yapıtlar ve kitaplıklar oluşturma |
Unity Kataloğu birimlerinde depolama |
Yapılandırma dosyaları | Çalışma alanları arasında gereken yapılandırma dosyalarını Unity Kataloğu birimlerinde depolayın, ancak bir Git klasöründe proje dosyalarıysa çalışma alanı dosyaları olarak depolayın. |
Özellik karşılaştırması
Aşağıdaki tabloda çalışma alanı dosyalarının ve Unity Kataloğu birimlerinin özellik teklifleri karşılaştırlanmıştır.
Özellik | Çalışma alanı dosyaları | Unity Kataloğu birimleri |
---|---|---|
Dosya erişimi | Çalışma alanı dosyalarına yalnızca aynı çalışma alanı içinde erişilebilir. | Dosyalara çalışma alanları arasında genel olarak erişilebilir. |
Program aracılığıyla erişim | Dosyalara aşağıdakiler kullanılarak erişilebilir: - Spark API'leri - BİRLEŞMEK - dbutils - REST API - Databricks SDK'ları - Databricks CLI |
Dosyalara aşağıdakiler kullanılarak erişilebilir: - Spark API'leri - BİRLEŞMEK - dbutils - REST API - Databricks SDK'ları - Databricks SQL Bağlayıcıları - Databricks CLI - Databricks Terraform Sağlayıcısı |
Databricks Varlık Paketleri | Varsayılan olarak, kitaplıkları ve not defterleri ve sorgular gibi Databricks nesnelerini içeren bir paketteki tüm dosyalar çalışma alanı dosyaları olarak güvenli bir şekilde dağıtılır. İzinler paket yapılandırmasında tanımlanır. | Paketler, kitaplıklar çalışma alanı dosyalarının boyut sınırını aştığında zaten birimlerdeki kitaplıkları içerecek şekilde özelleştirilebilir. Bkz . Databricks Varlık Paketleri kitaplık bağımlılıkları. |
Dosya izin düzeyi | dosya git klasöründeyse, izinler Git klasörü düzeyindedir, aksi takdirde izinler dosya düzeyinde ayarlanır. | İzinler birim düzeyindedir. |
İzin yönetimi | İzinler çalışma alanı ACL'leri tarafından yönetilir ve içeren çalışma alanıyla sınırlıdır. | Meta veriler ve izinler Unity Kataloğu tarafından yönetilir. Bu izinler kataloğa erişimi olan tüm çalışma alanlarında geçerlidir. |
Dış depolama bağlama | Dış depolamanın bağlanmayı desteklemez | Dış birim oluşturarak dış depolamada önceden var olan veri kümelerini işaret etme seçeneği sağlar. Bkz . Unity Kataloğu birimleri nedir?. |
UDF desteği | Desteklenmez | UDF'lerden yazma, Volumes FUSE kullanılarak desteklenir |
Dosya boyutu | Not defterleriyle birlikte gereken kaynak kod dosyaları (.py , .md , .yml ) gibi 500 MB'tan küçük dosyaları depolayın. |
Çok büyük veri dosyalarını bulut hizmeti sağlayıcıları tarafından belirlenen sınırlarda depolayın. |
Karşıya yükle ve indir | 10 MB'a kadar karşıya yükleme ve indirme desteği. | 5 GB'a kadar karşıya yükleme ve indirme desteği. |
Tablo oluşturma desteği | Tablolar, konum olarak çalışma alanı dosyalarıyla oluşturulamaz. | Veriler Databricks lakehouse'a veri alma bölümünde açıklanan diğer seçenekler çalıştırılarak, Otomatik Yükleyici veya diğer seçenekler çalıştırılarak COPY INTO bir birimdeki dosyalardan tablolar oluşturulabilir. |
Dizin yapısı ve dosya yolları | Dosyalar, her biri kendi izin modeline sahip iç içe dizinlerde düzenlenir: - Çalışma alanında her kullanıcı ve hizmet sorumlusu için bir tane olan kullanıcı giriş dizinleri - Git klasörleri -Paylaşılan |
Dosyalar bir birimin içindeki iç içe dizinlerde düzenlenir Bkz. Unity Kataloğu'nda verilere nasıl erişebilirsiniz?. |
Dosya geçmişi | Dosya değişikliklerini izlemek için çalışma alanları içindeki Git klasörünü kullanın. | Denetim günlükleri kullanılabilir. |