Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Azure Databricks tabloları için bildirilen tablo boyutu, bulut nesne depolama alanında karşılık gelen dosya dizinlerinin toplam boyutundan farklıdır. Bu sayfada bu farkın neden mevcut olduğu ve maliyetleri denetlemeye yönelik öneriler açıklanır.
Tablo boyutum neden dizin boyutuyla eşleşmiyor?
Azure Databricks'te UI'ler ve DESCRIBE komutlar aracılığıyla bildirilen tablo boyutları, tablonun geçerli sürümünde başvuruda bulunan dosyalar için diskteki veri dosyalarının toplam boyutuna başvurur. Tablolara yazan işlemlerin çoğu, temel alınan veri dosyalarının yeniden yazılmasını gerektirir, ancak eski veri dosyaları, zaman yolculuğu sorgularını desteklemek için belirli bir süre boyunca saklanır.
Not
Tablolardaki kayıtları düzenli olarak siler veya güncelleştirirseniz, silme vektörleri sorguları hızlandırabilir ve veri dosyalarının toplam boyutunu azaltabilir. Bkz . Databricks'te silme vektörleri.
Tablo için depolama ölçümlerini hesapla
Şunun için geçerlidir:
Databricks Runtime 18.0 ve üzeri
Toplam depolama boyutunun tablo boyutundan neden farklı olduğunu anlamak için kullanın ANALYZE TABLE … COMPUTE STORAGE METRICS. Bu komut, depolama ayırma işleminin ayrıntılı dökümünü sağlayarak şunları sağlamanıza yardımcı olur:
-
Maliyet iyileştirme fırsatlarını belirleme: Ne kadar depolama alanının geri alınabileceğini görün
VACUUM - Zaman yolculuğu ek yükünü analiz etme: Geçmiş verileri saklamanın maliyetini anlama
- Depolama desenlerini izleme: Komutu düzenli aralıklarla çalıştırarak tablo depolamanın zaman içinde nasıl geliştiğini izleyin
- Tablolar arasında depolamayı denetleme: Veri varlığınızın tamamını analiz etmek için komutunu döngüde çalıştırın
komutu aşağıdakiler dahil olmak üzere kapsamlı ölçümler döndürür:
- Toplam depolama boyutu: Tüm veriler, meta veriler ve günlükler dahil olmak üzere tam ayak izi
- Etkin veriler: Geçerli tablo sürümünün boyutu
- Vakumlanabilir veriler: Geri kazanılabilen alan
- Zaman yolculuğu verileri: Geriye dönüş işlemleri için geçmiş veriler
Bu özellikle, Azure Databricks'in tahmine dayalı iyileştirme yoluyla depolamayı otomatik olarak yönettiği Unity Kataloğu yönetilen tabloları için önemlidir.
Tam söz dizimi ve örnekler için bkz. İŞLEM DEPOLAMA ÖLÇÜMLERI .
Veri boyutunu denetlemek için tahmine dayalı iyileştirmeyi kullanma
Databricks, Unity Kataloğu yönetilen tablolarının tahmine dayalı iyileştirme etkinleştirilmiş olarak kullanılmasını önerir. Yönetilen tablolar ve tahmine dayalı iyileştirme sayesinde Databricks, kullanılmayan veri dosyalarının birikmesini önlemek için otomatik olarak çalışır OPTIMIZE ve VACUUM komutları çalıştırır. Bir tablonun geçerli sürümü ile bulut nesne depolaması içindeki veri dosyalarının toplam boyutu arasında her zaman bir boyut farkı olmasını bekleyebilirsiniz. Bunun nedeni geçerli sürümde başvurulmayan veri dosyalarının zaman yolculuğu sorgularını desteklemek için gerekli olmasıdır. Bakınız Unity Kataloğu yönetilen tabloları için tahmine dayalı iyileştirme.
Hangi dosya ölçümleri rapor eder VACUUM ?
Kullanılmayan veri dosyalarını VACUUM ile temizlediğinizde veya kaldırma için ayarlanan dosyaların önizlemesini görüntülemek için DRY RUN kullandığınızda ölçümler dosya sayısını ve kaldırılan verilerin boyutunu bildirir.
VACUUM tarafından kaldırılan dosyaların boyutu ve sayısı büyük ölçüde değişir, ancak kaldırılan dosyaların boyutunun tablonun geçerli sürümünün toplam boyutunu aşması yaygın değildir.
Hangi dosya ölçümleri rapor eder OPTIMIZE ?
hedef tabloda OPTIMIZE çalıştırıldığında, yeni veri dosyaları mevcut veri dosyalarındaki kayıtları birleştirir. Veri düzenlemesi OPTIMIZE sırasında yapılan değişiklikler yalnızca veri organizasyonunu etkiler ve altta yatan veri içeriğinde hiçbir değişiklik olmaz. Yeni sıkıştırılmış dosyalar artık başvurulmamış veri dosyalarıyla birlikte içeren dizinde bir arada bulunduğundan, OPTIMIZE çalıştırıldıktan sonra tabloyla ilişkili veri dosyalarının toplam boyutu artar.
Genel olarak, OPTIMIZE'dan sonra bildirilen tablonun boyutu, OPTIMIZE çalıştırılmadan önceki boyuttan daha küçüktür çünkü geçerli tablo sürümü tarafından referans verilen veri dosyalarının toplam boyutu veri sıkıştırma ile azalır.
VACUUM, temel alınan veri dosyalarını kaldırmak için saklama eşiği geçtikten sonra çalıştırılmalıdır.
Not
veya REORG TABLEgibi DROP FEATURE işlemler için benzer ölçümler görebilirsiniz. Veri dosyalarının yeniden yazılmasını gerektiren tüm işlemler, VACUUM geçerli tablo sürümünde başvurulamayacak veri dosyalarını kaldırana kadar, içeren dizindeki verilerin toplam boyutunu artırır.