Azure Databricks'te verileri toplama

Bu makalede toplamaya yönelik genel semantik tanıtılır ve toplu sorgular, gerçekleştirilmiş görünümler ve akış kullanılarak hesaplanan sonuçlar arasındaki farklar ele alınmaktadır.

Toplu biriktirmeler

Batch toplama, SQL'de geçici bir sorgu çalıştırırken veya Apache Spark DataFrames ile verileri işlerken gözlemlenen varsayılan davranıştır.

Tabloya veya veri kaynağına yazılan toplama sorgusu, veri kaynağındaki tüm kayıtların toplam istatistiklerini hesaplar. Azure Databricks, bu sorguları iyileştirmek için mümkün olduğunca iyileştirmeleri ve meta verileri kullanır ve büyük veri kümeleri için birçok toplamayı verimli bir şekilde hesaplayabilir.

Veri boyutu arttıkça toplu toplama gecikme süresi ve işlem maliyetleri artabilir ve önceden hesaplanan sık başvurulabilen toplama değerleri kullanıcılara önemli ölçüde zaman ve para kazandırabilir. Databricks, toplama değerlerini artımlı olarak güncellemek için maddileştirilmiş görünümlerin kullanılmasını önerir. Bkz. Artımlı toplamlar

Durum bilgisi olan toplamlar

Akış iş yüklerinde tanımlanan toplamlar durum bilgisi vardır. Durum bilgisine sahip toplamlar, zaman içinde gözlemlenen kayıtları takip eder ve yeni verileri işlerken sonuçları yeniden hesaplar.

Durumlu tümleşik toplamları işlerken filigranları kullanmanız gerekir. Durum bilgisi olan bir agrega sorgusundaki filigranın atlanması, durum bilgisinin zaman içinde sonsuz bir şekilde birikmesine neden olur. Bu, işlemde yavaşlamalarla sonuçlanabilir ve bellek yetersizliği hatalarına neden olabilir.

Veri kümesinin tamamında istatistikleri hesaplamak için durum bilgisi olan bir toplama kullanmamalısınız. Databricks, veri kümesinin tamamında artımlı toplam hesaplamaları için materyalize edilmiş görünümlerin kullanılmasını önerir. Bkz. Artımlı toplamalar.

Durum bilgisi olan iş yüklerini verimli ve doğru bir şekilde hesaplamak için iş yüklerinin yapılandırılması, verilerin kaynak sistemlerden nasıl geldiğini ve Azure Databricks'in sorgu durumunu ve sonuç hesaplamasını denetlemek için filigranları, çıkış modlarını ve tetikleyici aralıklarını nasıl kullandığını anlamanızı gerektirir.

Artımlı veri toplama

Birçok toplama değerini artımlı olarak hesaplamak için malzemeleştirilmiş görünümleri kullanabilirsiniz. Gerçekleştirilmiş görünümler, veri kaynağındaki değişiklikleri otomatik olarak takip eder ve toplu değerleri yenileme sırasında uygun şekilde günceller. Materyalize edilmiş bir görünüm tarafından döndürülen sonuçlar, toplu iş veya geçici sorgu ile kaynak veriler üzerinde toplanmış sonuçları yeniden hesaplayarak elde edilen sonuçlarla eşdeğerdir.

Yaklaşık veri toplamaları

Azure Databricks son derece büyük veri kümelerinde bilgi işlemde başarılı olsa da, toplamalar için yaklaşık değer kullanmak, hassas sonuçlar gerektirmediğinizde sorgu işlemeyi hızlandırabilir ve maliyetleri azaltabilir.

LIMIT ifadelerini kullanmak bazen verilerin hızlı bir özetini almak için yeterlidir, ancak rastgelelik sağlamaz veya örneklemenin veri kümesinin farklı bölümleri üzerinde dağıldığını garanti etmez.

Spark SQL, sayısal veya kategorik veriler üzerinde toplamaları yaklaşık olarak oluşturmak için aşağıdaki yerel yöntemlere sahiptir:

Ayrıca bir veri kümesinden rastgele örnek oluşturmak ve yaklaşık toplamları hesaplamak için TABLESAMPLE ile örnek yüzdesini belirtebilirsiniz. Bkz.maddesi .

Toplam statistcs kullanarak veri kümelerini izleme

Veri profili oluşturma, zaman içinde veri kalitesini izlemek için toplam istatistikleri ve veri dağıtımlarını kullanır. Eğilimleri görselleştirmek için raporlar oluşturabilir ve verilerdeki beklenmeyen değişiklikleri işaretlemek için uyarılar zamanlayabilirsiniz. Bkz. Veri profili oluşturma.

Geri Bildirim

Bu sayfayı yararlı buldunuz mu?

Last updated on 2026-03-15