Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makalede toplamaya yönelik genel semantik tanıtılır ve toplu sorgular, gerçekleştirilmiş görünümler ve akış kullanılarak hesaplanan sonuçlar arasındaki farklar ele alınmaktadır.
Toplu toplamalar
Batch toplama, SQL'de geçici bir sorgu çalıştırırken veya Apache Spark DataFrames ile verileri işlerken gözlemlenen varsayılan davranıştır.
Tabloya veya veri kaynağına yazılan toplama sorgusu, veri kaynağındaki tüm kayıtların toplam istatistiklerini hesaplar. Azure Databricks, bu sorguları iyileştirmek için mümkün olduğunca iyileştirmeleri ve meta verileri kullanır ve büyük veri kümeleri için birçok toplamayı verimli bir şekilde hesaplayabilir.
Veri boyutu arttıkça toplu toplama gecikme süresi ve işlem maliyetleri artabilir ve önceden hesaplanan sık başvurulabilen toplama değerleri kullanıcılara önemli ölçüde zaman ve para kazandırabilir. Databricks, toplama değerlerini artımlı olarak güncellemek için maddileştirilmiş görünümlerin kullanılmasını önerir. Bkz . Artımlı toplamalar.
Durum bilgisi olan toplamlar
Akış iş yüklerinde tanımlanan toplamlar durum bilgisi vardır. Durum bilgisi olan toplamlar, zaman içinde gözlemlenen kayıtları izler ve yeni verileri işlerken sonuçları yeniden derler.
Durum bilgisi olan toplamları işlerken filigranları kullanmanız gerekir. Durum bilgisi olan bir agrega sorgusundaki filigranın atlanması, durum bilgisinin zaman içinde sonsuz bir şekilde birikmesine neden olur. Bu, yavaşlamaların işlenmesiyle sonuçlanabilir ve bellek yetersiz hatalarına neden olabilir.
Veri kümesinin tamamında istatistikleri hesaplamak için durum bilgisi olan bir toplama kullanmamalısınız. Databricks, veri kümesinin tamamında artımlı toplam hesaplamaları için materyalize edilmiş görünümlerin kullanılmasını önerir. Bkz . Artımlı toplamalar.
Durum bilgisi olan iş yüklerini verimli ve doğru bir şekilde toplayan iş yüklerinin yapılandırılması, verilerin kaynak sistemlerden nasıl geldiğini ve Azure Databricks'in sorgu durumunu ve sonuç hesaplamasını denetlemek için filigranları, çıkış modlarını ve tetikleyici aralıklarını nasıl kullandığını anlamanızı gerektirir.
Artımlı toplamalar
Birçok toplama değerini artımlı olarak hesaplamak için malzemeleştirilmiş görünümleri kullanabilirsiniz. Gerçekleştirilmiş görünümler, veri kaynağındaki değişiklikleri otomatik olarak takip eder ve toplu değerleri yenileme sırasında uygun şekilde günceller. Gerçekleştirilmiş bir görünüm tarafından döndürülen sonuçlar, toplu iş veya geçici sorgu ile kaynak verilerde toplam sonuçları yeniden derleyerek döndürülen sonuçlara eşdeğerdir.
Yaklaşık toplamalar
Azure Databricks son derece büyük veri kümelerinde bilgi işlemde başarılı olsa da, toplamalar için yaklaşık değer kullanmak, hassas sonuçlar gerektirmediğinizde sorgu işlemeyi hızlandırabilir ve maliyetleri azaltabilir.
Deyimleri kullanmak LIMIT bazen verilerin hızlı bir anlık görüntüsünü almak için yeterlidir, ancak rastgelelik sağlamaz veya örneklemenin veri kümesine dağıtıldığını garanti etmez.
Spark SQL, sayısal veya kategorik veriler üzerinde toplamaları yaklaşık olarak oluşturmak için aşağıdaki yerel yöntemlere sahiptir:
Ayrıca bir veri kümesinden rastgele örnek oluşturmak ve yaklaşık toplamları hesaplamak için TABLESAMPLE ile örnek yüzdesini belirtebilirsiniz. Bkz.maddesi
Toplam statistcs kullanarak veri kümelerini izleme
Veri profili oluşturma, zaman içinde veri kalitesini izlemek için toplam istatistikleri ve veri dağıtımlarını kullanır. Eğilimleri görselleştirmek için raporlar oluşturabilir ve verilerdeki beklenmeyen değişiklikleri işaretlemek için uyarılar zamanlayabilirsiniz. Bkz. Veri profili oluşturma.