Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfada Databricks Runtime 18.0 ve üzeri sürümlerin durum bilgisi olmayan akış sorguları için kullanılabilen iyileştirme özellikleri açıklanmaktadır.
Durum Bilgisi Olmayan Yapılandırılmış Akış sorguları, ara durumu korumadan verileri işler. Bu sorgular, akış toplamaları ve akış-akış birleştirmeleri gibi durum bilgisi olan işleçleri kullanmaz. Örnek olarak, delta tablolarıyla akış statik birleşimleri kullanan sorgular MERGE INTO ve yalnızca kaynaktan havuza işlenen satırları izleyen diğer işlemler verilebilir.
Uyarlamalı Sorgu Yürütme ve Otomatik İyileştirilmiş Karıştırma
Azure Databricks, durum bilgisi olmayan akış sorguları için Uyarlamalı Sorgu Yürütme (AQE) ve Otomatik olarak İyileştirilmiş Karıştırma 'yi (AOS) destekler. Bu özellikler Delta tabloları ve benzer işlemler ile akış statik birleşimleri kullanan akış iş yüklerini MERGE INTO iyileştirmeye yardımcı olur.
Durum bilgisi olmayan akış sorguları için AQE'yi etkinleştirmek için aşağıdaki yapılandırmayı olarak trueayarlayın. Bu varsayılan olarak etkindir:
spark.sql.adaptive.streaming.stateless.enabled true
Durum bilgisi olmayan akış sorguları için AOS'yi etkinleştirmek için AQE'yi etkinleştirin ve aşağıdaki yapılandırmayı ayarlayın:
spark.sql.shuffle.partitions auto
Sorgu yeniden başlatılırken shuffle bölümlerini değiştirme
Durum bilgisi olmayan akış sorguları, sorguyu yeniden başlattığınızda shuffle bölümlerinin sayısını değiştirmeye olanak tanır. Bu, paralelliği değişken giriş hacimlerini barındıracak şekilde ayarlamanıza olanak tanır.
Bu özellik özellikle geçmişe dönük yedekleme senaryoları için kullanışlıdır. Örneğin, geçmiş verilerle doldurmayı daha yüksek paralellikle işleyebilir ve ardından gerçek zamanlı veri girişi için paralelliği azaltabilirsiniz.
Karışık bölüm sayısını değiştirmek için aşağıdaki yapılandırmayı istediğiniz değere ayarlayın ve sorguyu yeniden başlatın:
spark.sql.shuffle.partitions <number>