Yapılandırılmış Akış kavramları

Apache Spark Yapılandırılmış Akış, tanıdık Spark API'lerini kullanarak tam bir kez işleme garantileriyle uçtan uca hataya dayanıklılık sunan neredeyse gerçek zamanlı bir işleme altyapısıdır. Yapılandırılmış Akış, akış verileri üzerinde hesaplamayı statik verilerde toplu işlem ifade ettiğiniz gibi ifade etmenizi sağlar. Yapılandırılmış Akış altyapısı, hesaplamayı artımlı olarak gerçekleştirir ve akış verileri geldikçe sonucu sürekli güncelleştirir.

Adım adım öğretici için bkz. İlk Yapılandırılmış Akış iş yükünüzü çalıştırma.

Veri akışından okuma

Desteklenen veri kaynaklarından artımlı olarak veri almak için Yapılandırılmış Akış'ı kullanın.

Özellik Açıklama
Otomatik Yükleyici Bulut depolama alanına ulaşan yeni veri dosyalarını artımlı ve verimli bir şekilde işleyin.
Delta tablo akışındaki okuma ve yazma işlemleri Delta Lake tablolarını akış kaynakları ve havuzları olarak tam olarak bir kez işleme garantisiyle kullanın.
Standart bağlayıcılar Standart bağlayıcıları kullanarak ileti veri yolları, kuyruklar ve kurumsal uygulamalara bağlanın.
Mikro yığın boyutu Tutarlı toplu iş boyutlarını korumak ve işleme gecikmelerini önlemek için giriş oranlarını sınırlayın.

Veri havuzuna yazma

Yapılandırılmış Akış'ın hedef sistemlere verileri nasıl teslim edeceklerini yapılandırın.

Özellik Açıklama
denetim noktaları Hataya dayanıklılık ve tam anlamıyla bir kez teslim semantiği sağlamak için işlem durumunu saklayın.
Çıkış modu Durum bilgisi olan akış sorguları için ekleme, güncelleştirme ve tamamlama modları arasında seçim yapın.
Tetikleyici aralıkları İşlem gereksinimlerinizin gecikme süresini ve maliyetini dengelemek için tetikleyici aralıkları ayarlayın.
Structured Streaming'de gerçek zamanlı mod Uçtan uca gecikme süresi beş milisaniyeye kadar düşük olan gerçek zamanlı iş yükleri için verileri işleyin.

Durum bilgisi olan ve durum bilgisi olmayan işleme

Durum bilgisi olmayan sorgular, durumu korumadan satırları işler. Durum bilgisi olan sorgular toplamalar, birleştirmeler ve yinelenenleri kaldırma için ara durumu korur.

Özellik Açıklama
Durum bilgisi olmayan akış sorguları Ara durumu korumadan verileri işleyen sorguları iyileştirin.
Filigran Yapılandırılmış Akış İşlemleri'nin durum bilgisi içeren işlemlerinde geç gelen verileri ne kadar süreyle bekleyeceğini denetleyin.
Durumlu akış Durum bilgisi olan işleçleri kullanarak toplamaları, akış akış birleştirmelerini ve yinelenenleri kaldırmayı yönetin.

İzleme ve yönetme

Üretim Yapılandırılmış Akış iş yükleri için sorgu performansını izleyin, iyileştirmeler uygulayın ve veri erişimini idare edin.

Özellik Açıklama
StreamingQueryListener ile izleme Spark kullanıcı arabirimini ve dinleyici API'sini kullanarak sorgu ilerleme durumunu ve performans ölçümlerini izleyin.
Unity Kataloğu ile yönet İdare ve erişim denetimi ile akış iş yükleri için Unity Kataloğu'nu yapılandırın.