Aracılığıyla paylaş


Yapılandırılmış Akış kavramları

Bu makale, Azure Databricks'te Yapılandırılmış Akış'a giriş niteliğindedir.

Yapılandırılmış Akış nedir?

Apache Spark Yapılandırılmış Akış, tanıdık Spark API'lerini kullanarak tam bir kez işleme garantileriyle uçtan uca hataya dayanıklılık sunan neredeyse gerçek zamanlı bir işleme altyapısıdır. Yapılandırılmış Akış, akış verileri üzerinde hesaplamayı statik verilerde toplu işlem ifade ettiğiniz gibi ifade etmenizi sağlar. Yapılandırılmış Akış altyapısı, hesaplamayı artımlı olarak gerçekleştirir ve akış verileri geldikçe sonucu sürekli güncelleştirir.

Veri akışından okuma

Desteklenen veri kaynaklarından artımlı olarak veri almak için Yapılandırılmış Akış'ı kullanabilirsiniz. Yaygın veri kaynakları şunlardır:

Her veri kaynağı, toplu verilerin nasıl yükleneceğini belirtmek için bir dizi seçenek sağlar. Okuyucu yapılandırması sırasında, aşağıdakileri yapmak için seçenekleri yapılandırmanız gerekebilir:

  • Veri kaynağını veya biçimini belirtin (örneğin, dosya türü, sınırlayıcılar ve şema).
  • Kaynak sistemlere erişimi yapılandırın (örneğin, bağlantı noktası ayarları ve kimlik bilgileri).
  • Bir akışta nereden başlayacağınızı belirtin (örneğin, Kafka uzaklıkları veya var olan tüm dosyaları okuma).
  • Her toplu işlemde ne kadar veri işlendiğini denetleyin (örneğin, toplu iş başına en fazla uzaklık, dosya veya bayt). Azure Databricks'te Yapılandırılmış Akış toplu iş boyutunu yapılandırma bilgilerini burada bulabilirsiniz.

Veri havuzuna yazma

Veri havuzu, akış yazma işleminin hedefidir. Azure Databricks akış iş yüklerinde kullanılan yaygın havuzlar şunlardır:

  • Delta Gölü
  • Mesaj otobüsleri ve kuyruklar
  • Anahtar-değer veritabanları

Veri kaynaklarında olduğu gibi, çoğu veri havuzu da verilerin hedef sisteme nasıl yazıldıklarını denetlemek için bir dizi seçenek sağlar. Yazıcı yapılandırması sırasında aşağıdaki seçenekleri belirtirsiniz: