Not
Bu sayfaya erişim yetkilendirme gerektiriyor. Oturum açmayı veya dizinleri değiştirmeyi deneyebilirsiniz.
Bu sayfaya erişim yetkilendirme gerektiriyor. Dizinleri değiştirmeyi deneyebilirsiniz.
Bu makale, Azure Databricks'te Yapılandırılmış Akış'a giriş niteliğindedir.
Yapılandırılmış Akış nedir?
Apache Spark Yapılandırılmış Akış, tanıdık Spark API'lerini kullanarak tam bir kez işleme garantileriyle uçtan uca hataya dayanıklılık sunan neredeyse gerçek zamanlı bir işleme altyapısıdır. Yapılandırılmış Akış, akış verileri üzerinde hesaplamayı statik verilerde toplu işlem ifade ettiğiniz gibi ifade etmenizi sağlar. Yapılandırılmış Akış altyapısı, hesaplamayı artımlı olarak gerçekleştirir ve akış verileri geldikçe sonucu sürekli güncelleştirir.
Veri akışından okuma
Desteklenen veri kaynaklarından artımlı olarak veri almak için Yapılandırılmış Akış'ı kullanabilirsiniz. Yaygın veri kaynakları şunlardır:
- Bulut nesne depolamadaki veri dosyaları. Bkz. Otomatik Yükleyici nedir?.
- İleti veriyolları ve kuyruklar. Bkz. Lakeflow Connect'te standart bağlayıcılar.
- Delta Gölü. Bakınız Delta tablo akışı okuma ve yazma işlemleri.
Her veri kaynağı, toplu verilerin nasıl yükleneceğini belirtmek için bir dizi seçenek sağlar. Okuyucu yapılandırması sırasında, aşağıdakileri yapmak için seçenekleri yapılandırmanız gerekebilir:
- Veri kaynağını veya biçimini belirtin (örneğin, dosya türü, sınırlayıcılar ve şema).
- Kaynak sistemlere erişimi yapılandırın (örneğin, bağlantı noktası ayarları ve kimlik bilgileri).
- Bir akışta nereden başlayacağınızı belirtin (örneğin, Kafka uzaklıkları veya var olan tüm dosyaları okuma).
- Her toplu işlemde ne kadar veri işlendiğini denetleyin (örneğin, toplu iş başına en fazla uzaklık, dosya veya bayt). Azure Databricks'te Yapılandırılmış Akış toplu iş boyutunu yapılandırma bilgilerini burada bulabilirsiniz.
Veri havuzuna yazma
Veri havuzu, akış yazma işleminin hedefidir. Azure Databricks akış iş yüklerinde kullanılan yaygın havuzlar şunlardır:
- Delta Gölü
- Mesaj otobüsleri ve kuyruklar
- Anahtar-değer veritabanları
Veri kaynaklarında olduğu gibi, çoğu veri havuzu da verilerin hedef sisteme nasıl yazıldıklarını denetlemek için bir dizi seçenek sağlar. Yazıcı yapılandırması sırasında aşağıdaki seçenekleri belirtirsiniz:
- Çıkış modu (varsayılan olarak ekleme). Bkz. Yapılandırılmış Akışiçin çıkış modu seçme.
- Denetim noktası konumu (her yazar için gereklidir). Bkz . Yapılandırılmış Akış denetim noktaları.
- Tetikleyici aralıkları. Bkz . Yapılandırılmış Akış tetikleyici aralıklarını yapılandırma.
- Veri havuzu veya biçimini belirten seçenekler (örneğin, dosya türü, sınırlayıcılar ve şema).
- Hedef sistemlere erişimi yapılandıran seçenekler (örneğin, bağlantı noktası ayarları ve kimlik bilgileri).