İşlem hatlarında veri akışlarını kullanma

Birden çok veri akışıyla karmaşık işlem hatları oluştururken mantıksal akışınızın zamanlama ve maliyet üzerinde büyük etkisi olabilir. Bu bölüm, farklı mimari stratejilerinin etkisini kapsar.

Veri akışlarını paralel olarak yürütme

Birden çok veri akışını paralel olarak yürütürseniz, hizmet her etkinlik için ayrı Spark kümeleri oluşturur. Bu, her işin yalıtılmasını ve paralel olarak çalıştırılmasını sağlar, ancak aynı anda birden çok kümenin çalışmasına neden olur.

Veri akışlarınız paralel olarak yürütülürse, birden çok kullanılmayan sıcak havuza yol açtığından Azure IR süresini canlı özelliğe etkinleştirmemenizi öneririz.

İpucu

Her bir "for each" etkinliğinde aynı veri akışını birden çok kez çalıştırmak yerine, verilerinizi bir veri gölünde hazırlayın ve joker karakter yollarını kullanarak verileri tek bir veri akışında işleyin.

Veri akışlarını sıralı olarak yürütme

Veri akışı etkinliklerinizi sırayla yürütürseniz, Azure IR yapılandırmasında bir TTL ayarlamanız önerilir. Hizmet işlem kaynaklarını yeniden kullanır ve küme başlatma süresinin daha hızlı olmasına neden olur. Her etkinlik hala yalıtılmış durumdadır ve her yürütme için yeni bir Spark bağlamı alır.

Tek bir veri akışını aşırı yükleme

Tüm mantığınızı tek bir veri akışının içine koyarsanız, hizmet işin tamamını tek bir Spark örneğinde yürütür. Bu, maliyetleri azaltmanın bir yolu gibi görünse de, farklı mantıksal akışları bir araya getirerek izlemesi ve hatalarını ayıklaması zor olabilir. Bir bileşen başarısız olursa, işin diğer tüm bölümleri de başarısız olur. Veri akışlarının bağımsız iş mantığı akışlarına göre düzenlenmesi önerilir. Veri akışınız çok büyük hale gelirse, akışı ayrı bileşenlere bölmek izlemeyi ve hata ayıklamayı kolaylaştırır. Bir veri akışındaki dönüştürme sayısı üzerinde sabit bir sınır olmasa da, çok fazla olması işi karmaşık hale getirir.

Alıcıları paralel olarak çalıştırma

Veri akışı havuzlarının varsayılan davranışı, her havuzu sırayla, seri bir şekilde yürütmek ve havuz içinde bir hatayla karşılaşıldığında veri akışının başarısız olmasıdır. Ayrıca, veri akışı özelliklerine gidip havuzlar için farklı öncelikler ayarlamadığınız sürece tüm havuzlar varsayılan olarak aynı gruba ayarlanır.

Veri akışları, havuzları kullanıcı arabirimi tasarımcısındaki veri akışı özellikleri sekmesinden gruplar halinde gruplandırmanıza olanak tanır. Hem havuzlarınızın yürütme sırasını hem de havuzları aynı grup numarasını kullanarak birlikte gruplandırabilirsiniz. Grupları yönetmeye yardımcı olmak için hizmetten aynı grupta yer alan süreçlerin paralel çalışmasını isteyebilirsiniz.

İşlem hattında, "Sink Özellikleri" bölümünde paralel sink yüklemeyi açmak için veri akış etkinliğini yürütme seçeneği bulunmaktadır. "Paralel çalıştır" özelliğini etkinleştirdiğinizde, veri akışlarının bağlı havuzlara sıralı bir şekilde değil, aynı anda yazmasını sağlarsınız. Paralel seçeneği kullanabilmek için havuzların birlikte gruplanması ve Yeni Dal veya Koşullu Bölme yoluyla aynı akışa bağlanması gerekir.

İşlem hatlarında Azure Synapse veritabanı şablonlarına erişme

Bir işlem hattı oluştururken Azure Synapse veritabanı şablonu kullanabilirsiniz. Yeni bir veri akışı oluştururken kaynak veya havuz ayarlarında Çalışma Alanı VERITABANı'nı seçin. Veritabanı açılır listesi, veritabanı şablonuyla oluşturulmuş veritabanlarını listeler. Çalışma Alanı VERITABANı seçeneği yalnızca yeni veri akışları için kullanılabilir; Synapse studio galerisinden mevcut bir işlem hattını kullandığınızda kullanılamaz.

Performansla ilgili diğer Veri Akışı makalelerine bakın: