Azure Integration Runtime performansını iyileştirme
Veri akışları, çalışma zamanında toplanan Spark kümelerinde çalışır. Kullanılan kümenin yapılandırması, etkinliğin tümleştirme çalışma zamanında (IR) tanımlanır. Tümleştirme çalışma zamanınızı tanımlarken dikkat edilmesi gereken üç performans önemli nokta vardır: küme türü, küme boyutu ve yaşam süresi.
Integration Runtime oluşturma hakkında daha fazla bilgi için bkz . Integration Runtime.
Veri akışı tümleştirme çalışma zamanlarını kullanmaya başlamanın en kolay yolu, işlem boyutu seçiciden küçük, orta veya büyük seçmektir. Aşağıdaki bu boyutlar için küme yapılandırmalarına yönelik eşlemelere bakın.
Küme boyutu
Veri akışları, işlemleri paralel olarak gerçekleştirmek için spark kümesindeki farklı çekirdekler üzerinde veri işlemeyi dağıtır. Daha fazla çekirdeğe sahip bir Spark kümesi, işlem ortamındaki çekirdek sayısını artırır. Daha fazla çekirdek, veri akışının işleme gücünü artırır. Kümenin boyutunu artırmak genellikle işlem süresini kısaltmanın kolay bir yoludur.
Varsayılan küme boyutu dört sürücü çekirdeği ve dört çalışan çekirdeğidir (küçük). Daha fazla veri işledikçe daha büyük kümeler önerilir. Olası boyutlandırma seçenekleri aşağıdadır:
Çalışan Çekirdekleri | Sürücü Çekirdekleri | Toplam Çekirdek Sayısı | Notlar |
---|---|---|---|
4 | 4 | 8 | Küçük |
8 | 8 | 16 | Orta |
16 | 16 | 32 | Büyük |
32 | 16 | 48 | |
64 | 16 | 80 | |
128 | 16 | 144 | |
Kategori 256 | 16 | 272 |
Veri akışları sanal çekirdek-saat cinsinden fiyatlendirilir, yani hem küme boyutu hem de yürütme zamanı faktörü buna dahil edilir. Ölçeği artırdıkça dakika başına küme maliyetiniz artar, ancak genel süreniz azalır.
İpucu
Küme boyutunun bir veri akışının performansını ne kadar etkilediğine ilişkin bir tavan vardır. Verilerinizin boyutuna bağlı olarak, küme boyutunu artırmanın performansı artırmayı durduracağı bir nokta vardır. Örneğin, veri bölümlerinden daha fazla çekirdeğiniz varsa, ek çekirdek eklemek yararlı olmaz. En iyi yöntem, küçük bir başlangıç yapmak ve performans gereksinimlerinizi karşılayacak şekilde ölçeği genişletmektir.
Özel karıştırma bölümü
Veri akışı, verileri bölümlere ayırır ve farklı işlemler kullanarak dönüştürür. Bir bölümdeki veri boyutu işlemin bellekte tutamazsınız fazlaysa, işlem OOM (bellek yetersiz) hatalarıyla başarısız olur. Veri akışında çok miktarda birleştirme/toplama içeren veriler varsa, karışık bölümleri artımlı olarak değiştirmeyi deneyebilirsiniz. OOM hatalarından kaçınmak için 50'den 2000'e kadar ayarlayabilirsiniz. Veri akışı çalışma zamanındaki İşlem Özel özellikleri , işlem gereksinimlerinizi denetlemenin bir yoludur. Özellik adı , Shuffle bölümleridir ve tamsayı türüdür. Bu özelleştirme yalnızca bilinen senaryolarda kullanılmalıdır, aksi takdirde gereksiz veri akışı hatalarına neden olabilir.
Karışık bölümleri artırırken verilerin iyi bir şekilde yayıldığına emin olun. Kaba bir sayı, bölüm başına yaklaşık 1,5 GB veriye sahip olmaktır. Veriler çarpıtılırsa , "Bölümleri karıştır" değerinin artırılması yararlı olmaz. Örneğin, 500 GB veriniz varsa, 400 ile 500 arasında bir değere sahip olmanız işe yaramalıdır. Karışık bölümler için varsayılan sınır, yaklaşık 300 GB veri için iyi çalışan 200'dür.
- ADF portalında Yönet'in altında özel bir tümleştirme çalışma zamanı seçin ve düzenleme moduna geçin.
- Veri akışı çalışma zamanı sekmesinin altında İşlem Özel Özellikleri bölümüne gidin.
- Özellik adı, seçtiğiniz giriş değeri (250, 500 vb.) altında Bölümleri karıştır'ı seçin.
Temizleme özelliği gibi mevcut bir özelliğin arkasına özellik adı ve değeri olan bir dizi ekleyerek çalışma zamanının JSON dosyasını düzenleyerek de aynısını yapabilirsiniz.
Yaşam süresi
Varsayılan olarak, her veri akışı etkinliği Azure IR yapılandırmasına göre yeni bir Spark kümesi oluşturur. Soğuk küme başlatma süresi birkaç dakika sürer ve veri işleme tamamlanana kadar başlatılamaz. İşlem hatlarınız birden çok sıralı veri akışı içeriyorsa, yaşam süresi (TTL) değerini etkinleştirebilirsiniz. Yaşam süresi değeri belirtilmesi, yürütme tamamlandıktan sonra kümeyi belirli bir süre boyunca canlı tutar. Yeni bir iş TTL süresi boyunca IR'yi kullanmaya başlarsa, mevcut kümeyi yeniden kullanacaktır ve başlangıç süresi büyük ölçüde azaltılacaktır. İkinci iş tamamlandıktan sonra küme, TTL süresi boyunca yeniden canlı kalır.
Ancak, veri akışlarınızın çoğu paralel olarak yürütülürse, bu etkinlikler için kullandığınız IR için TTL'yi etkinleştirmeniz önerilmez. Aynı anda tek bir kümede yalnızca bir iş çalıştırılabilir. Kullanılabilir bir küme varsa ancak iki veri akışı başlatılırsa, canlı kümeyi yalnızca bir tane kullanır. İkinci iş kendi yalıtılmış kümesini oluşturur.
Not
Otomatik çözüm tümleştirme çalışma zamanı (varsayılan) kullanılırken yaşam süresi kullanılamaz.
İlgili içerik
Performansla ilgili diğer Veri Akışı makalelere bakın: