İngilizce dilinde oku

Aracılığıyla paylaş


Azure Synapse Analytics'te Apache Spark havuzu yapılandırmaları

Spark havuzu, bir Spark örneği başlatıldığında işlem kaynağı gereksinimlerini ve ilişkili davranış özelliklerini tanımlayan bir meta veri kümesidir. Bu özellikler arasında ad, düğüm sayısı, düğüm boyutu, ölçeklendirme davranışı ve yaşam süresi bulunur ancak bunlarla sınırlı değildir. Spark havuzu kendi içinde herhangi bir kaynak kullanmaz. Spark havuzları oluşturmanın herhangi bir maliyeti yoktur. Yalnızca hedef Spark havuzunda bir Spark işi yürütüldüğünde ve Spark örneği talep üzerine anında oluşturulduğunda ücret alınır.

Spark havuzu oluşturmayı okuyabilir ve tüm özelliklerini burada görebilirsiniz: Synapse Analytics'te Spark havuzlarını kullanmaya başlama

Yalıtılmış İşlem

Yalıtılmış İşlem seçeneği, fiziksel işlem kaynağını tek bir müşteriye ayırarak güvenilmeyen hizmetlerden Spark işlem kaynaklarına daha fazla güvenlik sağlar. Yalıtılmış işlem seçeneği, uyumluluk ve mevzuat gereksinimlerini karşılama gibi nedenlerle diğer müşterinin iş yüklerinden yüksek düzeyde yalıtım gerektiren iş yükleri için en uygun seçenektir. İşlemi Yalıt seçeneği yalnızca XXXLarge (80 vCPU / 504 GB) düğüm boyutuyla ve yalnızca aşağıdaki bölgelerde kullanılabilir. Yalıtılmış işlem seçeneği havuz oluşturulduktan sonra etkinleştirilebilir veya devre dışı bırakılabilir ancak örneğin yeniden başlatılması gerekebilir. Gelecekte bu özelliği etkinleştirmeyi bekliyorsanız Synapse çalışma alanınızın yalıtılmış işlem tarafından desteklenen bir bölgede oluşturulduğundan emin olun.

  • Doğu ABD
  • Batı ABD 2
  • Orta Güney ABD
  • US Gov Arizona
  • US Gov Virginia

Düğümler

Apache Spark havuz örneği, spark örneğinde en az üç düğüm içeren bir baş düğüm ve iki veya daha fazla çalışan düğümünden oluşur. Baş düğüm Livy, Yarn Resource Manager, Zookeeper ve Spark sürücüsü gibi ek yönetim hizmetleri çalıştırır. Tüm düğümler Node Aracısı ve Yarn Node Manager gibi hizmetleri çalıştırır. Tüm çalışan düğümleri Spark Yürütücüsü hizmetini çalıştırır.

Düğüm Boyutları

Spark havuzu, 4 sanal çekirdek ve 32 GB belleğe sahip küçük bir işlem düğümünden düğüm başına 64 sanal çekirdek ve 432 GB bellek içeren bir XXLarge işlem düğümüne kadar değişen düğüm boyutlarıyla tanımlanabilir. Havuz oluşturulduktan sonra düğüm boyutları değiştirilebilir ancak örneğin yeniden başlatılması gerekebilir.

Size Sanal Çekirdek Bellek
Küçük 4 32 GB
Orta 8 64 GB
Büyük 16 128 GB
XLarge 32 256 GB
XXLarge 64 432 GB
XXX Büyük (Yalıtılmış İşlem) 80 504 GB

Otomatik Ölçeklendirme

Apache Spark havuzları için otomatik ölçeklendirme, etkinlik miktarına göre işlem kaynaklarının ölçeğini otomatik olarak artırmaya ve azaltmaya olanak tanır. Otomatik ölçeklendirme özelliği etkinleştirildiğinde, ölçeklendirilecek en az ve en fazla düğüm sayısını ayarlarsınız. Otomatik ölçeklendirme özelliği devre dışı bırakıldığında, ayarlanan düğüm sayısı sabit kalır. Bu ayar havuz oluşturulduktan sonra değiştirilebilir ancak örneğin yeniden başlatılması gerekebilir.

Elastik havuz depolama

Apache Spark havuzları artık elastik havuz depolamayı destekliyor. Elastik havuz depolama, Spark altyapısının çalışan düğümü geçici depolama alanını izlemesine ve gerekirse ek diskler eklemesine olanak tanır. Apache Spark havuzları, havuz örneği oluşturulurken geçici disk depolama alanı kullanır. Spark işleri karışık eşleme çıkışlarını yazar, verileri karıştırır ve yerel VM disklerine dökülen verileri yazar. Yerel disk kullanabilen işlemlere örnek olarak sıralama, önbellek ve kalıcılık verilebilir. Geçici VM disk alanı bittiğinde Spark işleri "Disk Alanı Yetersiz" hatası (java.io.IOException: Cihazda yer kalmadı) nedeniyle başarısız olabilir. "Disk Alanı Yetersiz" hatalarıyla, işlerin başarısız olmasını önleme yükünün büyük bölümü, Spark işlerini (örneğin, bölüm sayısını ayarlama) veya kümeleri (örneğin kümeye daha fazla düğüm eklemek) yeniden yapılandırmak için müşteriye kaydırır. Bu hatalar tutarlı olmayabilir ve kullanıcı üretim işlerini çalıştırarak yoğun bir şekilde denemeler gerçekleştirebilir. Bu işlem, kullanıcı için birden çok boyutta pahalı olabilir:

  • Boşa harcanan zaman. Müşterilerin deneme ve hata yoluyla iş yapılandırmalarıyla yoğun bir şekilde deneme yapması gerekir ve doğru kararı vermek için Spark'ın iç ölçümlerini anlaması beklenir.
  • Boşa harcanan kaynaklar. Üretim işleri çeşitli miktarda veriyi işleyebildiğinden, kaynaklar aşırı sağlanmazsa Spark işleri belirsiz bir şekilde başarısız olabilir. Örneğin, veri dengesizliği sorununu göz önünde bulundurun ve bu da diğerlerinden daha fazla disk alanı gerektiren birkaç düğüme neden olabilir. Şu anda Synapse'te, bir kümedeki her düğüm aynı disk alanı boyutuna sahip olur ve tüm düğümlerde disk alanını artırmak ideal bir çözüm değildir ve muazzam bir israfa yol açar.
  • İş yürütmede yavaşlama. Düğümleri otomatik ölçeklendirerek (maliyetlerin son müşteri için sorun olmadığı varsayılarak) sorunu çözdüğümiz varsayımsal senaryoda, depolama alanı eklemenin (birkaç saniye sürer) aksine işlem düğümü ekleme işlemi yine de pahalıdır (birkaç dakika sürer).

Sizin için eylem gerekmez, ayrıca sonuç olarak daha az iş hatası görmeniz gerekir.

Not

Azure Synapse Elastik havuz depolama alanı şu anda Genel Önizleme aşamasındadır. Genel Önizleme sırasında Elastik havuz depolama alanı kullanımı için ücret alınmaz.

Otomatik duraklatma

Otomatik duraklatma özelliği, belirli bir boşta kalma süresinden sonra kaynakları serbest bırakır ve Apache Spark havuzunun genel maliyetini azaltır. Bu özellik etkinleştirildikten sonra boşta kalma süresi dakika sayısı ayarlanabilir. Otomatik duraklatma özelliği, otomatik ölçeklendirme özelliğinden bağımsızdır. Otomatik ölçeklendirmenin etkin veya devre dışı olmasına bakılmaksızın kaynaklar duraklatılabilir. Bu ayar havuz oluşturulduktan sonra değiştirilebilir ancak etkin oturumların yeniden başlatılması gerekir.