En iyi yöntemler: Küme yapılandırması

Azure Databricks, en düşük maliyetle en iyi performansı elde etmeye yardımcı olmak için küme oluşturup yapılandırırken bir dizi seçenek sunar. Ancak bu esneklik, iş yükleriniz için en uygun yapılandırmaları belirlemeye çalışırken güçlükler oluşturabilir. Kullanıcıların kümeleri nasıl kullanacaklarını dikkatle göz önünde bulundurmak, yeni kümeler oluştururken veya mevcut kümeleri yapılandırırken yapılandırma seçeneklerine yol göstermesine yardımcı olur. Yapılandırma seçeneklerini belirlerken dikkat edilmesi gerekenlerden bazıları şunlardır:

  • Kümeyi ne tür bir kullanıcı kullanacak? Veri bilimcisi, veri mühendisinden veya veri analistinden farklı gereksinimlere sahip farklı iş türleri çalıştırıyor olabilir.
  • Kullanıcılar kümede ne tür iş yükleri çalıştıracak? Örneğin, toplu ayıklama, dönüştürme ve yükleme (ETL) işleri büyük olasılıkla analitik iş yüklerinden farklı gereksinimlere sahip olacaktır.
  • Hangi hizmet düzeyi sözleşmesi (SLA) düzeyini karşılamanız gerekiyor?
  • Hangi bütçe kısıtlamalarınız var?

Bu makalede, bu önemli noktalara bağlı olarak farklı senaryolar için küme yapılandırma önerileri sağlanır. Bu makalede ayrıca Azure Databricks kümelerinin belirli özellikleri ve bu özellikler için göz önünde bulundurulması gereken noktalar ele alınmaktadır.

Yapılandırma kararlarınız için maliyet ve performans arasında bir denge gerekir. Kümenin birincil maliyeti, küme tarafından kullanılan Databricks Birimlerini (DBU) ve kümeyi çalıştırmak için gereken temel kaynakların maliyetini içerir. SLA'yı karşılamama, çalışan verimliliğini azaltma veya kötü denetimler nedeniyle kaynak israfı gibi ikincil maliyetler açık olmayabilir.

Küme özellikleri

Daha ayrıntılı küme yapılandırma senaryolarını tartışmadan önce, Azure Databricks kümelerinin bazı özelliklerini ve bu özelliklerin en iyi nasıl kullanılacağını anlamak önemlidir.

Çok amaçlı kümeler ve iş kümeleri

Küme oluşturduğunuzda bir küme türü seçersiniz: çok amaçlı küme veya iş kümesi. Tüm amaçlı kümeler birden çok kullanıcı tarafından paylaşılabilir ve geçici analiz, veri keşfi veya geliştirme gerçekleştirmek için idealdir. İşlemenizi uygulamayı tamamladıktan ve kodunuzu kullanıma hazır hale getirin, bir iş kümesinde çalıştırmaya geçin. İş kümeleri işiniz sona erdiğinde sonlandırılarak kaynak kullanımı ve maliyeti azalır.

Küme modu

Not

Bu makalede eski Kümeler kullanıcı arabirimi açıklanmaktadır. Önizleme kullanıcı arabiriminin ayrıntıları için bkz. Küme oluşturma. Bu, küme erişim türlerinin ve modlarının bazı terminoloji değişikliklerini içerir. Önizleme kullanıcı arabiriminde:

  • Standart mod kümeleri artık Yalıtım Yok Paylaşılan erişim modu kümeleri olarak adlandırılır.
  • Tablo ACL'leriyle Yüksek Eşzamanlılık artık Paylaşılan erişim modu kümeleri olarak adlandırılıyor.

Azure Databricks üç küme modunu destekler: Standart, Yüksek Eşzamanlılık ve Tek Düğüm. Çoğu normal kullanıcı Standart veya Tek Düğüm kümeleri kullanır.

Uyarı

Standart mod kümeleri (bazen YalıtımSız Paylaşılan kümeler olarak da adlandırılır), kullanıcılar arasında yalıtım olmadan birden çok kullanıcı tarafından paylaşılabilir. Daha güvenli seçenekler için Databricks, Tablo ACL'leri ile yüksek eşzamanlılık kümeleri gibi alternatifler önerir.

  • Standart kümeler yalnızca tek kullanıcılar için önerilir. Standart kümeler Python, SQL, R ve Scala'da geliştirilen iş yüklerini çalıştırabilir.
  • Tek Düğümlü kümeler, az miktarda veri veya tek düğümlü makine öğrenmesi kitaplıkları gibi dağıtılmamış iş yükleri kullanan işlere yöneliktir.
  • Yüksek Eşzamanlılık kümeleri, kaynakları paylaşması veya geçici işler çalıştırması gereken kullanıcı grupları için idealdir. Yöneticiler genellikle Yüksek Eşzamanlılık kümeleri oluşturur. Databricks, Yüksek Eşzamanlılık kümeleri için otomatik ölçeklendirmeyi etkinleştirmeyi önerir.

İsteğe bağlı ve spot örnekler

Maliyetten tasarruf etmek için Azure Databricks, isteğe bağlı ve spot örneklerin bir bileşimini kullanarak küme oluşturmayı destekler. Uygulamalarınızı çalıştırma maliyetini azaltmak, uygulamanızın işlem kapasitesini artırmak ve aktarım hızını artırmak için Spot örneklerini kullanarak Azure'da kullanılmayan kapasiteden yararlanabilirsiniz.

Otomatik ölçeklendirme

Otomatik ölçeklendirme , kümelerin iş yüklerine göre otomatik olarak yeniden boyutlandırılmasını sağlar. Otomatik ölçeklendirme hem maliyet hem de performans açısından birçok kullanım örneği ve senaryodan yararlanabilir, ancak otomatik ölçeklendirmenin ne zaman ve nasıl kullanılacağını anlamak zor olabilir. Otomatik ölçeklendirmenin kullanılıp kullanılmayacağını ve en iyi avantajın nasıl elde edilmeyeceğini belirlemek için dikkat edilmesi gereken bazı noktalar şunlardır:

  • Otomatik ölçeklendirme genellikle sabit boyutlu bir kümeye kıyasla maliyetleri azaltır.
  • Otomatik ölçeklendirme iş yükleri, az sağlanan sabit boyutlu bir kümeye kıyasla daha hızlı çalışabilir.
  • Spark-submit işleri ve bazı Python paketleri dahil olmak üzere bazı iş yükleri otomatik ölçeklendirme kümeleriyle uyumlu değildir.
  • Tek kullanıcılı çok amaçlı kümelerde kullanıcılar, minimum çalışan sayısı çok düşük olduğunda otomatik ölçeklendirmenin geliştirmelerini veya analizlerini yavaşlattığı fark edebilir. Bunun nedeni, çalıştırdıkları komutların veya sorguların genellikle birkaç dakika arayla olması ve kümenin boşta olduğu ve maliyetlerden tasarruf etmek için ölçeği azaltabileceğidir. Sonraki komut yürütürken, küme yöneticisi bulut sağlayıcısından örnekleri alırken birkaç dakika sürerek ölçeği artırmayı dener. Bu süre boyunca işler yetersiz kaynaklarla çalıştırarak sonuçları alma süresini yavaşlatabilir. Minimum çalışan sayısının artırılması yardımcı olurken, maliyeti de artırır. Bu, maliyet ve performansın dengelenmiş olması gereken başka bir örnektir.
  • Delta Önbelleğe Alma kullanılıyorsa, düğüm sonlandırılırsa düğümdeki önbelleğe alınmış verilerin kaybolduğunu unutmayın. Önbelleğe alınmış verileri tutmak iş yükünüz için önemliyse, sabit boyutlu bir küme kullanmayı göz önünde bulundurun.
  • ETL iş yükü çalıştıran bir iş kümeniz varsa, işinizin değişme olasılığının düşük olduğunu biliyorsanız ayarlama yaparken bazen kümenizi uygun şekilde boyutlandırabilirsiniz. Ancak veri boyutlarınız artarsa otomatik ölçeklendirme size esneklik sağlar. Kümenin az kullanıldığında veya başka bir işlemin sonuçlarını beklediği uzun süreler olduğunda, iyileştirilmiş otomatik ölçeklendirmenin uzun süre çalışan işlerle giderleri azaltabileceğini de unutmayın. Yine de küme uygun şekilde ölçeği artırmaya çalıştığından işinizde küçük gecikmeler yaşanabilir. bir iş için sıkı SLA'larınız varsa, sabit boyutlu bir küme daha iyi bir seçim olabilir veya küme başlangıç sürelerini azaltmak için Azure Databricks havuzu kullanmayı düşünebilirsiniz.

Azure Databricks , yerel depolamayı otomatik ölçeklendirmeyi de destekler. Yerel depolamayı otomatik ölçeklendirme ile Azure Databricks, kümenizin Spark çalışanlarında kullanılabilir boş disk alanı miktarını izler. Çalışanda disk yetersizliği oluşmaya başlarsa, Azure Databricks disk alanı dolmadan önce çalışana otomatik olarak yeni bir yönetilen birim ekler.

Havuz

Havuzlar , kullanılabilir, kullanıma hazır bir dizi örneği koruyarak küme başlatma ve ölçek artırma sürelerini azaltır. Databricks, maliyeti en aza indirirken işlem süresini iyileştirmek için havuzlardan yararlanmanızı önerir.

Databricks Runtime sürümleri

Databricks, tüm amaçlı kümeler için en son Databricks Runtime sürümünün kullanılmasını önerir. En güncel sürümü kullanmak, kodunuzla önceden yüklenmiş paketleriniz arasında en son iyileştirmelere ve en güncel uyumluluğa sahip olduğunuzdan emin olur.

İşletimsel iş yükleri çalıştıran iş kümeleri için Uzun Süreli Destek (LTS) Databricks Runtime sürümünü kullanmayı göz önünde bulundurun. LTS sürümünü kullandığınızda uyumluluk sorunlarıyla karşılaşmazsınız ve yükseltmeden önce iş yükünüzü kapsamlı bir şekilde test edebilirsiniz. Makine öğrenmesi ile ilgili gelişmiş bir kullanım örneğine sahipseniz özelleştirilmiş Databricks Runtime sürümünü göz önünde bulundurun.

Küme ilkeleri

Azure Databricks küme ilkeleri , yöneticilerin kümelerin oluşturulması ve yapılandırılması üzerinde denetimleri zorunlu kılmasına olanak tanır. Databricks, bu kılavuzda açıklanan önerilerin uygulanmasına yardımcı olmak için küme ilkelerinin kullanılmasını önerir. Küme ilkeleri hakkında daha fazla bilgi edinmek için küme ilkeleri en iyi yöntemler kılavuzuna bakın.

Otomatik sonlandırma

Birçok kullanıcı, kümelerini kullanmayı bitirdiğinde kümelerini sonlandırmayı düşünmez. Neyse ki kümeler belirli bir süre sonunda otomatik olarak sonlandırılır ve varsayılan olarak 120 dakikadır.

Yöneticiler, küme ilkeleri oluştururken bu varsayılan ayarı değiştirebilir. Bu ayarın azaltılması, kümelerin boşta kalma süresini azaltarak maliyeti düşürebilir. Bir küme sonlandırıldığında tüm değişkenler, geçici tablolar, önbellekler, işlevler, nesneler vb. dahil olmak üzere tüm durumun kaybolduğunu unutmayın. Küme yeniden başlatıldığında bu durumun tümünün geri yüklenmesi gerekir. Bir geliştirici 30 dakikalık bir öğle yemeği molası için dışarı adım atarsa, bir not defterini daha önce olduğu gibi aynı duruma getirmek için bu kadar zaman harcamak boşa harcanabilir.

Önemli

Boştaki kümeler, sonlandırmadan önceki işlem yapılmadığı süre boyunca DBU ve bulut örneği ücretlerini biriktirmeye devam eder.

Çöp toplama

Bu makalede ele alınan diğer noktalardan daha az belirgin olsa da, çöp toplamaya dikkat etmek kümelerinizde iş performansını iyileştirmeye yardımcı olabilir. Büyük miktarda RAM sağlamak, işlerin daha verimli bir şekilde çalışmasına yardımcı olabilir, ancak çöp toplama sırasında gecikmelere de yol açabilir.

Uzun çöp toplama süpürmelerinin etkisini en aza indirmek için, her örnek için yapılandırılmış büyük miktarda RAM'e sahip kümeler dağıtmaktan kaçının. Yürütücüye daha fazla RAM ayrılması daha uzun çöp toplama sürelerine yol açar. Bunun yerine, daha küçük RAM boyutlarına sahip örnekleri yapılandırın ve işleriniz için daha fazla belleğe ihtiyacınız varsa daha fazla örnek dağıtın. Bununla birlikte, Küme boyutlandırma konusunda ele alındığı gibi, daha fazla RAM içeren daha az düğümün önerildiği durumlar vardır. Örneğin, çok fazla karıştırma gerektiren iş yükleri.

Küme erişim denetimi

İki tür küme izni yapılandırabilirsiniz:

  • Küme Oluşturmaya İzin Ver izni, kullanıcıların küme oluşturma becerisini denetler.
  • Küme düzeyi izinler, belirli bir kümeyi kullanma ve değiştirme özelliğini denetler.

Küme izinlerini yapılandırma hakkında daha fazla bilgi edinmek için bkz. küme erişim denetimi.

Küme oluşturma izinleriniz veya bir küme ilkesine erişiminiz varsa, ilkenin belirtimleri içinde herhangi bir küme oluşturmanıza olanak tanıyan bir küme oluşturabilirsiniz. Kümeyi oluşturan, sahibidir ve Yönetebilir izinlerine sahiptir. Bu izinler, kümenin veri erişim izinlerinin kısıtlamaları içinde başka bir kullanıcıyla paylaşmasına olanak tanır.

Yaygın senaryolar için küme yapılandırmalarına karar verirken küme izinlerini ve küme ilkelerini anlamak önemlidir.

Küme etiketleri

Küme etiketleri , kuruluşunuzdaki farklı gruplar tarafından kullanılan bulut kaynaklarının maliyetini kolayca izlemenize olanak sağlar. Bir küme oluştururken etiketleri anahtar-değer dizeleri olarak belirtebilirsiniz ve Azure Databricks bu etiketleri örnekler ve EBS birimleri gibi bulut kaynaklarına uygular. Küme ilkeleri en iyi yöntemler kılavuzunda etiket zorlama hakkında daha fazla bilgi edinin.

Küme boyutlandırma konusunda dikkat edilmesi gerekenler

Azure Databricks, çalışan düğümü başına bir yürütücü çalıştırır. Bu nedenle yürütücü ve çalışan terimleri, Azure Databricks mimarisi bağlamında birbirinin yerine kullanılır. İnsanlar genellikle küme boyutunu çalışan sayısı açısından düşünür ancak dikkate alınması gereken başka önemli faktörler de vardır:

  • Toplam yürütücü çekirdeği (işlem): Tüm yürütücüler arasındaki toplam çekirdek sayısı. Bu, bir kümenin en yüksek paralelliğini belirler.
  • Toplam yürütücü belleği: Tüm yürütücüler arasındaki toplam RAM miktarı. Bu, diske dökmeden önce bellekte ne kadar veri depolanabileceğini belirler.
  • Yürütücü yerel depolama alanı: Yerel disk depolama türü ve miktarı. Yerel disk öncelikle karıştırma ve önbelleğe alma sırasında taşma durumunda kullanılır.

Dikkat edilmesi gereken ek noktalar, yukarıdaki faktörleri de etkileyen çalışan örneği türü ve boyutudur. Kümenizi boyutlandırırken şunları göz önünde bulundurun:

  • İş yükünüz ne kadar veri tüketecek?
  • İş yükünüzün hesaplama karmaşıklığı nedir?
  • Verileri nereden okuyorsunuz?
  • Veriler dış depolamada nasıl bölümleniyor?
  • Ne kadar paralelliğe ihtiyacınız var?

Bu soruların yanıtlanması, iş yüklerine göre en uygun küme yapılandırmalarını belirlemenize yardımcı olur. Yalnızca dar dönüşümler kullanan basit ETL stili iş yükleri için (her giriş bölümünün yalnızca bir çıkış bölümüne katkıda bulunacağı dönüştürmeler), işlem için iyileştirilmiş bir yapılandırmaya odaklanın. Çok fazla karıştırma bekliyorsanız, bellek miktarı ve veri taşmalarını hesaba katacak depolama alanı önemlidir. Daha az büyük örnek, yoğun karıştırmalı iş yükleri sırasında makineler arasında veri aktarırken ağ G/Ç'sini azaltabilir.

Çalışan sayısı ile çalışan örneği türlerinin boyutu arasında bir dengeleme eylemi vardır. Her biri 40 çekirdek ve 100 GB RAM'e sahip iki çalışana sahip bir küme, 10 çekirdek ve 25 GB RAM'e sahip sekiz çalışan kümesiyle aynı işlem ve belleğe sahiptir.

Aynı verilerin çok sayıda yeniden okunmasını bekliyorsanız, iş yükleriniz önbelleğe alma özelliğinden yararlanabilir. Delta Cache ile depolama için iyileştirilmiş bir yapılandırmayı göz önünde bulundurun.

Küme boyutlandırma örnekleri

Aşağıdaki örneklerde belirli iş yükü türlerini temel alan küme önerileri gösterilmektedir. Bu örnekler ayrıca kaçınılması gereken yapılandırmaları ve bu yapılandırmaların iş yükü türleri için neden uygun olmadığını da içerir.

Veri analizi

Veri analistleri genellikle birden çok bölümden veri gerektiren işlemler gerçekleştirir ve bu da birçok karıştırma işlemine yol açar. Daha az sayıda düğüme sahip bir küme, bu karıştırmaları gerçekleştirmek için gereken ağ ve disk G/Ç'sini azaltabilir. Aşağıdaki diyagramda yer alan Küme A, özellikle tek bir analisti destekleyen kümeler için en iyi seçenektir.

Daha az belleğe ve depolama alanına sahip daha fazla sayıda düğüm işlemeyi tamamlamak için daha fazla veri karıştırması gerekeceğinden D kümesi büyük olasılıkla en kötü performansı sağlayacaktır.

Veri analizi küme boyutlandırması

Analitik iş yükleri büyük olasılıkla aynı verilerin tekrar tekrar okunmasını gerektirir, bu nedenle önerilen çalışan türleri Delta Önbelleği etkinken en iyi duruma getirilmiş depolamadır.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • Kümelerin bir süre etkinlik dışı kalma süresinden sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi göz önünde bulundurun.
  • Kümelerin önceden onaylanan örnek türleriyle kısıtlanmasını ve tutarlı küme yapılandırmalarının sağlanmasını sağlayacak havuzları kullanmayı göz önünde bulundurun.

Büyük olasılıkla yararlı olmayan özellikler:

  • Bu kullanıcı büyük olasılıkla çok fazla veri üretmeyeceğinden depolama otomatik ölçeklendirmesi.
  • Bu küme tek bir kullanıcıya yönelik olduğundan ve Yüksek Eşzamanlılık kümeleri paylaşılan kullanım için en uygun olduğundan Yüksek Eşzamanlılık kümeleri.

Temel toplu iş ETL'si

Birleştirmeler veya toplamalar gibi geniş dönüştürmeler gerektirmeyen basit toplu ETL işleri genellikle işlem için iyileştirilmiş kümelerden yararlanılır. Bu tür iş yükleri için, aşağıdaki diyagramdaki kümelerden herhangi biri kabul edilebilir.

Temel toplu iş ETL kümesi boyutlandırma

İşlem için iyileştirilmiş çalışan türleri önerilir; bunlar daha ucuz olacaktır ve bu iş yükleri büyük olasılıkla önemli miktarda bellek veya depolama gerektirmez.

Havuz kullanmak, küme başlatma sürelerini azaltarak ve iş işlem hatlarını çalıştırırken toplam çalışma zamanını azaltarak basit ETL işlerini destekleyen kümeler için bir avantaj sağlayabilir. Ancak, bu iş yükü türleri genellikle kümenin işi tamamlamak için yalnızca yeterince uzun çalıştığı zamanlanmış işler olarak çalıştığından, havuz kullanmak bir avantaj sağlamayabilir.

Aşağıdaki özellikler büyük olasılıkla yararlı değildir:

  • Verileri yeniden okuma beklenmediğinden Delta Önbelleğe Alma.
  • Bunlar büyük olasılıkla zamanlanmış işler olduğundan otomatik sonlandırma büyük olasılıkla gerekli değildir.
  • İşlem ve depolamanın kullanım örneği için önceden yapılandırılması gerektiğinden otomatik ölçeklendirme önerilmez.
  • Yüksek Eşzamanlılık kümeleri birden çok kullanıcıya yöneliktir ve tek bir işi çalıştıran bir kümeye fayda sağlamaz.

Karmaşık toplu iş ETL'si

Birden çok tablo arasında birleşim ve birleştirme gerektiren işleme gibi daha karmaşık ETL işleri, karıştırılmış veri miktarını en aza indirdiğinizde büyük olasılıkla en iyi sonucu verir. Kümedeki çalışan sayısını azaltmak karıştırmaları en aza indirmeye yardımcı olacağından, aşağıdaki diyagramda D kümesi gibi daha büyük bir küme üzerinde A kümesi gibi daha küçük bir kümeyi dikkate almanız gerekir.

Karmaşık ETL kümesi boyutlandırması

Karmaşık dönüştürmeler işlem yoğunluklu olabilir, bu nedenle en iyi sayıda çekirdeğe ulaşan bazı iş yükleri için kümeye ek düğümler eklenmesi gerekebilir.

Basit ETL işleri gibi işlem için iyileştirilmiş çalışan türleri de önerilir; bunlar daha ucuz olacaktır ve bu iş yükleri büyük olasılıkla önemli miktarda bellek veya depolama gerektirmez. Ayrıca, basit ETL işleri gibi dikkate alınması gereken ana küme özelliği, iş işlem hatlarını çalıştırırken küme başlatma sürelerini azaltan ve toplam çalışma zamanını azaltan havuzlardır.

Aşağıdaki özellikler büyük olasılıkla yararlı değildir:

  • Verileri yeniden okuma beklenmediğinden Delta Önbelleğe Alma.
  • Bunlar büyük olasılıkla zamanlanmış işler olduğundan otomatik sonlandırma büyük olasılıkla gerekli değildir.
  • İşlem ve depolamanın kullanım örneği için önceden yapılandırılması gerektiğinden otomatik ölçeklendirme önerilmez.
  • Yüksek Eşzamanlılık kümeleri birden çok kullanıcıya yöneliktir ve tek bir işi çalıştıran bir kümeye fayda sağlamaz.

Makine öğrenmesi modellerini eğitma

Makine öğrenmesi modelini eğiten ilk yinelemeler genellikle deneysel olduğundan, A kümesi gibi daha küçük bir küme iyi bir seçimdir. Daha küçük bir küme de karıştırmaların etkisini azaltır.

Kararlılık önemliyse veya daha gelişmiş aşamalar için B veya C kümesi gibi daha büyük bir küme iyi bir seçim olabilir.

Düğümler arasında verileri karıştırma yükü nedeniyle D kümesi gibi büyük bir küme önerilmez.

Makine öğrenmesi küme boyutlandırması

Önerilen çalışan türleri, aynı verilerin tekrarlanan okumalarını hesaba eklemek ve eğitim verilerinin önbelleğe alınmasını etkinleştirmek için Delta Önbelleği etkinleştirilerek iyileştirilmiş depolamadır. Depolama için iyileştirilmiş düğümler tarafından sağlanan işlem ve depolama seçenekleri yeterli değilse GPU için iyileştirilmiş düğümleri göz önünde bulundurun. Olası bir dezavantaj, bu düğümlerde Delta Önbelleğe Alma desteğinin olmamasıdır.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • Kümelerin bir süre etkinlik dışı kalma süresinden sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi göz önünde bulundurun.
  • Kümelerin önceden onaylanan örnek türleriyle kısıtlanmasını ve tutarlı küme yapılandırmalarının sağlanmasını sağlayacak havuzları kullanın.

Büyük olasılıkla yararlı olmayan özellikler:

  • Küme ölçeği azaltıldığında düğümler kaldırıldığında önbelleğe alınan veriler kaybolabileceğinden otomatik ölçeklendirme. Buna ek olarak, tipik makine öğrenmesi işleri genellikle tüm kullanılabilir düğümleri kullanır ve bu durumda otomatik ölçeklendirme hiçbir fayda sağlamaz.
  • Bu kullanıcı büyük olasılıkla çok fazla veri üretmeyeceğinden depolama otomatik ölçeklendirmesi.
  • Bu küme tek bir kullanıcıya yönelik olduğundan ve Yüksek Eşzamanlılık kümeleri paylaşılan kullanım için en uygun olduğundan Yüksek Eşzamanlılık kümeleri.

Yaygın senaryolar

Aşağıdaki bölümlerde, kümeleri yaygın küme kullanım desenleri için yapılandırmaya yönelik ek öneriler sağlanır:

  • Veri analizi ve geçici işleme çalıştıran birden çok kullanıcı.
  • Makine öğrenmesi gibi özel kullanım örnekleri.
  • Zamanlanmış toplu işleri destekleme.

Çok kullanıcılı kümeler

Senaryo

Veri analizi ve geçici sorgular çalıştırmak için birden çok kullanıcıya verilere erişim sağlamanız gerekir. Küme kullanımı zaman içinde dalgalanabilir ve çoğu iş çok yoğun kaynak kullanmaz. Kullanıcılar çoğunlukla verilere salt okunur erişim gerektirir ve analizler gerçekleştirmek veya basit bir kullanıcı arabirimi aracılığıyla panolar oluşturmak ister.

Küme sağlama için önerilen yaklaşım, kümede otomatik ölçeklendirmeyle birlikte düğüm sağlama için karma bir yaklaşımdır. Karma yaklaşım, küme için isteğe bağlı örnek ve spot örnek sayısını tanımlamayı ve minimum ile en fazla örnek sayısı arasında otomatik ölçeklendirmeyi etkinleştirmeyi içerir.

Çok kullanıcılı senaryo

Bu küme varsayılan olarak bir gruba ait kullanıcılar tarafından her zaman kullanılabilir ve paylaşılır. Otomatik ölçeklendirmenin etkinleştirilmesi, yüke bağlı olarak kümenin ölçeğini artırmasına ve azaltmasına olanak tanır.

Kullanıcıların kümeyi başlatma/durdurma erişimi yoktur, ancak ilk isteğe bağlı örnekler kullanıcı sorgularını yanıtlamak için hemen kullanılabilir. Kullanıcı sorgusu daha fazla kapasite gerektiriyorsa, otomatik ölçeklendirme iş yüküne uyum sağlamak için otomatik olarak daha fazla düğüm (çoğunlukla Spot örnekleri) sağlar.

Azure Databricks, çok kiracılı kullanım örneklerini daha da geliştirmeye yönelik başka özelliklere sahiptir:

Bu yaklaşım genel maliyeti şu şekilde düşürür:

  • Paylaşılan küme modeli kullanma.
  • İsteğe bağlı ve spot örneklerin bir karışımını kullanma.
  • Az kullanılan kümeler için ödeme yapmaktan kaçınmak için otomatik ölçeklendirmeyi kullanma.

Özelleştirilmiş iş yükleri

Senaryo

Kuruluşunuzdaki karmaşık veri keşfi ve makine öğrenmesi algoritmaları çalıştıran veri bilimciler gibi özel kullanım örnekleri veya ekipler için kümeler sağlamanız gerekir. Tipik bir desen, kullanıcının analizini çalıştırmak için kısa bir süre için kümeye ihtiyacı olmasıdır.

Bu tür bir iş yükü için en iyi yaklaşım, varsayılan, sabit ve ayar aralıkları için önceden tanımlanmış yapılandırmalarla küme ilkeleri oluşturmaktır. Bu ayarlar örnek sayısını, örnek türlerini, spot ve isteğe bağlı örnekleri, yüklenecek rolleri, kitaplıkları vb. içerebilir. Küme ilkelerinin kullanılması, daha gelişmiş gereksinimleri olan kullanıcıların kullanım örneği için gerektiğinde yapılandırabilecekleri kümeleri hızla oluşturmalarına ve ilkelerle maliyet ve uyumluluğu zorunlu kılmalarına olanak tanır.

Özelleştirilmiş iş yükleri

Bu yaklaşım, küme yapılandırmalarını önceden tanımlayarak maliyeti denetim altında tutma özelliğini korurken kullanıcılara daha fazla denetim sağlar. Bu, farklı veri kümelerine erişim izinleri olan farklı kullanıcı grupları için kümeleri yapılandırmanıza da olanak tanır.

Bu yaklaşımın bir dezavantajı, kullanıcıların kümelerde yapılan yapılandırma, yüklü kitaplıklar vb. değişiklikler için yöneticilerle birlikte çalışması gerekmesidir.

Batch iş yükleri

Senaryo

Zamanlanmış toplu işler için veri hazırlamayı gerçekleştiren üretim ETL işleri gibi kümeler sağlamanız gerekir. Önerilen en iyi yöntem, her iş çalıştırması için yeni bir küme başlatmaktır. Her işin yeni bir kümede çalıştırılması, paylaşılan bir kümede çalışan diğer iş yüklerinin neden olduğu hataları ve yanıtsız SLA'ları önlemeye yardımcı olur. İşin kritiklik düzeyine bağlı olarak, SLA'ları karşılamak veya maliyet tasarrufu için spot ve isteğe bağlı örnekler arasında denge sağlamak için tüm isteğe bağlı örnekleri kullanabilirsiniz.

Zamanlanmış toplu iş yükleri