Aracılığıyla paylaş


Otomatik Ölçeklendirme ile Lakeflow Bildirimli İşlem Hatlarının küme kullanımını iyileştirme

Bu makalede, Azure Databricks'te Lakeflow Bildirimli İşlem Hatlarınızı iyileştirmek için gelişmiş otomatik ölçeklendirmenin nasıl kullanılacağı açıklanır.

Gelişmiş otomatik ölçeklendirme tüm yeni işlem hatları için varsayılan olarak etkindir. Sunucusuz işlem hatları da dikey otomatik ölçeklendirme kullanır. Bkz. Dikey otomatik ölçeklendirme nedir?.

Sunucusuz işlem hatları için gelişmiş otomatik ölçeklendirme her zaman açık olur ve devre dışı bırakılamaz. Bkz . Sunucusuz işlem hattı yapılandırma.

Gelişmiş otomatik ölçeklendirme nedir?

Databricks gelişmiş otomatik ölçeklendirme, iş yükü hacmine göre küme kaynaklarını otomatik olarak ayırarak küme kullanımını en iyi duruma getirerek işlem hatlarınızın veri işleme gecikme süresini en düşük düzeyde etkiler.

Gelişmiş otomatik ölçeklendirme, aşağıdaki özelliklerle Azure Databricks kümesi otomatik ölçeklendirme işlevselliğini geliştirir:

  • Gelişmiş otomatik ölçeklendirme, akış iş yüklerinin iyileştirmesini uygular ve toplu iş yüklerinin performansını iyileştirmeye yönelik iyileştirmeler ekler. İyileştirilmiş otomatik ölçeklendirme, iş yükü değiştikçe makineleri ekleyerek veya kaldırarak maliyetleri iyileştirir.
  • Gelişmiş otomatik ölçeklendirme, düşük kullanılan düğümleri proaktif olarak kapatır ve kapatma sırasında başarısız görev olmamasını garanti eder. Mevcut küme otomatik ölçeklendirme özelliği yalnızca düğüm boşta olduğunda düğümlerin ölçeğini küçültür.

Gelişmiş otomatik ölçeklendirme, Lakeflow Bildirimli İşlem Hatları kullanıcı arabiriminde yeni bir işlem hattı oluşturduğunuzda varsayılan otomatik ölçeklendirme modudur. Kullanıcı arabirimindeki işlem hattı ayarlarını düzenleyerek mevcut işlem hatları için gelişmiş otomatik ölçeklendirmeyi etkinleştirebilirsiniz. Ayrıca, Lakeflow Bildirimli İşlem Hatları API'siyle işlem hatları oluştururken veya düzenlerken gelişmiş otomatik ölçeklendirmeyi etkinleştirebilirsiniz.

Gelişmiş otomatik ölçeklendirme hangi ölçümleri kullanarak ölçeği artırma veya azaltma kararı oluşturur?

Gelişmiş otomatik ölçeklendirme, ölçeği artırmaya veya azaltmaya karar vermek için iki ölçüm kullanır:

  • Görev yuvası kullanımı: Bu, meşgul görev yuvası sayısının küme kullanılabilir toplam görev yuvalarınınortalama oranıdır.
  • görev kuyruğu boyutu : Bu, görev yuvalarında yürütülmeyi bekleyen görev sayısıdır.

Lakeflow Bildirimli İşlem Hatları için gelişmiş otomatik ölçeklendirmeyi etkinleştirme

Gelişmiş otomatik ölçeklendirme, Lakeflow Bildirimli İşlem Hatları kullanıcı arabiriminde yeni bir işlem hattı oluşturduğunuzda varsayılan otomatik ölçeklendirme modudur. Kullanıcı arabirimindeki işlem hattı ayarlarını düzenleyerek mevcut işlem hatları için gelişmiş otomatik ölçeklendirmeyi etkinleştirebilirsiniz. Ayrıca, Lakeflow Bildirimli İşlem Hatları API'siyle bir işlem hattı oluştururken veya düzenlerken gelişmiş otomatik ölçeklendirmeyi etkinleştirebilirsiniz.

Gelişmiş otomatik ölçeklendirmeyi kullanmak için aşağıdakilerden birini yapın:

  • Lakeflow Bildirimli İşlem Hatları kullanıcı arabiriminde bir işlem hattı oluştururken veya düzenlerken Küme modunuGelişmiş otomatik ölçeklendirme olarak ayarlayın.
  • autoscale ayarını işlem hattı kümesi yapılandırmasına ekleyin ve mode alanını ENHANCEDolarak ayarlayın. Şuraya bakın: Lakeflow Deklaratif Veri Yolları için hesaplama yapılandırma.

Üretim işlem hatları için gelişmiş otomatik ölçeklendirmeyi yapılandırırken aşağıdaki yönergeleri kullanın:

  • Min workers ayarını varsayılan olarak bırakın.
  • Max workers ayarını bütçe ve işlem hattı önceliğine göre bir değer olarak ayarlayın.

Aşağıdaki örnekte, en az 5 çalışan ve en fazla 10 çalışan ile gelişmiş bir otomatik ölçeklendirme kümesi yapılandırılır. max_workers min_workersdeğerinden büyük veya buna eşit olmalıdır.

Uyarı

  • Gelişmiş otomatik ölçeklendirme yalnızca updates kümeleri için kullanılabilir. maintenance kümeleri için eski otomatik ölçeklendirme kullanılır.
  • autoscale yapılandırmasının iki modu vardır:
{
  "clusters": [
    {
      "autoscale": {
        "min_workers": 5,
        "max_workers": 10,
        "mode": "ENHANCED"
      }
    }
  ]
}

İşlem hattı sürekli yürütme için yapılandırılmışsa, otomatik ölçeklendirme yapılandırması değiştikten sonra otomatik olarak yeniden başlatılır. Yeniden başlatmadan sonra, kısa bir süre artan gecikme süresi bekleyebilirsiniz. Bu kısa gecikme süresinin ardından küme boyutu, autoscale yapılandırmanıza göre güncelleştirilmeli ve işlem hattı gecikme süresi önceki gecikme süresi özelliklerine geri dönmelidir.

Gelişmiş otomatik ölçeklendirme kullanan işlem hatları için maliyetleri sınırlama

Uyarı

Sunucusuz işlem hatları için çalışanları yapılandıramazsınız.

'İşlem Hatları'nın Maksimum çalışanlar parametresi Hesapla bölmesinde ayarlandığında otomatik ölçeklendirme için bir üst sınır belirler.' Kullanılabilir çalışan sayısının azaltılması bazı iş yüklerinde gecikme süresini artırabilir, ancak yoğun işlem gerektiren işlemler sırasında işlem kaynağı maliyetlerinin artmasını önler.

Databricks, belirli ihtiyaçlarınıza göre maliyet ve gecikme süresi arasındaki dengeyi sağlamak için Maksimum çalışan ayarlarının ayarlanmasını önerir.

İş Hatları kullanıcı arabirimindeki İşlem bölmesinde, otomatik ölçeklendirme için Maksimum çalışan sayısını ayarlayabileceğiniz yer .

Gelişmiş otomatik ölçeklendirme özellikli klasik işlem hatlarını izleme

Klasik işlem hatları için gelişmiş otomatik ölçeklendirme ölçümlerini izlemek için Lakeflow Bildirimli İşlem Hatları kullanıcı arabiriminde olay günlüğünü kullanabilirsiniz. Gelişmiş otomatik ölçeklendirme olayları autoscale olay türüne sahiptir. Örnek olaylar şunlardır:

Etkinlik İleti
Küme yeniden boyutlandırma isteği başlatıldı Scaling [up or down] to <y> executors from current cluster size of <x>
Küme yeniden boyutlandırma isteği başarılı oldu Achieved cluster size <x> for cluster <cluster-id> with status SUCCEEDED
Küme yeniden boyutlandırma isteği kısmen başarılı oldu Achieved cluster size <x> for cluster <cluster-id> with status PARTIALLY_SUCCEEDED
Küme yeniden boyutlandırma isteği başarısız oldu Achieved cluster size <x> for cluster <cluster-id> with status FAILED

Ayrıca olay günlüğünü doğrudan sorgulayarak gelişmiş otomatik ölçeklendirme olaylarını da görüntüleyebilir:

Dikey otomatik ölçeklendirme nedir?

Sunucusuz işlem hatları, Databricks tarafından sağlanan yatay otomatik ölçeklendirmeye ek olarak bellek yetersiz hataları nedeniyle başarısız olmadan Lakeflow Bildirimli İşlem Hatlarınızı çalıştırabilecek en uygun maliyetli örnek türlerini otomatik olarak ayırarak otomatik ölçeklendirmeyi iyileştirir. Dikey otomatik ölçeklendirme, işlem hattı güncelleştirmesini çalıştırmak için daha büyük örnek türleri gerektiğinde ölçeği büyütür ve ayrıca güncelleştirmenin daha küçük örnek türleriyle çalışabileceğini belirlediğinde ölçeği küçültür. Dikey otomatik ölçeklendirme, sürücü düğümlerinin, çalışan düğümlerinin veya hem sürücü hem de çalışan düğümlerinin ölçeğinin büyütülmesi veya küçültülmesi gerektiğini belirler.

Dikey otomatik ölçeklendirme, Databricks SQL gerçekleştirilmiş görünümleri ve akış tabloları tarafından kullanılan işlem hatları da dahil olmak üzere sunucusuz Lakeflow Bildirimli İşlem Hatları için kullanılır.

Dikey otomatik ölçeklendirme, yetersiz bellek hataları nedeniyle başarısız olan işlem hattı güncelleştirmelerini algılayarak çalışır. Dikey otomatik ölçeklendirme, bu hatalar algılandığında başarısız güncelleştirmeden toplanan yetersiz bellek verilerine göre daha büyük örnek türleri ayırır. Üretim modunda, yeni işlem kaynaklarını kullanan yeni bir güncelleştirme otomatik olarak başlatılır. Geliştirme modunda, yeni bir güncelleştirmeyi el ile başlattığınızda yeni işlem kaynakları kullanılır.

Dikey otomatik ölçeklendirme, ayrılan örneklerin belleğinin sürekli olarak az kullanıldığını algılarsa, sonraki işlem hattı güncelleştirmesinde kullanılacak örnek türlerinin ölçeğini azaltacaktır.