İşlem yapılandırma önerileri

Bu makale, işlem yapılandırmasıyla ilgili öneriler ve en iyi yöntemleri içerir.

İş yükünüz destekleniyorsa Databricks, kendi işlem kaynağınızı yapılandırmak yerine sunucusuz işlem kullanmanızı önerir. Sunucusuz işlem, en basit ve en güvenilir işlem seçeneğidir. Yapılandırma gerektirmez, her zaman kullanılabilir ve iş yükünüz için ölçeklendirilir. Sunucusuz işlem, not defterleri, işler ve Lakeflow Spark Bildirimli İşlem Hatları için bir işlem seçeneğidir. Bkz. Sunucusuz bilişime bağlanma.

Ayrıca veri analistleri, Databricks'te verileri sorgulamak ve araştırmak için sunucusuz SQL ambarlarını kullanabilir. Bkz. Sunucusuz SQL ambarları nedir?.

Uygun bir erişim modu seçin

Klasik çok amaçlı ve işler işleminin, işlem kaynağına kimlerin ekleyip kullanabileceğini belirleyen bir erişim modu ayarı vardır. Unity Kataloğu'nda işlem standart veya ayrılmış erişim modunu kullanmalıdır.

Standart işlem, kullanıcı yalıtımı ve tüm kullanıcı ve grup düzeyinde veri erişim izinleri zorunlu tutarak birden çok kullanıcı ve grup tarafından paylaşılabilir. Bu, özellikle ayrıntılı erişim denetimini zorunlu kılan iş yüklerinin çoğu için daha kolay yönetilebilir, uygun maliyetli bir seçenektir.

RDD API'leri, GPU örnekleri, R veya Databricks Container Service gibi standart işlemde bulunmayan özelliklere erişmeniz gerekiyorsa ayrılmış işlem önerilir. Daha fazla bilgi için bkz. Standart işlem gereksinimleri ve sınırlamaları.

İşlem ilkelerini kullanın

Sıfırdan yeni işlem oluşturuyorsanız Databricks, işlem ilkelerinin kullanılmasını önerir. İşlem ilkeleri, kişisel işlem, paylaşılan işlem, güçlü kullanıcılar ve işler gibi belirli amaçlar için tasarlanmış önceden yapılandırılmış işlem kaynakları oluşturmanıza olanak tanır. İlkeler, işlem ayarlarını yapılandırırken vermeniz gereken kararları sınırlar.

İlkelere erişiminiz yoksa çalışma alanı yöneticinize başvurun. Bkz. Varsayılan ilkeler ve ilke aileleri.

Photon'dan yararlanıp yararlanamayacağınızı değerlendirme

Birçok iş yükü Photon'dan yararlansa da, büyük tablolardaki birleştirmeler, toplamalar ve veri taramaları gibi karmaşık dönüştürmeleri içeren SQL iş yükleri ve DataFrame işlemleri için en faydalıdır. Sık disk erişimine, geniş tablolara veya yinelenen veri işlemeye sahip iş yükleri de iyileştirilmiş performans görür.

Geniş dönüşümler veya büyük veri hacimleri içermeyen basit toplu ETL işleri, özellikle sorgular genellikle iki saniyeden kısa bir süre içinde tamamlanırsa, Foton'un etkinleştirilmesinden en az etkiyi görebilir.

İşlem boyutlandırma konusunda dikkat edilmesi gerekenler

Not

Aşağıdaki önerilerde, sınırsız küme oluşturma işlemine sahip olduğunuz varsayılır. Çalışma alanı yöneticileri bu ayrıcalığı yalnızca ileri düzey kullanıcılara vermelidir.

İnsanlar genellikle işlem boyutunu çalışan sayısı açısından düşünür, ancak dikkate alınması gereken başka önemli faktörler de vardır:

  • Toplam yürütücü çekirdeği (işlem): Tüm yürütücüler genelindeki toplam çekirdek sayısı. Bu, bir işlem için en yüksek paralelliği belirler.
  • Toplam yürütücü belleği: Tüm yürütücüler arasındaki toplam RAM miktarı. Bu, diske dökmeden önce bellekte ne kadar veri depolanabileceğini belirler.
  • Yürütücü yerel depolama alanı: Yerel disk depolama türü ve miktarı. Yerel disk, genellikle karıştırma ve önbelleğe alma sırasında veri taşma durumunda kullanılır.

Dikkat edilmesi gereken ek noktalar, yukarıdaki faktörleri de etkileyen çalışan örneği türü ve boyutudur. İşleminizi boyutlandırırken şunları göz önünde bulundurun:

  • İş yükünüz ne kadar veri tüketir?
  • İş yükünüzün hesaplama karmaşıklığı nedir?
  • Verileri nereden okuyorsunuz?
  • Veriler dış depolamada nasıl bölümleniyor?
  • Ne kadar paralelliğe ihtiyacınız var?

Bu soruların yanıtlanması, iş yüklerine göre en uygun işlem yapılandırmalarını belirlemenize yardımcı olur.

Çalışan sayısı ile çalışan örneği türlerinin boyutu arasında bir dengeleme eylemi vardır. her biri 16 çekirdek ve 128 GB RAM'e sahip iki çalışanla işlem yapılandırma, her biri 4 çekirdek ve 32 GB RAM'e sahip 8 çalışanla işlem yapılandırmayla aynı işlem ve belleğe sahiptir.

İşlem yapılandırma örnekleri

Aşağıdaki örneklerde belirli iş yükü türlerine göre işlem önerileri gösterilmektedir. Bu örnekler ayrıca kaçınılması gereken yapılandırmaları ve bu yapılandırmaların iş yükü türleri için neden uygun olmadığını da içerir.

Not

Bu bölümdeki tüm örnekler (makine öğrenmesi eğitiminin yanı sıra) yeni bir işlem kaynağı oluşturmak yerine sunucusuz işlem kullanmaktan yararlanabilir. İş yükünüz sunucusuz olarak desteklenmiyorsa işlem kaynağınızı yapılandırmanıza yardımcı olması için aşağıdaki önerileri kullanın.

Veri analizi

Veri analistleri genellikle birden çok bölümden veri gerektiren işlemler gerçekleştirir ve bu da birçok karıştırma işlemine yol açar. Daha az sayıda daha büyük düğüme sahip bir işlem kaynağı, bu karıştırmaları gerçekleştirmek için gereken ağ trafiği ve disk G/Ç'sini azaltabilir.

Büyük bir VM türüne sahip tek düğümlü işlem, özellikle de tek bir analist için en iyi seçenektir.

Analitik iş yükleri büyük olasılıkla aynı verilerin tekrar tekrar okunmasını gerektirir, bu nedenle önerilen düğüm türleri disk önbelleği etkinleştirilmiş olarak iyileştirilmiş depolama alanı veya yerel depolamaya sahip örneklerdir.

Analitik iş yükleri için önerilen ek özellikler şunlardır:

  • İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi göz önünde bulundurun.

Temel toplu ETL

Birleştirmeler veya toplamalar gibi geniş dönüştürmeler gerektirmeyen basit toplu ETL işleri için bellek ve depolama için daha düşük gereksinimlere sahip örnekleri kullanın. Bu, diğer çalışan türlerine göre maliyet tasarrufuna neden olabilir.

Karmaşık toplu ETL

Birden çok tablo arasında birleşim ve birleştirme gerektiren bir iş gibi karmaşık bir ETL işi için Databricks, karıştırılmış veri miktarını azaltmak için daha az çalışan kullanılmasını önerir. Daha az çalışana sahip olmayı telafi etmek için örneklerinizin boyutunu artırın.

Karmaşık dönüşümler yoğun işlem gücü kullanabilir. Diske önemli miktarda taşma veya OOM hataları gözlemlerseniz, örneklerinizde kullanılabilir bellek miktarını artırın.

İsteğe bağlı olarak, iş işlem hatlarını çalıştırırken işlem başlatma sürelerini azaltmak ve toplam çalışma zamanını azaltmak için havuzları kullanın.

Makine öğrenmesi modellerini eğitin

Databricks, makine öğrenmesi modellerini eğitmek için Kişisel işlem ilkesini kullanarak bir işlem kaynağı oluşturmanızı önerir.

Makine öğrenmesi modellerini eğitmeye yönelik ilk denemeler için büyük düğüm tipine sahip tek düğümlü bir hesaplama kullanmalısınız. Daha az düğüme sahip olmak karıştırmaların etkisini azaltır.

Daha fazla çalışan eklemek kararlılığınıza yardımcı olabilir, ancak verileri karıştırma ek yükü nedeniyle çok fazla çalışan eklemekten kaçınmalısınız.

Önerilen çalışan türleri, disk önbelleğe alma etkinleştirilmiş depolama optimizasyonuna sahip türlerdir veya aynı verilerin tekrarlanan okumalarını hesaba katmak ve eğitim verilerinin önbelleğe alınmasını sağlamak için yerel depolamaya sahip bir örnek kullanmaktır.

Makine öğrenmesi iş yükleri için önerilen ek özellikler şunlardır:

  • İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
  • İşlemin önceden onaylanan örnek türüyle kısıtlanması için havuzları kullanın.
  • İlkeleri kullanarak tutarlı işlem yapılandırmaları sağlayın.