İşlem yapılandırma önerileri
Bu makale, işlem yapılandırmasıyla ilgili öneriler ve en iyi yöntemleri içerir.
İş yükünüz destekleniyorsa Databricks, kendi işlem kaynağınızı yapılandırmak yerine sunucusuz işlem kullanmanızı önerir. Sunucusuz işlem, en basit ve en güvenilir işlem seçeneğidir. Yapılandırma gerektirmez, her zaman kullanılabilir ve iş yükünüz için ölçeklendirilir. Sunucusuz işlem not defterleri, işler ve Delta Live Tabloları için kullanılabilir. Bkz . Sunucusuz işlemle bağlantı kurma.
Ayrıca veri analistleri, Databricks'te verileri sorgulamak ve araştırmak için sunucusuz SQL ambarlarını kullanabilir. Bkz. Sunucusuz SQL ambarları nedir?.
İşlem ilkelerini kullanma
Sıfırdan yeni işlem oluşturuyorsanız Databricks, işlem ilkelerinin kullanılmasını önerir. İşlem ilkeleri, kişisel işlem, paylaşılan işlem, güçlü kullanıcılar ve işler gibi belirli amaçlar için tasarlanmış önceden yapılandırılmış işlem kaynakları oluşturmanıza olanak tanır. İlkeler, işlem ayarlarını yapılandırırken vermeniz gereken kararları sınırlar.
İlkelere erişiminiz yoksa çalışma alanı yöneticinize başvurun. Bkz. Varsayılan ilkeler ve ilke aileleri.
İşlem boyutlandırma konusunda dikkat edilmesi gerekenler
Not
Aşağıdaki önerilerde, sınırsız küme oluşturma işlemine sahip olduğunuz varsayılır. Çalışma alanı yöneticileri bu ayrıcalığı yalnızca ileri düzey kullanıcılara vermelidir.
İnsanlar genellikle işlem boyutunu çalışan sayısı açısından düşünür, ancak dikkate alınması gereken başka önemli faktörler de vardır:
- Toplam yürütücü çekirdeği (işlem): Tüm yürütücüler genelindeki toplam çekirdek sayısı. Bu, bir işlem için en yüksek paralelliği belirler.
- Toplam yürütücü belleği: Tüm yürütücüler arasındaki toplam RAM miktarı. Bu, diske dökmeden önce bellekte ne kadar veri depolanabileceğini belirler.
- Yürütücü yerel depolama alanı: Yerel disk depolama türü ve miktarı. Yerel disk öncelikle karıştırma ve önbelleğe alma sırasında taşma durumunda kullanılır.
Dikkat edilmesi gereken ek noktalar, yukarıdaki faktörleri de etkileyen çalışan örneği türü ve boyutudur. İşleminizi boyutlandırırken şunları göz önünde bulundurun:
- İş yükünüz ne kadar veri tüketir?
- İş yükünüzün hesaplama karmaşıklığı nedir?
- Verileri nereden okuyorsunuz?
- Veriler dış depolamada nasıl bölümleniyor?
- Ne kadar paralelliğe ihtiyacınız var?
Bu soruların yanıtlanması, iş yüklerine göre en uygun işlem yapılandırmalarını belirlemenize yardımcı olur.
Çalışan sayısı ile çalışan örneği türlerinin boyutu arasında bir dengeleme eylemi vardır. her biri 16 çekirdek ve 128 GB RAM'e sahip iki çalışanla işlem yapılandırma, her biri 4 çekirdek ve 32 GB RAM'e sahip 8 çalışanla işlem yapılandırmayla aynı işlem ve belleğe sahiptir.
İşlem yapılandırma örnekleri
Aşağıdaki örneklerde belirli iş yükü türlerine göre işlem önerileri gösterilmektedir. Bu örnekler ayrıca kaçınılması gereken yapılandırmaları ve bu yapılandırmaların iş yükü türleri için neden uygun olmadığını da içerir.
Not
Bu bölümdeki tüm örnekler (makine öğrenmesi eğitiminin yanı sıra) yeni bir işlem kaynağı oluşturmak yerine sunucusuz işlem kullanmaktan yararlanabilir. İş yükünüz sunucusuz olarak desteklenmiyorsa işlem kaynağınızı yapılandırmanıza yardımcı olması için aşağıdaki önerileri kullanın.
Veri analizi
Veri analistleri genellikle birden çok bölümden veri gerektiren işlemler gerçekleştirir ve bu da birçok karıştırma işlemine yol açar. Daha az sayıda daha büyük düğüme sahip bir işlem kaynağı, bu karıştırmaları gerçekleştirmek için gereken ağı ve disk G/Ç'sini azaltabilir.
Büyük bir VM türüne sahip tek düğümlü işlem, özellikle de tek bir analist için en iyi seçenektir.
Analitik iş yükleri büyük olasılıkla aynı verilerin tekrar tekrar okunmasını gerektirir, bu nedenle önerilen düğüm türleri disk önbelleği etkinleştirilmiş olarak iyileştirilmiş depolama alanı veya yerel depolamaya sahip örneklerdir.
Analitik iş yükleri için önerilen ek özellikler şunlardır:
- İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
- Analistin tipik iş yüküne göre otomatik ölçeklendirmeyi etkinleştirmeyi göz önünde bulundurun.
Temel toplu etl
Birleştirmeler veya toplamalar gibi geniş dönüşümler gerektirmeyen basit toplu ETL işleri genellikle Photon'dan yararlanıyor. Bu nedenle, Photon'ı destekleyen genel amaçlı bir örnek seçin.
Bellek ve depolama için daha düşük gereksinimlere sahip örnekler, diğer çalışan türlerine göre maliyet tasarrufuna neden olabilir.
Karmaşık toplu etl
Birden çok tablo arasında birleşim ve birleştirme gerektiren bir iş gibi karmaşık bir ETL işi için Databricks, karıştırılmış veri miktarını azaltmak için daha az çalışan kullanılmasını önerir. Daha az çalışana sahip olmayı telafi etmek için örneklerinizin boyutunu artırın.
Karmaşık dönüşümler yoğun işlem gücü kullanabilir. Diske önemli miktarda taşma veya OOM hataları gözlemlerseniz, örneklerinizde kullanılabilir bellek miktarını artırın.
İsteğe bağlı olarak, iş işlem hatlarını çalıştırırken işlem başlatma sürelerini azaltmak ve toplam çalışma zamanını azaltmak için havuzları kullanın.
Makine öğrenmesi modellerini eğitin
Databricks, makine öğrenmesi modellerini eğitmek için Kişisel işlem ilkesini kullanarak bir işlem kaynağı oluşturmanızı önerir.
Makine öğrenmesi modellerini eğitmeyle ilk denemeler için büyük düğüm türüne sahip tek düğümlü bir işlem kullanmanız gerekir. Daha az düğüme sahip olmak karıştırmaların etkisini azaltır.
Daha fazla çalışan eklemek kararlılığınıza yardımcı olabilir, ancak verileri karıştırma ek yükü nedeniyle çok fazla çalışan eklemekten kaçınmalısınız.
Önerilen çalışan türleri, disk önbelleğe alma etkin olarak iyileştirilmiş depolama alanı veya aynı verilerin tekrarlanan okumalarını hesaba eklemek ve eğitim verilerinin önbelleğe alınmasını etkinleştirmek için yerel depolamaya sahip bir örnektir.
Makine öğrenmesi iş yükleri için önerilen ek özellikler şunlardır:
- İşlemin etkinlik dışı bir süre sonra sonlandırılmasını sağlamak için otomatik sonlandırmayı etkinleştirin.
- İşlemin önceden onaylanan örnek türüyle kısıtlanması için havuzları kullanın.
- İlkeleri kullanarak tutarlı işlem yapılandırmaları sağlayın.