Aracılığıyla paylaş


İşlem yapılandırma başvurusu

Bu makalede İşlem Oluşturma kullanıcı arabiriminde kullanılabilen yapılandırma ayarları açıklanmaktadır. Kullanıcıların çoğu, atandığı ilkeleri kullanarak işlem kaynakları oluşturur ve bu da yapılandırılabilir ayarları sınırlar. Kullanıcı arabiriminizde belirli bir ayar görmüyorsanız, bunun nedeni seçtiğiniz ilkenin bu ayarı yapılandırmanıza izin vermemesidir.

Bu makalede açıklanan yapılandırmalar ve yönetim araçları hem çok amaçlı hem de iş işlemi için geçerlidir. İş işlemini yapılandırma hakkında daha fazla bilgi için bkz . Azure Databricks işlemini işlerinizle birlikte kullanma.

Yeni bir çok amaçlı işlem kaynağı oluşturma

Yeni bir çok amaçlı işlem kaynağı oluşturmak için:

  1. Çalışma alanı kenar çubuğunda İşlem'e tıklayın.
  2. İşlem oluştur düğmesine tıklayın.
  3. İşlem kaynağını yapılandırın.
  4. İşlem oluştur'a tıklayın.

Yeni işlem kaynağınız otomatik olarak dönmeye başlar ve kısa süre içinde kullanıma hazır olur.

Koşullarıdır

İlkeler, kullanıcıların işlem kaynakları oluştururken kullanabilecekleri yapılandırma seçeneklerini sınırlamak için kullanılan bir kural kümesidir. Bir kullanıcının Sınırsız küme oluşturma yetkilendirmesi yoksa, yalnızca verilen ilkelerini kullanarak işlem kaynakları oluşturabilir.

bir ilkeye göre işlem kaynakları oluşturmak için, İlke açılan menüsünden bir ilke seçin.

Varsayılan olarak, tüm kullanıcılar Kişisel İşlem ilkesine erişebilir ve tek makineli işlem kaynakları oluşturmalarına olanak sağlar. Kişisel İşlem'e veya ek ilkelere erişmeniz gerekiyorsa çalışma alanı yöneticinize ulaşın.

Tek düğümlü veya çok düğümlü işlem

İlkeye bağlı olarak, Tek düğümlü işlem kaynağı veya Çok düğümlü işlem kaynağı oluşturma arasında seçim yapabilirsiniz.

Tek düğümlü işlem, az miktarda veri veya tek düğümlü makine öğrenmesi kitaplıkları gibi dağıtılmış olmayan iş yükleri kullanan işler için tasarlanmıştır. Dağıtılmış iş yüklerine sahip daha büyük işler için çok düğümlü işlem kullanılmalıdır.

Tek düğüm özellikleri

Tek düğüm işlem kaynağı aşağıdaki özelliklere sahiptir:

  • Spark'ı yerel olarak çalıştırır.
  • Sürücü, çalışan düğümü olmadan hem ana hem de çalışan işlevi görür.
  • İşlem kaynağında mantıksal çekirdek başına bir yürütücü iş parçacığı, sürücü için eksi 1 çekirdek oluşturur.
  • Tüm stderr, stdoutve log4j günlük çıkışlarını sürücü günlüğüne kaydeder.
  • Çok düğümlü işlem kaynağına dönüştürülemez.

Tek veya çok düğümlü seçme

Tek veya çok düğümlü işlem arasında karar verirken kullanım örneğinizi göz önünde bulundurun:

  • Büyük ölçekli veri işleme, tek düğümlü işlem kaynağındaki kaynakları tüketecektir. Bu iş yükleri için Databricks çok düğümlü işlem kullanılmasını önerir.

  • Tek düğümlü işlem paylaşılacak şekilde tasarlanmamıştır. Kaynak çakışmalarını önlemek için Databricks, işlem paylaşılması gerektiğinde çok düğümlü işlem kaynağı kullanılmasını önerir.

  • Çok düğümlü işlem kaynağı 0 çalışana ölçeklendirilemez. Bunun yerine tek düğüm işlem kullanın.

  • Tek düğümlü işlem, işlem yalıtımıyla uyumlu değildir.

  • GPU zamanlaması tek düğüm işlemde etkinleştirilmez.

  • Tek düğümlü işlemde Spark, UDT sütunu olan Parquet dosyalarını okuyamaz. Aşağıdaki hata iletisi sonuçları:

    The Spark driver has stopped unexpectedly and is restarting. Your notebook will be automatically reattached.
    

    Bu sorunu geçici olarak çözmek için yerel Parquet okuyucuyu devre dışı bırakın:

    spark.conf.set("spark.databricks.io.parquet.nativeReader.enabled", False)
    

Erişim modları

Erişim modu, işlem kaynağını kimlerin kullanabileceğini ve işlem kaynağını kullanarak erişebilecekleri verileri belirleyen bir güvenlik özelliğidir. Azure Databricks'teki her işlem kaynağının bir erişim modu vardır.

Databricks, tüm iş yükleri için paylaşılan erişim modunu kullanmanızı önerir. Tek kullanıcı erişim modunu yalnızca gerekli işlevselliğiniz paylaşılan erişim modu tarafından desteklenmiyorsa kullanın.

Erişim Modu Kullanıcıya görünür UC Desteği Desteklenen Diller Notlar
Tek bir kullanıcı Her zaman Yes Python, SQL, Scala, R Tek bir kullanıcı tarafından atanabilir ve kullanılabilir. Bazı çalışma alanlarında Atanan erişim modu olarak adlandırılır.
Paylaşılan Her zaman (Premium plan gereklidir) Yes Python (Databricks Runtime 11.3 LTS ve üzeri), SQL, Scala (Databricks Runtime 13.3 LTS ve üzerini kullanan Unity Kataloğu özellikli işlemde) Kullanıcılar arasında veri yalıtımı olan birden çok kullanıcı tarafından kullanılabilir.
Yalıtım Paylaşılmamalıdır Yöneticiler, yönetici ayarları sayfasında kullanıcı yalıtımını zorunlu kılarak bu erişim modunu gizleyebilir. Hayır Python, SQL, Scala, R YalıtımSız Paylaşılan işlem için ilgili bir hesap düzeyi ayarı vardır.
Özel Gizli (Tüm yeni işlem için) Hayır Python, SQL, Scala, R Bu seçenek yalnızca belirtilen erişim modu olmadan mevcut bir işlem kaynağınız varsa gösterilir.

Erişim modunu Tek Kullanıcı veya Paylaşılan olarak ayarlayarak Unity Kataloğu'nun gereksinimlerini karşılamak için mevcut bir işlem kaynağını yükseltebilirsiniz. Unity Kataloğu özellikli çalışma alanlarında bu erişim modlarının her biri tarafından desteklenen işlevler hakkında ayrıntılı bilgi için bkz . Unity Kataloğu için işlem erişim modu sınırlamaları.

Not

Databricks Runtime 13.3 LTS ve üzerinde, başlatma betikleri ve kitaplıkları tüm erişim modları tarafından desteklenir. Gereksinimler ve destek düzeyleri farklılık gösterir. Bkz. Init betikleri nereye yüklenebilir? ve Küme kapsamlı kitaplıklar.

Databricks Runtime sürümleri

Databricks Runtime, işleminizde çalışan temel bileşenler kümesidir. Databricks Runtime Sürümü açılan menüsünü kullanarak çalışma zamanını seçin. Belirli Databricks Runtime sürümleri hakkında ayrıntılı bilgi için bkz . Databricks Runtime sürüm notları sürümleri ve uyumluluğu. Tüm sürümler Apache Spark içerir. Databricks aşağıdakileri önerir:

  • Tüm amaçlı işlemlerde, kodunuzla önceden yüklenmiş paketleriniz arasında en son iyileştirmelere ve en güncel uyumluluğa sahip olduğunuzdan emin olmak için en güncel sürümü kullanın.
  • İşletimsel iş yüklerini çalıştıran iş işlemi için Uzun Vadeli Destek (LTS) Databricks Runtime sürümünü kullanmayı göz önünde bulundurun. LTS sürümünü kullanmak, uyumluluk sorunlarıyla karşılaşmayın ve yükseltmeden önce iş yükünüzü kapsamlı bir şekilde test edebilirsiniz.
  • Veri bilimi ve makine öğrenmesi kullanım örnekleri için Databricks Runtime ML sürümünü göz önünde bulundurun.

Foton hızlandırmayı kullanma

Photon, Databricks Runtime 9.1 LTS ve üzerini çalıştıran işlemde varsayılan olarak etkindir.

Foton hızlandırmayı etkinleştirmek veya devre dışı bırakmak için Foton Hızlandırma kullan onay kutusunu seçin. Photon hakkında daha fazla bilgi edinmek için bkz . Photon nedir?.

Çalışan ve sürücü düğümü türleri

İşlem kaynağı bir sürücü düğümünden ve sıfır veya daha fazla çalışan düğümünden oluşur. Sürücü düğümü varsayılan olarak çalışan düğümüyle aynı örnek türünü kullansa da, sürücü ve çalışan düğümleri için ayrı bulut sağlayıcısı örnek türleri seçebilirsiniz. Farklı örnek türü aileleri, yoğun bellek kullanan veya işlem yoğunluklu iş yükleri gibi farklı kullanım örneklerine uyar.

Çalışan veya sürücü düğümü olarak kullanılacak bir havuz da seçebilirsiniz. Çalışan türünüz olarak yalnızca spot örnekleri olan bir havuz kullanın. Sürücünüzün geri alınmasını önlemek için ayrı bir isteğe bağlı sürücü türü seçin. Bkz. Havuzlara bağlanma.

Çalışan türü

Çok düğümlü işlemde, çalışan düğümleri düzgün çalışan bir işlem kaynağı için gereken Spark yürütücülerini ve diğer hizmetleri çalıştırır. İş yükünüzü Spark ile dağıttığınızda dağıtılan işlemlerin tümü çalışan düğümlerinde gerçekleştirilir. Azure Databricks, çalışan düğümü başına bir yürütücü çalıştırır. Bu nedenle yürütücü ve çalışan terimleri Databricks mimarisi bağlamında birbirinin yerine kullanılır.

İpucu

Spark işini çalıştırmak için en az bir çalışan düğümüne ihtiyacınız vardır. İşlem kaynağında sıfır çalışan varsa, sürücü düğümünde Spark dışı komutlar çalıştırabilirsiniz, ancak Spark komutları başarısız olur.

Çalışan düğümü IP adresleri

Azure Databricks, her biri iki özel IP adresine sahip çalışan düğümlerini başlatır. Düğümün birincil özel IP adresi Azure Databricks iç trafiğini barındırıyor. İkincil özel IP adresi Spark kapsayıcısı tarafından küme içi iletişim için kullanılır. Bu model, Azure Databricks'in aynı çalışma alanında birden çok işlem kaynağı arasında yalıtım sağlamasına olanak tanır.

Sürücü türü

Sürücü düğümü, işlem kaynağına bağlı tüm not defterlerinin durum bilgilerini korur. Sürücü düğümü ayrıca SparkContext'i korur, işlem kaynağındaki bir not defterinden veya kitaplıktan çalıştırdığınız tüm komutları yorumlar ve Spark yürütücüleriyle koordine olan Apache Spark yöneticisini çalıştırır.

Sürücü düğümü türünün varsayılan değeri çalışan düğümü türününkiyle aynıdır. Spark çalışanlarından çok fazla veri almayı ve bunları not defterinde analiz etmeyi collect() planlıyorsanız daha fazla belleğe sahip daha büyük bir sürücü düğümü türü seçebilirsiniz.

İpucu

Sürücü düğümü ekli not defterlerinin tüm durum bilgilerini koruduğundan, kullanılmayan not defterlerini sürücü düğümünden ayırdığından emin olun.

GPU örneği türleri

Azure Databricks, derin öğrenmeyle ilişkili olanlar gibi yüksek performans gerektiren hesaplama açısından zorlu görevler için grafik işleme birimleri (GPU) ile hızlandırılan işlem kaynaklarını destekler. Daha fazla bilgi için bkz . GPU özellikli işlem.

Azure gizli bilgi işlem VM'leri

Azure gizli bilgi işlem VM türleri, bulut operatörü de dahil olmak üzere kullanımda olan verilere yetkisiz erişimi engeller. Bu VM türü, yüksek düzeyde düzenlenmiş sektörler ve bölgelerin yanı sıra bulutta hassas verilere sahip işletmeler için yararlıdır. Azure'ın gizli bilgi işlemi hakkında daha fazla bilgi için bkz . Azure gizli bilgi işlem.

Azure gizli bilgi işlem VM'lerini kullanarak iş yüklerinizi çalıştırmak için çalışan ve sürücü düğümü açılır listelerindeki DC veya EC serisi VM türleri arasından seçim yapın. Bkz. Azure Gizli VM seçenekleri.

Spot örnekleri

Maliyetten tasarruf etmek için Spot örnekleri onay kutusunu işaretleyerek Azure Spot VM'leri olarak da bilinen spot örnekleri kullanmayı seçebilirsiniz.

Spot yapılandırma

İlk örnek her zaman isteğe bağlı olacaktır (sürücü düğümü her zaman isteğe bağlıdır) ve sonraki örnekler spot örnekler olacaktır.

Örnekler kullanılamadığı için çıkarılırsa, Azure Databricks çıkarılan örnekleri değiştirmek için yeni spot örnekleri almayı dener. Spot örnekler alınamazsa, çıkarılan örneklerin yerine isteğe bağlı örnekler dağıtılır. Bu isteğe bağlı yeniden çalışma yalnızca tam olarak edinilmiş ve çalışmakta olan spot örnekler için desteklenir. Kurulum sırasında başarısız olan spot örnekleri otomatik olarak değiştirilmez.

Ayrıca, mevcut işlem kaynaklarına yeni düğümler eklendiğinde, Azure Databricks bu düğümler için spot örnekleri almayı dener.

Otomatik ölçeklendirmeyi etkinleştirme

Otomatik ölçeklendirmeyi etkinleştir seçeneği işaretlendiğinde işlem kaynağı için en az ve en fazla çalışan sayısını sağlayabilirsiniz. Databricks daha sonra işinizi çalıştırmak için gereken uygun sayıda çalışanı seçer.

İşlem kaynağınızın arasında otomatik ölçeklendirme yapacağı en düşük ve en fazla çalışan sayısını ayarlamak için, Çalışan türü açılan listesinin yanındaki En az çalışan ve En fazla çalışan alanı alanlarını kullanın.

Otomatik ölçeklendirmeyi etkinleştirmezseniz, Çalışan türü açılan listesinin yanındaki Çalışanlar alanına sabit sayıda çalışan girmeniz gerekir.

Not

İşlem kaynağı çalışırken, işlem ayrıntıları sayfasında ayrılan çalışanların sayısı görüntülenir. Ayrılan çalışan sayısını çalışan yapılandırmasıyla karşılaştırabilir ve gerektiğinde ayarlamalar yapabilirsiniz.

Otomatik ölçeklendirmenin avantajları

Otomatik ölçeklendirme sayesinde Azure Databricks, çalışanlarınızı işinizin özelliklerini hesaba eklemek için dinamik olarak yeniden ayırır. İşlem hattınızın bazı bölümleri diğerlerinden daha hesaplama açısından daha zorlu olabilir ve Databricks işinizin bu aşamalarında otomatik olarak ek çalışanlar ekler (ve artık gerekli olmadığında bunları kaldırır).

Otomatik ölçeklendirme, bir iş yüküyle eşleşmesi için işlem sağlamanız gerekmeyen yüksek kullanımın elde edilebildiğinden daha kolay hale getirir. Bu, özellikle gereksinimleri zaman içinde değişen iş yükleri için geçerlidir (örneğin, bir gün boyunca bir veri kümesini keşfetmek gibi), ancak sağlama gereksinimleri bilinmeyen bir kerelik daha kısa bir iş yükü için de geçerli olabilir. Bu nedenle otomatik ölçeklendirme iki avantaj sunar:

  • İş yükleri, sabit boyutlu, az sağlanan işlem kaynağına kıyasla daha hızlı çalışabilir.
  • Otomatik ölçeklendirme, statik olarak boyutlandırılmış bir işlem kaynağına kıyasla genel maliyetleri azaltabilir.

İşlem kaynağının ve iş yükünün sabit boyutuna bağlı olarak, otomatik ölçeklendirme size bu avantajlardan birini veya ikisini aynı anda sağlar. İşlem boyutu, bulut sağlayıcısı örnekleri sonlandırdığında seçilen en düşük çalışan sayısının altına inebilir. Bu durumda Azure Databricks, en az çalışan sayısını korumak için örnekleri yeniden sağlamayı sürekli olarak yeniden denenir.

Not

spark-submit işleri için otomatik ölçeklendirme kullanılamıyor.

Not

İşlem otomatik ölçeklendirmesi, Yapılandırılmış Akış iş yükleri için küme boyutunu azaltmayla ilgili sınırlamalara sahiptir. Databricks, akış iş yükleri için Gelişmiş Otomatik Ölçeklendirme ile Delta Live Tablolarının kullanılmasını önerir. Bkz . Gelişmiş Otomatik Ölçeklendirme ile Delta Live Tables işlem hatlarının küme kullanımını iyileştirme.

Otomatik ölçeklendirmenin davranışı

Premium planındaki çalışma alanı, iyileştirilmiş otomatik ölçeklendirmeyi kullanır. Standart fiyatlandırma planındaki çalışma alanları standart otomatik ölçeklendirmeyi kullanır.

İyileştirilmiş otomatik ölçeklendirme aşağıdaki özelliklere sahiptir:

  • 2 adımda en düşükten maks.'ye ölçeklendirilir.
  • İşlem kaynağı boşta olmasa bile dosya karıştırma durumuna bakarak ölçeği azaltabilirsiniz.
  • Geçerli düğümlerin yüzdesine göre ölçeği küçültür.
  • İş işlemlerinde, işlem kaynağı son 40 saniye içinde az kullanılıyorsa ölçeği azaltılır.
  • Tüm amaçlı işlemlerde, işlem kaynağı son 150 saniye içinde az kullanılıyorsa ölçeği azaltılır.
  • spark.databricks.aggressiveWindowDownS Spark yapılandırma özelliği, saniyeler içinde işlem ölçeği azaltma kararları alma sıklıklarını belirtir. Değerin artırılması, işlem ölçeğinin daha yavaş küçültülmesine neden olur. En yüksek değer 600'dür.

Standart otomatik ölçeklendirme, standart plan çalışma alanlarında kullanılır. Standart otomatik ölçeklendirme aşağıdaki özelliklere sahiptir:

  • 8 düğüm ekleyerek başlar. Ardından üstel olarak ölçeği artırarak maksimuma ulaşmak için gereken kadar adım atabilirsiniz.
  • Düğümlerin %90'ı 10 dakika meşgul olmadığında ve işlem en az 30 saniye boşta kaldığında ölçeği küçültür.
  • 1 düğümden başlayarak ölçeği üstel olarak daraltır.

Havuzlarla otomatik ölçeklendirme

İşlem kaynağınızı bir havuza ekliıyorsanız aşağıdakileri göz önünde bulundurun:

  • İstenen işlem boyutunun havuzdaki en az boştaki örnek sayısından küçük veya buna eşit olduğundan emin olun. Daha büyükse, işlem başlatma süresi havuz kullanmayan işlemle eşdeğer olacaktır.

  • Maksimum işlem boyutunun havuzun maksimum kapasitesinden küçük veya buna eşit olduğundan emin olun. Daha büyükse işlem oluşturma işlemi başarısız olur.

Otomatik ölçeklendirme örneği

Statik işlem kaynağını otomatik ölçeklendirme için yeniden yapılandırırsanız, Azure Databricks işlem kaynağını en düşük ve en yüksek sınırlar içinde hemen yeniden boyutlandırır ve ardından otomatik ölçeklendirmeyi başlatır. Örnek olarak, işlem kaynağını 5 ile 10 düğüm arasında otomatik ölçeklendirme için yeniden yapılandırırsanız, aşağıdaki tabloda belirli bir başlangıç boyutuna sahip bir işlem kaynağına ne olacağı gösterilmektedir.

İlk boyut Yeniden yapılandırmadan sonra boyut
6 6
12 10
3 5

Yerel depolamayı otomatik ölçeklendirmeyi etkinleştirme

Genellikle belirli bir işin ne kadar disk alanı alacağını tahmin etmek zor olabilir. Azure Databricks, oluşturma sırasında işleminize kaç gigabaytlık yönetilen disk iliştirmek zorunda olmadığınızı tahmin etmek zorunda kalmaktan kurtarmak için, tüm Azure Databricks işlemlerinde yerel depolamanın otomatik olarak ölçeklenmesine otomatik olarak olanak tanır.

Yerel depolamayı otomatik ölçeklendirme ile Azure Databricks, işleminizin Spark çalışanlarında kullanılabilir boş disk alanı miktarını izler. Bir çalışan diskte çok az çalışmaya başlarsa Databricks, disk alanı dolmadan önce çalışana otomatik olarak yeni bir yönetilen disk ekler. Diskler, sanal makine başına toplam 5 TB disk alanı sınırına (sanal makinenin ilk yerel depolama alanı dahil) bağlanır.

Bir sanal makineye bağlı yönetilen diskler yalnızca sanal makine Azure'a döndürülürken ayrılır. Yani, yönetilen diskler çalışan bir işlem parçası oldukları sürece hiçbir zaman bir sanal makineden ayrılmaz. Azure Databricks, yönetilen disk kullanımının ölçeğini küçültmek için bu özelliğin otomatik ölçeklendirme işlemi veya otomatik sonlandırma ile yapılandırılmış işlemde kullanılmasını önerir.

Yerel disk şifrelemesi

Önemli

Bu özellik Genel Önizlemededir.

İşlemi çalıştırmak için kullandığınız bazı örnek türlerinde yerel olarak bağlı diskler olabilir. Azure Databricks, karışık verileri veya kısa ömürlü verileri bu yerel olarak eklenmiş disklerde depolar. İşlem kaynağınızın yerel disklerinde geçici olarak depolanan karıştırma verileri de dahil olmak üzere bekleyen tüm verilerin tüm depolama türleri için şifrelendiğinden emin olmak için yerel disk şifrelemesini etkinleştirebilirsiniz.

Önemli

Yerel birimlere şifrelenmiş verileri okuma ve yazmanın performans üzerindeki etkisi nedeniyle iş yükleriniz daha yavaş çalışabilir.

Yerel disk şifrelemesi etkinleştirildiğinde, Azure Databricks yerel olarak her işlem düğümü için benzersiz olan ve yerel disklerde depolanan tüm verileri şifrelemek için kullanılan bir şifreleme anahtarı oluşturur. Anahtarın kapsamı her işlem düğümü için yereldir ve işlem düğümünün kendisiyle birlikte yok edilir. Anahtar, kullanım ömrü boyunca şifreleme ve şifre çözme için bellekte bulunur ve diskte şifrelenmiş olarak depolanır.

Yerel disk şifrelemesini etkinleştirmek için Kümeler API'sini kullanmanız gerekir. İşlem oluşturma veya düzenleme sırasında olarak trueayarlayınenable_local_disk_encryption.

Otomatik sonlandırma

İşlem için otomatik sonlandırma ayarlayabilirsiniz. İşlem oluşturma sırasında işlem kaynağının sonlandırılmasını istediğiniz işlem dışı süreyi dakika cinsinden belirtin.

İşlem kaynağındaki geçerli saat ve son komut çalıştırması arasındaki fark belirtilen etkinlik dışı süreden fazlaysa, Azure Databricks bu işlemi otomatik olarak sonlandırır. kaynak İşlem sonlandırma hakkında daha fazla bilgi için bkz . İşlemi sonlandırma.

Etiketler

Etiketler, kuruluşunuzdaki çeşitli gruplar tarafından kullanılan bulut kaynaklarının maliyetini kolayca izlemenizi sağlar. İşlem oluştururken etiketleri anahtar-değer çiftleri olarak belirtin; Azure Databricks bu etiketleri VM'ler ve disk birimleri gibi bulut kaynaklarına ve DBU kullanım raporlarına uygular.

Havuzlardan başlatılan işlem için özel etiketler yalnızca DBU kullanım raporlarına uygulanır ve bulut kaynaklarına yayılmaz.

Havuz ve işlem etiketi türlerinin birlikte nasıl çalıştığı hakkında ayrıntılı bilgi için bkz. Etiketleri kullanarak kullanımı izleme

İşlem kaynağınıza etiket eklemek için:

  1. Etiketler bölümünde, her özel etiket için bir anahtar-değer çifti ekleyin.
  2. Ekle'yi tıklatın.

Spark yapılandırması

Spark işlerine ince ayar yapmak için özel Spark yapılandırma özellikleri sağlayabilirsiniz.

  1. İşlem yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Spark sekmesine tıklayın.

    Spark yapılandırması

    Spark yapılandırmasında yapılandırma özelliklerini satır başına bir anahtar-değer çifti olarak girin.

Kümeler API'sini kullanarak işlem yapılandırdığınızda, küme oluşturma API'sindeki veya Kümeyi güncelleştir API'sindeki spark_conf alanda Spark özelliklerini ayarlayın.

İşlemde Spark yapılandırmalarını zorunlu kılmak için çalışma alanı yöneticileri işlem ilkelerini kullanabilir.

Gizli diziden Spark yapılandırma özelliği alma

Databricks, parolalar gibi hassas bilgilerin düz metin yerine gizli dizide depolanmasını önerir. Spark yapılandırmasında gizli diziye başvurmak için aşağıdaki söz dizimini kullanın:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Örneğin, içinde depolanan secrets/acme_app/passwordgizli dizi değerine çağrılan password bir Spark yapılandırma özelliği ayarlamak için:

spark.password {{secrets/acme-app/password}}

Daha fazla bilgi için bkz . Spark yapılandırma özelliğinde veya ortam değişkeninde gizli dizilere başvurmak için söz dizimi.

İşlem için SSH erişimi

Güvenlik nedeniyle, Azure Databricks'te SSH bağlantı noktası varsayılan olarak kapatılır. Spark kümelerinize SSH erişimini etkinleştirmek istiyorsanız bkz . Sürücü düğümüne SSH.

Not

SSH yalnızca çalışma alanınız kendi Azure sanal ağınızda dağıtıldığında etkinleştirilebilir.

Ortam değişkenleri

İşlem kaynağında çalışan başlatma betiklerinden erişebileceğiniz özel ortam değişkenlerini yapılandırın. Databricks, başlatma betiklerinde kullanabileceğiniz önceden tanımlanmış ortam değişkenleri de sağlar. Önceden tanımlanmış bu ortam değişkenlerini geçersiz kılamazsınız.

  1. İşlem yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Spark sekmesine tıklayın.

  3. Ortam Değişkenleri alanında ortam değişkenlerini ayarlayın.

    Ortam Değişkenleri alanı

Ortam değişkenlerini küme oluşturma API'sindeki spark_env_vars veya Kümeyi güncelleştir API'sindeki alanı kullanarak da ayarlayabilirsiniz.

İşlem günlüğü teslimi

İşlem oluştururken Spark sürücü düğümü, çalışan düğümleri ve olaylar için günlükleri teslim etmek için bir konum belirtebilirsiniz. Günlükler beş dakikada bir teslim edilir ve seçtiğiniz hedefte saatlik olarak arşivlenir. Bir işlem kaynağı sonlandırıldığında Azure Databricks, işlem kaynağı sonlandırılana kadar oluşturulan tüm günlükleri teslim etme garantisi sunar.

Günlüklerin hedefi işlem kaynağının cluster_idöğesine bağlıdır. Belirtilen hedef ise dbfs:/cluster-log-delivery, için 0630-191345-leap375 işlem günlükleri adresine dbfs:/cluster-log-delivery/0630-191345-leap375teslim edilir.

Günlük teslim konumunu yapılandırmak için:

  1. İşlem sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.
  2. Günlük sekmesine tıklayın.
  3. Bir hedef türü seçin.
  4. İşlem günlüğü yolunu girin.

Not

Bu özellik REST API'de de kullanılabilir. Bkz. Kümeler API'sine.