Kümeleri yapılandırma

Not

Bunlar eski küme oluşturma kullanıcı arabirimine yönelik yönergelerdir ve yalnızca geçmiş doğruluğu için eklenmiştir. Tüm müşteriler güncelleştirilmiş küme oluşturma kullanıcı arabirimini kullanmalıdır.

Bu makalede, Azure Databricks kümelerini oluştururken ve düzenlerken kullanılabilen yapılandırma seçenekleri açıklanmaktadır. Kullanıcı arabirimini kullanarak küme oluşturmaya ve düzenlemeye odaklanır. Diğer yöntemler için bkz . Kümeler CLI, Kümeler API 2.0 ve Databricks Terraform sağlayıcısı.

Gereksinimlerinize en uygun yapılandırma seçeneklerinin birleşimini belirleme konusunda yardım için bkz. Küme yapılandırması en iyi yöntemleri.

Küme oluşturma

Küme ilkesi

Küme ilkesi, küme yapılandırma becerisini bir dizi kurala göre sınırlar. İlke kuralları, küme oluşturma için kullanılabilen öznitelikleri veya öznitelik değerlerini sınırlar. Küme ilkeleri, kullanımlarını belirli kullanıcılar ve gruplar ile sınırlayan ve bu nedenle küme oluştururken seçebileceğiniz ilkeleri sınırlayan ACL'lere sahiptir.

Küme ilkesi yapılandırmak için İlke açılan listesinden küme ilkesini seçin.

Küme ilkesi seçme

Not

Çalışma alanında hiçbir ilke oluşturulmadıysa, İlke açılan listesi görüntülenmez.

Varsa:

  • Küme oluşturma izni, Kısıtlamasız ilkesini seçebilir ve tam olarak yapılandırılabilir kümeler oluşturabilirsiniz. Sınırsız ilkesi hiçbir küme özniteliğini veya öznitelik değerini sınırlamaz.
  • Hem küme oluşturma izni hem de küme ilkelerine erişim, Sınırsız ilkesini ve erişiminiz olan ilkeleri seçebilirsiniz.
  • Yalnızca küme ilkelerine erişim, erişiminiz olan ilkeleri seçebilirsiniz.

Küme modu

Not

Bu makalede eski Kümeler kullanıcı arabirimi açıklanmaktadır. Önizleme kullanıcı arabiriminin ayrıntıları için bkz. Küme oluşturma. Bu, küme erişim türlerinin ve modlarının bazı terminoloji değişikliklerini içerir. Yeni ve eski küme türlerinin karşılaştırması için bkz. Kümeler kullanıcı arabirimi değişiklikleri ve küme erişim modları. Önizleme kullanıcı arabiriminde:

  • Standart mod kümeleri artık Yalıtım Yok Paylaşılan erişim modu kümeleri olarak adlandırılır.
  • Tablo ACL'leriyle Yüksek Eşzamanlılık artık Paylaşılan erişim modu kümeleri olarak adlandırılıyor.

Azure Databricks üç küme modunu destekler: Standart, Yüksek Eşzamanlılık ve Tek Düğüm. Varsayılan küme modu Standart'tır.

Önemli

  • Çalışma alanınız bir Unity Kataloğu meta deposuna atanmışsa, Yüksek Eşzamanlılık kümeleri kullanılamaz. Bunun yerine, erişim denetimlerinin bütünlüğünü sağlamak ve güçlü yalıtım garantilerini zorunlu kılmak için erişim modunu kullanırsınız. Ayrıca bkz. Unity Kataloğu'nu erişebilecek bir küme oluşturma.
  • Küme oluşturulduktan sonra küme modunu değiştiremezsiniz. Farklı bir küme modu istiyorsanız yeni bir küme oluşturmanız gerekir.

Küme yapılandırması, varsayılan değeri küme moduna bağlı olan bir otomatik sonlandırma ayarı içerir:

  • Standart ve Tek Düğüm kümeleri varsayılan olarak 120 dakika sonra otomatik olarak sonlanır.
  • Yüksek Eşzamanlılık kümeleri varsayılan olarak otomatik olarak sonlandırılmaz .

Standart kümeler

Uyarı

Standart mod kümeleri (bazen YalıtımSız Paylaşılan kümeler olarak da adlandırılır), kullanıcılar arasında yalıtım olmadan birden çok kullanıcı tarafından paylaşılabilir. Tablo ACL'leri veya Kimlik Bilgisi Geçişi gibi ek güvenlik ayarları olmadan Yüksek Eşzamanlılık kümesi modunu kullanırsanız, standart mod kümeleri olarak aynı ayarlar kullanılır. Hesap yöneticileri, bu tür kümelerde Databricks çalışma alanı yöneticileri için iç kimlik bilgilerinin otomatik olarak oluşturulmasını engelleyebilir . Daha güvenli seçenekler için Databricks, Tablo ACL'leri ile yüksek eşzamanlılık kümeleri gibi alternatifler önerir.

Standart küme yalnızca tek kullanıcılar için önerilir. Standart kümeler Python, SQL, R ve Scala'da geliştirilen iş yüklerini çalıştırabilir.

Yüksek Eşzamanlılık kümeleri

Yüksek Eşzamanlılık kümesi yönetilen bir bulut kaynağıdır. Yüksek Eşzamanlılık kümelerinin temel avantajları, en fazla kaynak kullanımı ve en düşük sorgu gecikme süreleri için ayrıntılı paylaşım sağlamalarıdır.

Yüksek Eşzamanlılık kümeleri SQL, Python ve R'de geliştirilen iş yüklerini çalıştırabilir. Yüksek Eşzamanlılık kümelerinin performansı ve güvenliği, kullanıcı kodu ayrı işlemlerde çalıştırılarak sağlanır ve bu, Scala'da mümkün değildir.

Ayrıca, tablo erişim denetimini yalnızca Yüksek Eşzamanlılık kümeleri destekler.

Yüksek Eşzamanlılık kümesi oluşturmak için Küme Modu'nuYüksek Eşzamanlılık olarak ayarlayın.

Yüksek Eşzamanlılık kümesi modu

Kümeler API'sini kullanarak Yüksek Eşzamanlılık kümesi oluşturma örneği için bkz. Yüksek Eşzamanlılık kümesi örneği.

Tek Düğüm kümeleri

Tek Düğümlü kümede çalışan yoktur ve sürücü düğümünde Spark işleri çalıştırır.

Buna karşılık Standart küme, Spark işlerini yürütmek için sürücü düğümüne ek olarak en az bir Spark çalışan düğümü gerektirir.

Tek Düğüm kümesi oluşturmak için Küme Modu'nuTek Düğüm olarak ayarlayın.

Tek Düğüm küme modu

Tek Düğümlü kümelerle çalışma hakkında daha fazla bilgi edinmek için bkz. Tek Düğümlü kümeler.

Veri kökeni

Önemli

Veri kökeni Genel Önizleme aşamasındadır.

Veri kökenini yakalayan bir küme oluşturmak için küme yapılandırma sayfasına gidin ve aşağıdaki adımları kullanın:

Not

İş kümesi kullanarak çalıştırılan bir işin parçası olarak köken yakalamak için, iş kümesini aşağıdaki yapılandırmayla yapılandırdığından emin olun.

  1. Erişim modundaTek kullanıcı veya Paylaşılan'ı seçin.

    • Tek kullanıcı: Birden çok dili destekleyen ancak atanan tek bir kullanıcı tarafından kullanılabilen bir küme.
    • Paylaşılan: Birden çok kullanıcı tarafından paylaşılabilen bir küme. Yalnızca SQL ve Python iş yükleri desteklenir.
  2. Databricks çalışma zamanı sürümünde Databricks Runtime 11.1 veya üzerini seçin.

  3. Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  4. Spark sekmesine tıklayın.

  5. Spark yapılandırması metin kutusuna aşağıdaki yapılandırmayı girin:

    spark.databricks.dataLineage.enabled true
    
  6. Create Cluster (Küme Oluştur) öğesine tıklayın.

Havuzlar

Küme başlangıç süresini azaltmak için, sürücü ve çalışan düğümleri için önceden tanımlanmış boş örnek havuzuna küme ekleyebilirsiniz. Küme, havuzlardaki örnekler kullanılarak oluşturulur. Bir havuz, istenen sürücü veya çalışan düğümlerini oluşturmak için yeterli boşta kaynaklara sahip değilse, örnek sağlayıcısından yeni örnekler ayırarak havuz genişler. Ekli küme sonlandırıldığında, kullandığı örnekler havuzlara döndürülür ve farklı bir küme tarafından yeniden kullanılabilir.

Çalışan düğümleri için bir havuz seçerseniz ancak sürücü düğümü için seçmezseniz, sürücü düğümü havuzu çalışan düğümü yapılandırmasından devralır.

Önemli

Sürücü düğümü için bir havuz seçmeye çalışırsanız ancak çalışan düğümleri için seçmezseniz bir hata oluşur ve kümeniz oluşturulmaz. Bu gereksinim, sürücü düğümünün çalışan düğümlerinin oluşturulmasını beklemesi gereken bir durumu (veya tam tersi) önler.

Azure Databricks'te havuzlarla çalışma hakkında daha fazla bilgi edinmek için bkz. Havuzlar .

Databricks Runtime

Databricks çalışma zamanları, kümelerinizde çalışan temel bileşenler kümesidir. Tüm Databricks çalışma zamanları Apache Spark'ı içerir ve kullanılabilirliği, performansı ve güvenliği geliştiren bileşenler ve güncelleştirmeler ekler. Ayrıntılar için bkz. Databricks çalışma zamanları.

Azure Databricks, bir küme oluşturduğunuzda veya düzenlediğinizde Databricks Çalışma Zamanı Sürümü açılan listesinde çeşitli çalışma zamanı türleri ve bu çalışma zamanı türlerinin çeşitli sürümlerini sunar.

Çalışma zamanı sürümünü seçin

Foton hızlandırma

Foton , Databricks Runtime 9.1 LTS ve üzerini çalıştıran kümeler için kullanılabilir.

Foton hızlandırmayı etkinleştirmek için Foton Hızlandırma kullan onay kutusunu seçin.

İsterseniz, Çalışan Türü ve Sürücü Türü açılan listesinde örnek türünü belirtebilirsiniz.

Databricks, en uygun fiyat ve performans için aşağıdaki örnek türlerini önerir:

  • Standard_E4ds_v4
  • Standard_E8ds_v4
  • Standard_E16ds_v4

Spark kullanıcı arabiriminde Photon etkinliğini görüntüleyebilirsiniz. Aşağıdaki ekran görüntüsünde sorgu ayrıntıları DAG gösterilmektedir. DAG'da Foton'un iki göstergesi vardır. İlk olarak, Photon işleçleri "Photon" ile başlar, örneğin. PhotonGroupingAgg İkincisi, DAG'de Foton işleçleri ve aşamaları şeftali rengindeyken, Foton olmayanlar mavidir.

Foton DAG

Docker görüntüleri

Bazı Databricks Runtime sürümleri için, küme oluştururken bir Docker görüntüsü belirtebilirsiniz. Örnek kullanım örnekleri arasında kitaplık özelleştirmesi, değişmeyen altın renkli bir kapsayıcı ortamı ve Docker CI/CD tümleştirmesi sayılabilir.

Gpu cihazlarına sahip kümelerde özel derin öğrenme ortamları oluşturmak için Docker görüntülerini de kullanabilirsiniz.

Yönergeler için bkz. GPU kümelerinde Databricks Container Services ve Databricks Container Services ile kapsayıcıları özelleştirme.

Küme düğüm türü

Küme bir sürücü düğümünden ve sıfır veya daha fazla çalışan düğümünden oluşur.

Sürücü düğümü varsayılan olarak çalışan düğümüyle aynı örnek türünü kullansa da, sürücü ve çalışan düğümleri için ayrı bulut sağlayıcısı örnek türleri seçebilirsiniz. Farklı örnek türleri aileleri, bellek veya işlem yoğunluklu iş yükleri gibi farklı kullanım örneklerine uygundur.

Not

Güvenlik gereksinimleriniz işlem yalıtımını içeriyorsa, çalışan türünüz olarak bir Standard_F72s_V2 örneği seçin. Bu örnek türleri, fiziksel konağın tamamını kullanan yalıtılmış sanal makineleri temsil eder ve ABD Savunma Bakanlığı Etki Düzeyi 5 (IL5) iş yükleri gibi desteklemek için gereken yalıtım düzeyini sağlar.

Sürücü düğümü

Sürücü düğümü, kümeye bağlı tüm not defterlerinin durum bilgilerini korur. Sürücü düğümü ayrıca SparkContext'i korur ve kümedeki bir not defterinden veya kitaplıktan çalıştırdığınız tüm komutları yorumlar ve Spark yürütücüleriyle eşgüdümlü Apache Spark yöneticisini çalıştırır.

Sürücü düğümü türünün varsayılan değeri, çalışan düğümü türüyle aynıdır. Spark çalışanlarından çok fazla veri almayı ve bunları not defterinde analiz etmeyi collect() planlıyorsanız daha fazla belleğe sahip daha büyük bir sürücü düğümü türü seçebilirsiniz.

İpucu

Sürücü düğümü ekli not defterlerinin tüm durum bilgilerini koruduğundan, kullanılmayan not defterlerini sürücü düğümünden ayırdığından emin olun.

Çalışan düğümü

Azure Databricks çalışan düğümleri, kümelerin düzgün çalışması için gereken Spark yürütücülerini ve diğer hizmetleri çalıştırır. İş yükünüzü Spark ile dağıttığınızda, dağıtılmış işlemenin tümü çalışan düğümlerinde gerçekleşir. Azure Databricks çalışan düğümü başına bir yürütücü çalıştırır; Bu nedenle yürütücü ve çalışan terimleri Azure Databricks mimarisi bağlamında birbirinin yerine kullanılır.

İpucu

Spark işini çalıştırmak için en az bir çalışan düğümüne ihtiyacınız vardır. Kümede sıfır çalışan varsa, sürücü düğümünde Spark dışı komutlar çalıştırabilirsiniz, ancak Spark komutları başarısız olur.

GPU örneği türleri

Azure Databricks, derin öğrenmeyle ilişkili olanlar gibi yüksek performans gerektiren hesaplama açısından zorlu görevler için grafik işleme birimleriyle (GPU) hızlandırılmış kümeleri destekler. Daha fazla bilgi için bkz. GPU özellikli kümeler.

Spot örnekler

Maliyetten tasarruf etmek için Spot örnekleri onay kutusunu işaretleyerek Azure Spot VM'leri olarak da bilinenspot örnekleri kullanmayı seçebilirsiniz.

Nokta yapılandırma

İlk örnek her zaman isteğe bağlı olacaktır (sürücü düğümü her zaman isteğe bağlıdır) ve sonraki örnekler spot örnekler olacaktır. Spot örnekler kullanılamama nedeniyle çıkarılırsa, çıkarılan örneklerin yerine isteğe bağlı örnekler dağıtılır.

Küme boyutu ve otomatik ölçeklendirme

Azure Databricks kümesi oluşturduğunuzda, küme için sabit sayıda çalışan sağlayabilir veya küme için en az ve en fazla çalışan sayısını sağlayabilirsiniz.

Sabit boyutlu bir küme sağladığınızda Azure Databricks, kümenizin belirtilen sayıda çalışana sahip olmasını sağlar. Çalışan sayısı için bir aralık sağladığınızda Databricks, işinizi çalıştırmak için gereken uygun çalışan sayısını seçer. Buna otomatik ölçeklendirme denir.

Azure Databricks, otomatik ölçeklendirme sayesinde çalışanlarınızı işinizin özelliklerini hesaba eklemek için dinamik olarak yeniden ayırır. İşlem hattınızın bazı bölümleri diğerlerinden daha fazla işlem gücü gerektirebilir ve Databricks işinizin bu aşamalarında otomatik olarak ek çalışanlar ekler (ve artık gerekli olmadığında bunları kaldırır).

Bir iş yüküyle eşleşecek şekilde kümeyi hazırlamanız gerekmeyen otomatik ölçeklendirme, yüksek küme kullanımını sağlamayı kolaylaştırır. Bu durum özellikle gereksinimleri zaman içinde değişen iş yükleri için geçerlidir (örneğin, bir gün boyunca bir veri kümesini keşfetmek gibi), ancak sağlama gereksinimleri bilinmeyen bir kerelik daha kısa bir iş yükü için de geçerli olabilir. Bu nedenle otomatik ölçeklendirme iki avantaj sunar:

  • İş yükleri, sabit boyutlu, az sağlanan kümeye kıyasla daha hızlı çalışabilir.
  • Otomatik ölçeklendirme kümeleri, statik olarak boyutlandırılmış bir kümeye kıyasla genel maliyetleri düşürebilir.

Kümenin ve iş yükünün sabit boyutuna bağlı olarak, otomatik ölçeklendirme size aynı anda bu avantajlardan birini veya ikisini birden sağlar. Bulut sağlayıcısı örnekleri sonlandırdığında küme boyutu seçilen en düşük çalışan sayısının altına inebilir. Bu durumda Azure Databricks, minimum çalışan sayısını korumak için örnekleri yeniden sağlamayı sürekli olarak yeniden denenir.

Not

otomatik ölçeklendirme işler için spark-submit kullanılamaz.

Otomatik ölçeklendirmenin davranışı

  • 2 adımda en düşükten maksimuma ölçeklendirilir.
  • Karışık dosya durumuna bakarak küme boşta olmasa bile ölçeği azaltabilirsiniz.
  • Geçerli düğümlerin yüzdesine göre ölçeği küçültür.
  • İş kümelerinde, küme son 40 saniye içinde az kullanılırsa ölçeği azaltılır.
  • Tüm amaçlı kümelerde, küme son 150 saniye içinde az kullanıldıysa ölçeği azaltılır.
  • spark.databricks.aggressiveWindowDownS Spark yapılandırma özelliği, kümenin ölçeği azaltma kararları alma sıklıklarını saniyeler içinde belirtir. Değeri artırmak, kümenin ölçeğinin daha yavaş düşürülmesine neden olur. En büyük değer 600'dür.

Otomatik ölçeklendirmeyi etkinleştirme ve yapılandırma

Azure Databricks'in kümenizi otomatik olarak yeniden boyutlandırmasına izin vermek için küme için otomatik ölçeklendirmeyi etkinleştirir ve en düşük ve en fazla çalışan aralığını sağlarsınız.

  1. Otomatik ölçeklendirmeyi etkinleştirin.

    • All-Purpose kümesi - Küme Oluştur sayfasında, Autopilot Seçenekleri kutusunda Otomatik ölçeklendirmeyi etkinleştir onay kutusunu seçin:

      Etkileşimli kümeler için otomatik ölçeklendirmeyi etkinleştirme

    • İş kümesi - Kümeyi Yapılandır sayfasında Autopilot Seçenekleri kutusunda Otomatik ölçeklendirmeyi etkinleştir onay kutusunu seçin:

      İş kümeleri için otomatik ölçeklendirmeyi etkinleştirme

  2. En düşük ve en fazla çalışanı yapılandırın.

    En az ve en fazla çalışan yapılandırma

    Küme çalışırken, küme ayrıntı sayfası ayrılan çalışanların sayısını görüntüler. Ayrılan çalışan sayısını çalışan yapılandırmasıyla karşılaştırabilir ve gerektiğinde ayarlamalar yapabilirsiniz.

Önemli

Örnek havuzu kullanıyorsanız:

  • İstenen küme boyutunun havuzdaki en az boştaki örnek sayısından küçük veya buna eşit olduğundan emin olun. Bu sayıdan çoksa, küme başlatma zamanı havuzu kullanmayan bir kümeyle eşdeğer olur.
  • En büyük küme boyutunun havuzun maksimum kapasitesinden küçük veya buna eşit olduğundan emin olun. Kapasiteden büyükse küme oluşturma başarısız olur.

Otomatik ölçeklendirme örneği

Statik bir kümeyi otomatik ölçeklendirme kümesi olacak şekilde yeniden yapılandırırsanız, Azure Databricks kümeyi en düşük ve en yüksek sınırlar içinde hemen yeniden boyutlandırır ve ardından otomatik ölçeklendirmeyi başlatır. Örneğin, bir kümeyi 5 ile 10 düğüm arasında otomatik ölçeklendirme için yeniden yapılandırdığınızda, aşağıdaki tabloda belirli bir başlangıç boyutuna sahip kümelere ne olduğu gösterilmektedir.

İlk boyut Yeniden yapılandırmadan sonra boyut
6 6
12 10
3 5

Yerel depolamayı otomatik ölçeklendirme

Belirli bir işin ne kadar disk alanı alacağını tahmin etmek genellikle zor olabilir. Azure Databricks, oluşturma sırasında kümenize kaç gigabayt yönetilen disk iliştirileceğini tahmin etmek zorunda kalmaktan tasarruf etmenizi sağlamak için tüm Azure Databricks kümelerinde yerel depolamanın otomatik olarak ölçeklenmesine olanak tanır.

Yerel depolamayı otomatik ölçeklendirme ile Azure Databricks, kümenizin Spark çalışanlarında kullanılabilir boş disk alanı miktarını izler. Çalışan diskte çok az çalışmaya başlarsa Databricks, disk alanı dolmadan önce çalışana otomatik olarak yeni bir yönetilen disk ekler. Diskler, sanal makine başına toplam 5 TB disk alanı sınırına (sanal makinenin ilk yerel depolama alanı dahil) bağlanır.

Bir sanal makineye bağlı yönetilen diskler yalnızca sanal makine Azure'a döndürülürken ayrılır. Yani, çalışan bir kümenin parçası olduğu sürece yönetilen diskler hiçbir zaman bir sanal makineden ayrılmaz. Yönetilen disk kullanımının ölçeğini küçültmek için Azure Databricks bu özelliği Spot örnekleri veya Otomatik sonlandırma ile yapılandırılmış bir kümede kullanmanızı önerir.

Yerel disk şifrelemesi

Önemli

Bu özellik Genel Önizlemededir.

Kümeleri çalıştırmak için kullandığınız bazı örnek türlerinde yerel olarak bağlı diskler olabilir. Azure Databricks bu yerel olarak eklenen disklerde karışık verileri veya kısa ömürlü verileri depolar. Kümenizin yerel disklerinde geçici olarak depolanan karıştırma verileri de dahil olmak üzere bekleyen tüm verilerin tüm depolama türleri için şifrelendiğinden emin olmak için yerel disk şifrelemesini etkinleştirebilirsiniz.

Önemli

Yerel birimlere şifrelenmiş verileri okumanın ve yazmanın performans üzerindeki etkisi nedeniyle iş yükleriniz daha yavaş çalışabilir.

Yerel disk şifreleme etkinleştirildiğinde, Azure Databricks yerel olarak her küme düğümü için benzersiz olan ve yerel disklerde depolanan tüm verileri şifrelemek için kullanılan bir şifreleme anahtarı oluşturur. Anahtarın kapsamı her küme düğümü için yereldir ve küme düğümünün kendisiyle birlikte yok edilir. Anahtar, kullanım ömrü boyunca şifreleme ve şifre çözme için bellekte bulunur ve diskte şifrelenmiş olarak depolanır.

Yerel disk şifrelemesini etkinleştirmek için Kümeler API'sini 2.0 kullanmanız gerekir. Küme oluşturma veya düzenleme sırasında şunları ayarlayın:

{
  "enable_local_disk_encryption": true
}

Bu API'lerin nasıl çağrılacağını gösteren örnekler için bkz. Kümeler API'sinde Oluşturma ve Düzenleme başvurusu.

Aşağıda yerel disk şifrelemesini etkinleştiren bir küme oluşturma çağrısı örneği verilmiştir:

{
  "cluster_name": "my-cluster",
  "spark_version": "7.3.x-scala2.12",
  "node_type_id": "Standard_D3_v2",
  "enable_local_disk_encryption": true,
  "spark_conf": {
    "spark.speculation": true
  },
  "num_workers": 25
}

Güvenlik modu

Çalışma alanınız bir Unity Kataloğu meta deposuna atanmışsa, erişim denetimlerinin bütünlüğünü sağlamak ve güçlü yalıtım garantilerini zorunlu kılmak için Yüksek Eşzamanlılık kümesi modu yerine güvenlik modunu kullanırsınız. Unity Kataloğu ile Yüksek Eşzamanlılık kümesi modu kullanılamaz.

Gelişmiş seçenekler'in altında aşağıdaki küme güvenlik modlarından birini seçin:

  • Hiçbiri: Yalıtım yok. Çalışma alanı-yerel tablo erişim denetimini veya kimlik bilgisi geçişini zorunlu kılmaz. Unity Kataloğu verilerine erişilemiyor.
  • Tek Kullanıcı: Yalnızca tek bir kullanıcı (varsayılan olarak kümeyi oluşturan kullanıcı) tarafından kullanılabilir. Diğer kullanıcılar kümeye ekleyemez. Tek Kullanıcı güvenlik moduyla bir kümeden görünüme erişirken, görünüm kullanıcının izinleriyle yürütülür. Tek kullanıcılı kümeler Python, Scala ve R kullanan iş yüklerini destekler. Tek kullanıcılı kümelerde başlatma betikleri, kitaplık yüklemesi ve DBFS bağlamaları desteklenir. Otomatik işler tek kullanıcılı kümeler kullanmalıdır.
  • Kullanıcı Yalıtımı: Birden çok kullanıcı tarafından paylaşılabilir. Yalnızca SQL iş yükleri desteklenir. Kitaplık yüklemesi, başlatma betikleri ve DBFS bağlamaları, küme kullanıcıları arasında katı yalıtımı zorlamak için devre dışı bırakılır.
  • Yalnızca Tablo ACL'leri (Eski): Çalışma alanı-yerel tablo erişim denetimini zorlar, ancak Unity Kataloğu verilerine erişemez.
  • Yalnızca geçiş (Eski): Çalışma alanı yerel kimlik bilgisi geçişini zorlar, ancak Unity Kataloğu verilerine erişemez.

Unity Kataloğu iş yükleri için desteklenen tek güvenlik modları Tek Kullanıcı ve Kullanıcı Yalıtımı'dır.

Daha fazla bilgi için bkz. Küme erişim modu nedir?.

Spark yapılandırması

Spark işlerinde ince ayar yapmak için, küme yapılandırmasında özel Spark yapılandırma özellikleri sağlayabilirsiniz.

  1. Küme yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Spark sekmesine tıklayın.

    Spark yapılandırması

    Spark yapılandırmasında, yapılandırma özelliklerini satır başına bir anahtar-değer çifti olarak girin.

Kümeler API'sini 2.0 kullanarak bir küme yapılandırdığınızda, Küme isteği oluşturma veya Küme isteğinidüzenleme bölümündeki alanda Spark özelliklerini spark_conf ayarlayın.

Tüm kümeler için Spark özelliklerini ayarlamak için genel bir başlatma betiği oluşturun:

dbutils.fs.put("dbfs:/databricks/init/set_spark_params.sh","""
  |#!/bin/bash
  |
  |cat << 'EOF' > /databricks/driver/conf/00-custom-spark-driver-defaults.conf
  |[driver] {
  |  "spark.sql.sources.partitionOverwriteMode" = "DYNAMIC"
  |}
  |EOF
  """.stripMargin, true)

Gizli diziden Spark yapılandırma özelliği alma

Databricks, parolalar gibi hassas bilgilerin düz metin yerine gizli dizide depolanmasını önerir. Spark yapılandırmasında gizli diziye başvurmak için aşağıdaki söz dizimini kullanın:

spark.<property-name> {{secrets/<scope-name>/<secret-name>}}

Örneğin, adlı password bir Spark yapılandırma özelliğini içinde secrets/acme_app/passworddepolanan gizli dizinin değerine ayarlamak için:

spark.password {{secrets/acme-app/password}}

Daha fazla bilgi için bkz. Spark yapılandırma özelliğinde veya ortam değişkeninde gizli dizilere başvurmak için söz dizimi.

Ortam değişkenleri

Kümede çalışan init betiklerinden erişebileceğiniz özel ortam değişkenlerini yapılandırabilirsiniz. Databricks, başlatma betiklerinde kullanabileceğiniz önceden tanımlanmış ortam değişkenleri de sağlar. Önceden tanımlanmış bu ortam değişkenlerini geçersiz kılamazsınız.

  1. Küme yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Spark sekmesine tıklayın.

  3. Ortam Değişkenleri alanında ortam değişkenlerini ayarlayın.

    Ortam Değişkenleri alanı

Ortam değişkenlerini küme isteği oluşturma veya Küme isteği kümelerinidüzenleme API'leri uç noktalarındaki alanı kullanarak spark_env_vars da ayarlayabilirsiniz.

Küme etiketleri

Küme etiketleri, kuruluşunuzdaki çeşitli gruplar tarafından kullanılan bulut kaynaklarının maliyetini kolayca izlemenize olanak sağlar. Küme oluştururken etiketleri anahtar-değer çiftleri olarak belirtebilirsiniz ve Azure Databricks bu etiketleri VM'ler ve disk birimleri gibi bulut kaynaklarına ve DBU kullanım raporlarına uygular.

Havuzlardan başlatılan kümeler için özel küme etiketleri yalnızca DBU kullanım raporlarına uygulanır ve bulut kaynaklarına yayılmaz.

Havuz ve küme etiketi türlerinin birlikte nasıl çalıştığı hakkında ayrıntılı bilgi için bkz. Küme, havuz ve çalışma alanı etiketlerini kullanarak kullanımı izleme.

Kolaylık olması için Azure Databricks her kümeye dört varsayılan etiket uygular: Vendor, Creator, ClusterNameve ClusterId.

Ayrıca, iş kümelerinde Azure Databricks iki varsayılan etiket uygular: RunName ve JobId.

Databricks SQL tarafından kullanılan kaynaklarda Azure Databricks varsayılan etiketini SqlWarehouseIdde uygular.

Uyarı

Kümeye anahtarıyla Name özel bir etiket atayın. Her kümenin değeri Azure Databricks tarafından ayarlanan bir etiketi Name vardır. anahtarıyla Nameilişkili değeri değiştirirseniz, küme artık Azure Databricks tarafından izlenemez. Sonuç olarak, küme boşta kaldığında sonlandırılamayabilir ve kullanım maliyetlerine neden olmaya devam eder.

Küme oluştururken özel etiketler ekleyebilirsiniz. Küme etiketlerini yapılandırmak için:

  1. Küme yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Sayfanın alt kısmında Etiketler sekmesine tıklayın.

    Etiketler sekmesi

  3. Her özel etiket için bir anahtar-değer çifti ekleyin. En fazla 43 özel etiket ekleyebilirsiniz.

Diğer ayrıntılar için bkz. Küme, havuz ve çalışma alanı etiketlerini kullanarak kullanımı izleme.

Kümelere SSH erişimi

Güvenlik nedeniyle, Azure Databricks'te SSH bağlantı noktası varsayılan olarak kapatılır. Spark kümelerinize SSH erişimini etkinleştirmek istiyorsanız Azure Databricks desteğine başvurun.

Not

SSH yalnızca çalışma alanınız kendi Azure sanal ağınızda dağıtıldığında etkinleştirilebilir.

Küme günlüğü teslimi

Küme oluşturduğunuzda Spark sürücü düğümü, çalışan düğümleri ve olaylar için günlükleri teslim etmek üzere bir konum belirtebilirsiniz. Günlükler, seçtiğiniz hedefe beş dakikada bir teslim edilir. Bir küme sonlandırıldığında Azure Databricks, küme sonlandırılana kadar oluşturulan tüm günlüklerin teslimini garanti eder.

Günlüklerin hedefi küme kimliğine bağlıdır. Belirtilen hedef ise dbfs:/cluster-log-delivery, için 0630-191345-leap375 küme günlükleri öğesine dbfs:/cluster-log-delivery/0630-191345-leap375teslim edilir.

Günlük teslim konumunu yapılandırmak için:

  1. Küme yapılandırması sayfasında Gelişmiş Seçenekler iki durumlu düğmesine tıklayın.

  2. Günlük sekmesine tıklayın.

    Küme günlüğü teslimi

  3. Bir hedef türü seçin.

  4. Küme günlük yolunu girin.

Not

Bu özellik REST API'de de kullanılabilir. Bkz. Kümeler API 2.0 ve Küme günlüğü teslim örnekleri.

Başlangıç betikleri

Küme düğümü başlatma (veya başlatma) betiği, Spark sürücüsü veya çalışan JVM başlamadan önce her küme düğümü için başlatma sırasında çalışan bir kabuk betiğidir. Init betiklerini kullanarak Databricks çalışma zamanına dahil olmayan paketleri ve kitaplıkları yükleyebilir, JVM sistem sınıfyolunu değiştirebilir, JVM tarafından kullanılan sistem özelliklerini ve ortam değişkenlerini ayarlayabilir veya diğer yapılandırma görevlerinin yanı sıra Spark yapılandırma parametrelerini değiştirebilirsiniz.

Gelişmiş Seçenekler bölümünü genişletip Başlatma Betikleri sekmesine tıklayarak bir kümeye başlatma betikleri ekleyebilirsiniz.

Ayrıntılı yönergeler için bkz. Küme düğümü başlatma betikleri.