Spark kümesi oluşturma

Tamamlandı

Azure Databricks portalı kullanarak Azure Databricks çalışma alanınızda bir veya daha fazla küme oluşturabilirsiniz.

Screenshot of the Create Cluster interface in the Azure Databricks portal.

Kümeyi oluştururken, aşağıdakiler dahil olmak üzere yapılandırma ayarlarını belirtebilirsiniz:

  • Küme için bir ad.
  • Aşağıdakiler gibi olabilecek bir küme modu:
    • Standart: Birden çok çalışan düğümü gerektiren tek kullanıcılı iş yükleri için uygundur.
    • Yüksek Eşzamanlılık: Birden çok kullanıcının kümeyi eşzamanlı olarak kullanacağı iş yükleri için uygundur.
    • Tek Düğüm: Yalnızca tek bir çalışan düğümünü gerektiren küçük iş yükleri veya test için uygundur.
  • Kümede kullanılacak Databricks Runtime sürümü; Spark sürümünü ve Python, Scala gibi tek tek bileşenleri ve yüklenen diğer bileşenleri dikte eder.
  • Kümedeki çalışan düğümleri için kullanılan sanal makine (VM) türü.
  • Kümedeki en az ve en fazla çalışan düğümü sayısı.
  • Kümedeki sürücü düğümü için kullanılan VM türü.
  • Kümenin, kümeyi dinamik olarak yeniden boyutlandırmak için otomatik ölçeklendirmeyi destekleyip desteklemediği.
  • Kümenin otomatik olarak kapatılmadan önce ne kadar süreyle boşta kalabileceği.

Azure küme kaynaklarını nasıl yönetir?

Azure Databricks çalışma alanı oluşturduğunuzda, databricks gereci aboneliğinizde Azure kaynağı olarak dağıtılır. Çalışma alanında bir küme oluşturduğunuzda, hem sürücü hem de çalışan düğümleri için kullanılacak sanal makinelerin (VM) türlerini ve boyutlarını ve diğer bazı yapılandırma seçeneklerini belirtirsiniz, ancak Azure Databricks kümenin diğer tüm yönlerini yönetir.

Databricks gereci, aboneliğinizde yönetilen bir kaynak grubu olarak Azure'a dağıtılır. Bu kaynak grubu, kümeleriniz için sürücü ve çalışan VM'lerinin yanı sıra sanal ağ, güvenlik grubu ve depolama hesabı gibi diğer gerekli kaynakları içerir. Kümenizin zamanlanmış işler gibi tüm meta verileri, hataya dayanıklılık için coğrafi çoğaltmaya sahip bir Azure Veritabanı'nda depolanır.

Azure Kubernetes Service (AKS), azure databricks denetim düzlemini ve veri düzlemlerini en son nesil Azure donanımında (Dv3 VM' ler) çalıştırılan kapsayıcılar aracılığıyla çalıştırmak için kullanılır ve hızlandırılmış ağ ile yüksek performanslı Azure sanal makinelerinde 100us gecikme süresine sahip NvMe SSD'leri kullanılır. Azure Databricks, Spark performansını daha da geliştirmek için Azure'ın bu özelliklerini kullanır. Yönetilen kaynak grubunuzdaki hizmetler hazır olduktan sonra Azure Databricks kullanıcı arabirimi aracılığıyla ve otomatik ölçeklendirme ve otomatik sonlandırma gibi özellikler aracılığıyla Databricks kümesini yönetebilirsiniz.

Diagram of Azure Databricks architecture.

Not

Küme başlatma süresini kısaltmak için kümenizi boşta düğüm havuzuna ekleme seçeneğiniz de vardır. Daha fazla bilgi için Azure Databricks belgelerindeki Havuzlar bölümüne bakın.