Databricks Bağlan nedir?

Not

Bu makalede Databricks Runtime 13.0 ve üzeri için Databricks Bağlan yer alır.

Databricks Bağlan'nin eski sürümü hakkında bilgi için bkz. Databricks Runtime 12.2 LTS ve altı için Databricks Bağlan.

  • Bu makaleyi atlayıp Python için Databricks Bağlan kullanmaya hemen başlamak için bkz. Python için Databricks Bağlan.
  • Bu makaleyi atlamak ve R için Databricks Bağlan kullanmaya hemen başlamak için bkz. R için Databricks Bağlan.
  • Bu makaleyi atlayıp Scala için Databricks Bağlan kullanmaya hemen başlamak için bkz. Scala için Databricks Bağlan.

Genel bakış

Databricks Bağlan, Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, not defteri sunucuları ve diğer özel uygulamalar gibi popüler IDE'leri Azure Databricks kümelerine bağlamanıza olanak tanır. Bu makalede Databricks Bağlan nasıl çalıştığı açıklanmaktadır.

Databricks Bağlan, Databricks Runtime için bir istemci kitaplığıdır. Spark API'lerini kullanarak kod yazmanıza ve bunları yerel Spark oturumu yerine Azure Databricks kümesinde uzaktan çalıştırmanıza olanak tanır.

Örneğin Databricks Bağlan kullanarak DataFrame komutunu spark.read.format(...).load(...).groupBy(...).agg(...).show() çalıştırdığınızda, komutun mantıksal gösterimi uzak kümede yürütülmek üzere Azure Databricks'te çalışan Spark sunucusuna gönderilir.

Databricks Bağlan ile şunları yapabilirsiniz:

  • Herhangi bir Python, R veya Scala uygulamasından büyük ölçekli Spark kodu çalıştırın. Python, library(sparklyr) R veya Scala için kullanabileceğiniz import pyspark her yerde, artık herhangi bir IDE eklentisi yüklemenize veya import org.apache.spark Spark gönderim betiklerini kullanmanıza gerek kalmadan Spark kodunu doğrudan uygulamanızdan çalıştırabilirsiniz.

    Not

    Databricks Runtime 13.0 ve üzeri için Databricks Bağlan Python uygulamalarını çalıştırmayı destekler. R ve Scala yalnızca Databricks Runtime 13.3 LTS ve üzeri için Databricks Bağlan desteklenir.

  • Uzak kümeyle çalışırken bile IDE'nizde adım adım ilerleyin ve kodun hatalarını ayıklayın.

  • Kitaplık geliştirirken hızla yinelenir. Databricks Bağlan Python veya Scala kitaplık bağımlılıklarını değiştirdikten sonra kümeyi yeniden başlatmanız gerekmez çünkü her istemci oturumu kümede birbirinden yalıtılmıştır.

  • Boşta kalan kümeleri iş kaybı olmadan kapatın. İstemci uygulaması kümeden ayrılmış olduğundan, küme yeniden başlatmalarından veya yükseltmelerinden etkilenmez ve bu durum normalde not defterinde tanımlanan tüm değişkenleri, RDD'leri ve DataFrame nesnelerini kaybetmenize neden olur.

Databricks Runtime 13.3 LTS ve üzeri için Databricks Bağlan artık açık kaynak Spark Bağlan üzerine kurulmuştur. Spark Bağlan, Protokol olarak DataFrame API'sini ve çözümlenmemiş mantıksal planları kullanarak Spark kümelerine uzaktan bağlantı sağlayan Apache Spark için ayrılmış bir istemci-sunucu mimarisini tanıtır. Spark Bağlan tabanlı bu "V2" mimarisiyle Databricks Bağlan basit ve kullanımı kolay ince bir istemci haline gelir. Spark Bağlan, Azure Databricks'e bağlanmak için her yere eklenebilir: IDE'lere, not defterlerine ve uygulamalara, tek tek kullanıcıların ve iş ortaklarının Databricks platformuna dayalı yeni (etkileşimli) kullanıcı deneyimleri oluşturmasına olanak tanır. Spark Bağlan hakkında daha fazla bilgi için bkz. Spark Bağlan tanıtımı.

Databricks Bağlan, aşağıdaki şekilde gösterildiği gibi kodunuzun nerede çalıştırılıp hata ayıklanacağını belirler.

Databricks Bağlan kod çalıştırmalarını ve hata ayıklamalarını gösteren şekil

Kodu çalıştırmak için: Tüm kod yerel olarak çalıştırılırken, DataFrame işlemlerini içeren tüm kod uzak Azure Databricks çalışma alanında kümede çalıştırılır ve çalıştırma yanıtları yerel arayana geri gönderilir.

Hata ayıklama kodu için: Tüm Spark kodu uzak Azure Databricks çalışma alanında kümede çalışmaya devam ederken tüm kodlarda yerel olarak hata ayıklanır. Çekirdek Spark altyapısı kodu doğrudan istemciden hata ayıklanamaz.

Sonraki adımlar