Aracılığıyla paylaş


Databricks Connect nedir?

Not

Bu makale Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect'i kapsar.

Databricks Connect'in eski sürümü hakkında bilgi için, Databricks Runtime 12.2 LTS ve altı için Databricks Connect bölümüne bakın.

Databricks Connect, Azure Databricks Lakehouse'unuzu temel alan yeni etkileşimli kullanıcı deneyimlerini etkinleştirmek için Visual Studio Code, PyCharm ve IntelliJ IDEA, not defterleri ve herhangi bir özel uygulama gibi IDE'lerden Azure Databricks işlemine bağlanmanızı sağlayan Databricks Çalışma Zamanı için bir istemci kitaplığıdır.

Databricks Connect aşağıdaki dillerde kullanılabilir:

Databricks Connect ile ne yapabilirim?

Databricks Connect'i kullanarak Spark API'lerini kullanarak kod yazabilir ve bunları yerel Spark oturumu yerine Azure Databricks işlemlerinde uzaktan çalıştırabilirsiniz.

  • Etkileşimli olarak herhangi bir IDE'den geliştirme ve hata ayıklama. Databricks Connect, geliştiricilerin herhangi bir IDE'nin yerel çalıştırma ve hata ayıklama işlevlerini kullanarak Databricks işlemlerinde kod geliştirmelerini ve hatalarını ayıklamalarını sağlar. Databricks Visual Studio Code uzantısı, Databricks'te kullanıcı kodunda yerleşik hata ayıklama sağlamak için Databricks Connect'i kullanır.

  • Etkileşimli veri uygulamaları oluşturun. Tıpkı bir JDBC sürücüsü gibi Databricks Connect kitaplığı da Databricks ile etkileşim kurmak için herhangi bir uygulamaya eklenebilir. Databricks Connect, PySpark aracılığıyla Python'ın tüm ifade özelliklerini sağlayarak SQL programlama dili empedans uyuşmazlığını ortadan kaldırır ve Databricks sunucusuz ölçeklenebilir işlemde Spark ile tüm veri dönüşümlerini çalıştırmanızı sağlar.

Nasıl çalışır?

Databricks Connect, DataFrame API'sini kullanarak Spark kümelerine uzaktan bağlantı sağlayan Apache Spark için ayrılmış bir istemci-sunucu mimarisine sahip açık kaynak Spark Connect üzerine kurulmuştur. Temel alınan protokol, gRPC'nin üzerinde Spark çözümlenmemiş mantıksal planları ve Apache Arrow'ı kullanır. İstemci API'si ince olacak şekilde tasarlanmıştır; böylece uygulama sunucularında, IDE'lerde, not defterlerinde ve programlama dillerinde her yere eklenebilir.

Databricks Connect kodunun çalıştığı yer

  • Genel kod yerel olarak çalışır: Python ve Scala kodu istemci tarafında çalıştırılarak etkileşimli hata ayıklamayı etkinleştirir. Tüm kod yerel olarak yürütülürken, tüm Spark kodu uzak kümede çalışmaya devam eder.
  • DataFrame API'leri Databricks işlem biriminde yürütülür. Veri dönüştürmelerinin tamamı Spark planlarına çevrilir ve uzak Spark oturumu aracılığıyla Databricks üzerinde çalıştırılır. "collect(), show(), toPandas() gibi komutları kullandığınızda yerel istemcinizde oluşturulur."
  • UDF kodu Databricks işlemi üzerinde çalışır: Yerel olarak tanımlanan UDF'ler serileştirilir ve çalıştığı kümeye iletilir. Databricks üzerinde kullanıcı kodu çalıştıran API'ler şunlardır: UDF'ler, foreach, foreachBatchve transformWithState.
  • Bağımlılık yönetimi için:
    • Uygulama bağımlılıklarını yerel makinenize yükleyin. Bunlar yerel olarak çalışır ve Python sanal ortamınızın bir parçası gibi projenizin bir parçası olarak yüklenmesi gerekir.
    • Databricks'e UDF bağımlılıklarını yükleyin. Bkz. Bağımlılıkları olan UDF'ler.

Spark Connect , Apache Spark'ta DataFrame API'sini kullanarak Spark iş yüklerinin uzaktan yürütülmesine olanak tanıyan açık kaynak gRPC tabanlı bir protokoldür.

Databricks Runtime 13.3 LTS ve üzeri için Databricks Connect, Databricks işlem modları ve Unity Kataloğu ile çalışmayı destekleyen eklemeler ve değişiklikler içeren bir Spark Connect uzantısıdır.

Sonraki adımlar

Databricks Connect çözümlerini hızla geliştirmeye başlamak için aşağıdaki öğreticilere bakın:

Databricks Connect kullanan örnek uygulamaları görmek için aşağıdaki örnekleri içeren GitHub örnekleri deposuna bakın: