Databricks Connect

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

Databricks Connect to biblioteka klienta środowiska Databricks Runtime, która umożliwia łączenie się z Azure Databricks obliczeniami z środowisk IDE, takich jak Visual Studio Code, PyCharm i IntelliJ IDEA, notesy i dowolna aplikacja niestandardowa, aby umożliwić nowe interaktywne środowiska użytkownika oparte na Azure Databricks Lakehouse.

Program Databricks Connect jest dostępny dla następujących języków:

Co mogę zrobić za pomocą usługi Databricks Connect?

Za pomocą usługi Databricks Connect możesz napisać kod przy użyciu interfejsów API platformy Spark i uruchomić go zdalnie na komputerze Azure Databricks zamiast w lokalnej sesji platformy Spark.

  • Interaktywne programowanie i debugowanie z dowolnego środowiska IDE. Usługa Databricks Connect umożliwia deweloperom opracowywanie i debugowanie kodu w obliczeniach usługi Databricks przy użyciu natywnych funkcji uruchamiania i debugowania środowiska IDE. Rozszerzenie Databricks Visual Studio Code używa narzędzia Databricks Connect w celu zapewnienia wbudowanego debugowania kodu użytkownika w usłudze Databricks.

  • Tworzenie interaktywnych aplikacji danych. Podobnie jak sterownik JDBC, biblioteka Databricks Connect może być osadzona w dowolnej aplikacji w celu interakcji z usługą Databricks. Usługa Databricks Connect zapewnia pełną ekspresyjność Python za pośrednictwem programu PySpark, eliminując niezgodność języka programowania SQL i umożliwiając uruchamianie wszystkich przekształceń danych za pomocą platformy Spark w skalowalnych obliczeniach bezserwerowych usługi Databricks.

Jak to działa?

Usługa Databricks Connect jest oparta na rozwiązaniu Spark Connect typu open source, który ma oddzieloną architekturę client-server dla platformy Apache Spark, która umożliwia zdalną łączność z klastrami Spark przy użyciu interfejsu API ramki danych. Podstawowy protokół korzysta z nierozwiązanych planów logicznych platformy Spark i narzędzia Apache Arrow w oparciu o gRPC. Interfejs API klienta został zaprojektowany jako lekki, aby można go było osadzać wszędzie: na serwerach aplikacji, w środowiskach IDE, notesach i językach programowania.

Gdzie jest uruchamiany kod Databricks Connect

  • Ogólny kod działa lokalnie: Kod Python i Scala są uruchamiane po stronie klienta, co umożliwia debugowanie interaktywne. Cały kod jest wykonywany lokalnie, podczas gdy cały kod Platformy Spark nadal działa w klastrze zdalnym.
  • API DataFrame są uruchamiane na platformie obliczeniowej Databricks. Wszystkie przekształcenia danych są konwertowane na plany platformy Spark i uruchamiane na obliczeniach usługi Databricks za pośrednictwem zdalnej sesji platformy Spark. Są one widoczne na lokalnym kliencie, gdy używasz poleceń, takich jak collect(), show(), toPandas().
  • Kod UDF jest uruchamiany w obliczeniach usługi Databricks: Zdefiniowane lokalnie funkcje użytkownika są serializowane i przesyłane do klastra, gdzie kod UDF jest uruchamiany. Interfejsy API uruchamiające kod użytkownika w usłudze Databricks obejmują: funkcje definiowane przez użytkownika, foreach, foreachBatch, i transformWithState.
  • W przypadku zarządzania zależnościami:

Spark Connect to protokół oparty na gRPC typu open source w ramach platformy Apache Spark, który umożliwia zdalne wykonywanie obciążeń Platformy Spark przy użyciu interfejsu API ramki danych.

W przypadku środowiska Databricks Runtime 13.3 LTS lub nowszego usługa Databricks Connect to rozszerzenie Spark Connect z dodatkowymi funkcjami i modyfikacjami w celu obsługi pracy z trybami obliczeniowymi Databricks i Unity Catalog.

Następne kroki

Zapoznaj się z następującymi samouczkami, aby szybko rozpocząć tworzenie rozwiązań usługi Databricks Connect:

Aby wyświetlić przykładowe aplikacje korzystające z narzędzia Databricks Connect, zobacz repozytorium GitHub przykłady zawierające następujące przykłady: