Udostępnij przez


Co to jest usługa Databricks Connect?

Uwaga

W tym artykule opisano usługę Databricks Connect dla środowiska Databricks Runtime 13.3 LTS lub nowszego.

Aby uzyskać informacje o starszej wersji programu Databricks Connect, zobacz Databricks Connect for Databricks Runtime 12.2 LTS i poniżej.

Databricks Connect to biblioteka klienta środowiska Databricks Runtime, która umożliwia łączenie się z obliczeniami usługi Azure Databricks ze środowisk IDE, takich jak Visual Studio Code, PyCharm i IntelliJ IDEA, notebooki i dowolne aplikacje niestandardowe, aby umożliwiać nowe interaktywne doświadczenia użytkownika opierające się na Azure Databricks Lakehouse.

Program Databricks Connect jest dostępny dla następujących języków:

Co mogę zrobić za pomocą usługi Databricks Connect?

Za pomocą usługi Databricks Connect możesz napisać kod przy użyciu interfejsów API platformy Spark i uruchomić je zdalnie w obliczeniach usługi Azure Databricks zamiast w lokalnej sesji platformy Spark.

  • Interaktywne programowanie i debugowanie z dowolnego środowiska IDE. Usługa Databricks Connect umożliwia deweloperom opracowywanie i debugowanie kodu w obliczeniach usługi Databricks przy użyciu natywnych funkcji uruchamiania i debugowania środowiska IDE. Rozszerzenie Databricks Visual Studio Code używa programu Databricks Connect w celu zapewnienia wbudowanego debugowania kodu użytkownika w usłudze Databricks.

  • Tworzenie interaktywnych aplikacji danych. Podobnie jak sterownik JDBC, biblioteka Databricks Connect może być osadzona w dowolnej aplikacji w celu interakcji z usługą Databricks. Usługa Databricks Connect zapewnia pełną ekspresyjność języka Python poprzez PySpark, eliminując niezgodność impedancji pomiędzy językami programowania SQL i umożliwiając uruchamianie wszystkich przekształceń danych za pomocą platformy Spark na bezserwerowych skalowalnych obliczeniach usługi Databricks.

Jak to działa?

Usługa Databricks Connect jest oparta na rozwiązaniu Spark Connect typu open source, który ma oddzieloną architekturę client-server dla platformy Apache Spark, która umożliwia zdalną łączność z klastrami Spark przy użyciu interfejsu API ramki danych. Podstawowy protokół korzysta z nierozwiązanych planów logicznych platformy Spark i narzędzia Apache Arrow w oparciu o gRPC. Interfejs API klienta został zaprojektowany jako lekki, aby można go było osadzać wszędzie: na serwerach aplikacji, w środowiskach IDE, notesach i językach programowania.

Gdzie jest uruchamiany kod Databricks Connect

  • Kod ogólny działa lokalnie: kod Python i Scala działa po stronie klienta, włączając debugowanie interakcyjne. Cały kod jest wykonywany lokalnie, podczas gdy cały kod Platformy Spark nadal działa w klastrze zdalnym.
  • API DataFrame są uruchamiane na platformie obliczeniowej Databricks. Wszystkie przekształcenia danych są konwertowane na plany platformy Spark i uruchamiane na obliczeniach usługi Databricks za pośrednictwem zdalnej sesji platformy Spark. Są one widoczne na lokalnym kliencie, gdy używasz poleceń, takich jak collect(), show(), toPandas().
  • Kod UDF jest uruchamiany w obliczeniach usługi Databricks: Zdefiniowane lokalnie funkcje użytkownika są serializowane i przesyłane do klastra, gdzie kod UDF jest uruchamiany. Interfejsy API uruchamiające kod użytkownika w usłudze Databricks obejmują: funkcje definiowane przez użytkownika, foreach, foreachBatch, i transformWithState.
  • W przypadku zarządzania zależnościami:

Spark Connect to protokół oparty na gRPC typu open source w ramach platformy Apache Spark, który umożliwia zdalne wykonywanie obciążeń Platformy Spark przy użyciu interfejsu API ramki danych.

W przypadku środowiska Databricks Runtime 13.3 LTS lub nowszego usługa Databricks Connect to rozszerzenie Spark Connect z dodatkowymi funkcjami i modyfikacjami w celu obsługi pracy z trybami obliczeniowymi Databricks i Unity Catalog.

Następne kroki

Zapoznaj się z następującymi samouczkami, aby szybko rozpocząć tworzenie rozwiązań usługi Databricks Connect:

Aby wyświetlić przykładowe aplikacje korzystające z usługi Databricks Connect, zobacz repozytorium przykładów usługi GitHub, które zawiera następujące przykłady: