Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Примечание.
В этой статье рассматривается Databricks Connect для Databricks Runtime версии 13.3 LTS и более новых версий.
Сведения о устаревшей версии Databricks Connect см. в разделе Databricks Connect для Databricks Runtime 12.2 LTS и ниже.
Databricks Connect — это клиентская библиотека для среды выполнения Databricks, которая позволяет подключаться к вычислительным ресурсам Azure Databricks из таких IDE, как Visual Studio Code, PyCharm и IntelliJ IDEA, а также из записных книжек и любых пользовательских приложений, чтобы обеспечить новые интерактивные пользовательские возможности, основанные на Azure Databricks Lakehouse.
Databricks Connect доступен для следующих языков:
Что можно сделать с Помощью Databricks Connect?
С помощью Databricks Connect можно написать код с помощью API Spark и удаленно запускать их в вычислительных средах Azure Databricks, а не в локальном сеансе Spark.
Интерактивная разработка и отладка из любой интегрированной среды разработки. Databricks Connect позволяет разработчикам разрабатывать и отлаживать свой код на вычислительных ресурсах Databricks с помощью собственных функций запуска и отладки интегрированной среды разработки. Расширение Databricks Visual Studio Code использует Databricks Connect для обеспечения встроенной отладки пользовательского кода в Databricks.
Создание интерактивных приложений данных. Как и драйвер JDBC, библиотека Databricks Connect может быть внедрена в любое приложение для взаимодействия с Databricks. Databricks Connect обеспечивает полную экспрессивность Python через PySpark, устраняя несоответствие, возникающее при использовании SQL, и позволяя выполнять все преобразования данных с помощью Spark в бессерверных масштабируемых вычислениях на базе Databricks.
Как это работает?
Databricks Connect построен на базе Spark Connect с открытым исходным кодом, которая имеет отложенную архитектуру клиентского сервера для Apache Spark, которая обеспечивает удаленное подключение к кластерам Spark с помощью API кадра данных. Базовый протокол использует неразрешенные логические планы Spark и Apache Arrow на основе gRPC. Клиентский API спроектирован быть тонким, чтобы его можно было внедрять везде: на серверах приложений, в средах разработки (IDE), записных книжках и языках программирования.
- Общий код выполняется локально: код Python и Scala выполняются на стороне клиента, обеспечивая интерактивную отладку. Весь код выполняется локально, а весь код Spark продолжает работать в удаленном кластере.
-
API DataFrame выполняются на платформе Databricks. Все преобразования данных преобразуются в планы Spark и выполняются на вычислительных ресурсах Databricks через удаленный сеанс Spark. Они материализуются на локальном клиенте при использовании таких команд, как
collect(),show().toPandas() -
Код UDF выполняется на вычислительных ресурсах Databricks: локально определяемые функции сериализуются и передаются в кластер, где они выполняются. API, выполняющие пользовательский код в Databricks, включают: определяемые пользователем функции,
foreach,foreachBatch, а такжеtransformWithState. - Для управления зависимостями:
- Установите зависимости приложений на локальном компьютере. Они выполняются локально и должны быть установлены в рамках проекта, например в виртуальной среде Python.
- Установите зависимости UDF в Databricks. См. определяемые пользователем функции с зависимостями.
Как связаны Databricks Connect и Spark Connect?
Spark Connect — это протокол на основе gRPC с открытым кодом в Apache Spark, который позволяет удаленно выполнять рабочие нагрузки Spark с помощью API кадра данных.
Для Databricks Runtime 13.3 LTS и более поздних версий Databricks Connect является расширением Spark Connect с дополнениями и изменениями для поддержки работы с режимами вычислений Databricks и каталогом Unity.
Следующие шаги
Ознакомьтесь со следующими руководствами, чтобы быстро приступить к разработке решений Databricks Connect:
- Учебник по классическому вычислению Databricks Connect для Python
- Руководство по вычислению без сервера Databricks Connect для Python
- Учебник по использованию классических вычислений Databricks Connect для Scala
- Руководство по бессерверным вычислениям Databricks Connect для Scala
- Руководство по Databricks Connect для R
Дополнительные сведения о примерах приложений, использующих Databricks Connect, см. в репозитории примеров GitHub, в котором приведены следующие примеры: