Что такое Databricks Подключение?

Примечание.

В этой статье рассматриваются Подключение Databricks runtime 13.0 и более поздних версий.

Сведения о устаревшей версии Databricks Подключение см. в разделе Databricks Подключение для Databricks Runtime 12.2 LTS и ниже.

Обзор

Databricks Подключение позволяет подключать популярные идентификаторы, такие как Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. В этой статье объясняется, как работает Databricks Подключение.

Databricks Подключение — это клиентская библиотека среды выполнения Databricks. Он позволяет создавать код с помощью API Spark и выполнять их удаленно в кластере Azure Databricks вместо локального сеанса Spark.

Например, при выполнении команды spark.read.format(...).load(...).groupBy(...).agg(...).show() DataFrame с помощью Databricks Подключение логические представления команды отправляются на сервер Spark, работающий в Azure Databricks для выполнения в удаленном кластере.

Databricks Connect позволяет:

  • Запустите крупномасштабный код Spark из любого приложения Python, R или Scala. В любом месте, где можно import pyspark использовать Python, library(sparklyr) для R или import org.apache.spark Scala, теперь можно запустить код Spark непосредственно из приложения, не устанавливая подключаемые модули интегрированной среды разработки или использовать скрипты отправки Spark.

    Примечание.

    Databricks Подключение для Databricks Runtime 13.0 и более поздних версий поддерживают запуск приложений Python. R и Scala поддерживаются только в Databricks Подключение для Databricks Runtime 13.3 LTS и более поздних версий.

  • Пошаговое выполнение и отладка кода в среде IDE даже при работе с удаленным кластером.

  • Быстрое выполнение итерации при разработке библиотек. После изменения зависимостей библиотеки Python или Scala в Databricks Подключение не нужно перезапускать кластер, так как каждый сеанс клиента изолирован друг от друга в кластере.

  • Завершайте работу бездействующих кластеров без потери работы. Так как клиентское приложение отделяется от кластера, на него не влияют перезагрузки или обновления кластера, что обычно приводит к потере всех переменных, RDD и объектов кадров данных, определенных в записной книжке.

Для Databricks Runtime 13.3 LTS и более поздних версий databricks Подключение теперь основан на Подключение Spark с открытым исходным кодом. В Подключение Spark представлена отложенная архитектура клиентского сервера для Apache Spark, которая позволяет удаленно подключаться к кластерам Spark с помощью API кадра данных и неразрешенных логических планов в качестве протокола. Благодаря этой архитектуре "V2" на основе Spark Подключение Databricks Подключение становится тонким клиентом, который прост и прост в использовании. Spark Подключение можно внедрить везде для подключения к Azure Databricks: в средах IDEs, записных книжек и приложениях, позволяя отдельным пользователям и партнерам создавать новые (интерактивные) пользовательские возможности на основе платформы Databricks. Дополнительные сведения о Подключение Spark см. в статье "Введение в Подключение Spark".

Databricks Подключение определяет, где выполняется код и выполняется отладка, как показано на следующем рисунке.

На рисунке показаны запуски и отладки кода Databricks Подключение

Для выполнения кода: весь код выполняется локально, а все коды, связанные с операциями DataFrame, выполняются в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.

Для отладки кода: весь код отлаживается локально, а весь код Spark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.

Следующие шаги