Что такое Databricks Подключение?
Примечание.
В этой статье рассматриваются Подключение Databricks runtime 13.0 и более поздних версий.
Сведения о устаревшей версии Databricks Подключение см. в разделе Databricks Подключение для Databricks Runtime 12.2 LTS и ниже.
- Чтобы пропустить эту статью и начать использовать Databricks Подключение для Python сразу же, ознакомьтесь с Подключение Databricks для Python.
- Чтобы пропустить эту статью и начать использовать Databricks Подключение для R сразу, см. статью Databricks Подключение для R.
- Чтобы пропустить эту статью и начать использовать Databricks Подключение для Scala сразу, ознакомьтесь с Подключение Databricks для Scala.
Обзор
Databricks Подключение позволяет подключать популярные идентификаторы, такие как Visual Studio Code, PyCharm, RStudio Desktop, IntelliJ IDEA, серверы записных книжек и другие пользовательские приложения к кластерам Azure Databricks. В этой статье объясняется, как работает Databricks Подключение.
Databricks Подключение — это клиентская библиотека среды выполнения Databricks. Он позволяет создавать код с помощью API Spark и выполнять их удаленно в кластере Azure Databricks вместо локального сеанса Spark.
Например, при выполнении команды spark.read.format(...).load(...).groupBy(...).agg(...).show()
DataFrame с помощью Databricks Подключение логические представления команды отправляются на сервер Spark, работающий в Azure Databricks для выполнения в удаленном кластере.
Databricks Connect позволяет:
Запустите крупномасштабный код Spark из любого приложения Python, R или Scala. В любом месте, где можно
import pyspark
использовать Python,library(sparklyr)
для R илиimport org.apache.spark
Scala, теперь можно запустить код Spark непосредственно из приложения, не устанавливая подключаемые модули интегрированной среды разработки или использовать скрипты отправки Spark.Примечание.
Databricks Подключение для Databricks Runtime 13.0 и более поздних версий поддерживают запуск приложений Python. R и Scala поддерживаются только в Databricks Подключение для Databricks Runtime 13.3 LTS и более поздних версий.
Пошаговое выполнение и отладка кода в среде IDE даже при работе с удаленным кластером.
Быстрое выполнение итерации при разработке библиотек. После изменения зависимостей библиотеки Python или Scala в Databricks Подключение не нужно перезапускать кластер, так как каждый сеанс клиента изолирован друг от друга в кластере.
Завершайте работу бездействующих кластеров без потери работы. Так как клиентское приложение отделяется от кластера, на него не влияют перезагрузки или обновления кластера, что обычно приводит к потере всех переменных, RDD и объектов кадров данных, определенных в записной книжке.
Для Databricks Runtime 13.3 LTS и более поздних версий databricks Подключение теперь основан на Подключение Spark с открытым исходным кодом. В Подключение Spark представлена отложенная архитектура клиентского сервера для Apache Spark, которая позволяет удаленно подключаться к кластерам Spark с помощью API кадра данных и неразрешенных логических планов в качестве протокола. Благодаря этой архитектуре "V2" на основе Spark Подключение Databricks Подключение становится тонким клиентом, который прост и прост в использовании. Spark Подключение можно внедрить везде для подключения к Azure Databricks: в средах IDEs, записных книжек и приложениях, позволяя отдельным пользователям и партнерам создавать новые (интерактивные) пользовательские возможности на основе платформы Databricks. Дополнительные сведения о Подключение Spark см. в статье "Введение в Подключение Spark".
Databricks Подключение определяет, где выполняется код и выполняется отладка, как показано на следующем рисунке.
Для выполнения кода: весь код выполняется локально, а все коды, связанные с операциями DataFrame, выполняются в кластере в удаленной рабочей области Azure Databricks и ответы запуска отправляются обратно в локальный вызывающий объект.
Для отладки кода: весь код отлаживается локально, а весь код Spark продолжает работать в кластере в удаленной рабочей области Azure Databricks. Основной код ядра Spark engine не может быть отлаживаем непосредственно от клиента.
Следующие шаги
- Чтобы начать разработку решений Databricks Подключение с помощью Python, начните с руководства по Databricks Подключение для Python.
- Чтобы начать разработку решений Databricks Подключение с помощью R, начните с Подключение Databricks для R.
- Чтобы начать разработку решений Databricks Подключение с Scala, начните с Подключение Databricks для Scala.