Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
Замечание
В этой статье рассматривается инструмент Databricks Connect, предназначенный для Databricks Runtime 13.3 LTS и более поздних версий.
Databricks Connect позволяет подключаться к вычислительным ресурсам Databricks из локальной среды разработки за пределами Databricks. Затем вы можете разрабатывать, отлаживать и тестировать код непосредственно из интегрированной среды разработки перед перемещением кода в записную книжку или задание в Databricks. См. раздел "Что такое Databricks Connect?".
Портативность
Чтобы обеспечить плавный переход от локальной разработки к развертыванию в Databricks, все API Databricks Connect доступны в записных книжках Databricks как часть соответствующей среды выполнения Databricks. Это позволяет запускать код в записной книжке Databricks без каких-либо изменений в коде.
Поведение DatabricksSession
Поведение DatabricksSession немного отличается при использовании Databricks Connect в локальной среде разработки и в записных книжках и заданиях в рабочей области Databricks.
Поведение локальной среды разработки
При локальном выполнении кода в интегрированной среде разработки за пределами Databricks DatabricksSession.builder.getOrCreate() получает существующий сеанс Spark для предоставленной конфигурации, если он существует, или создает новый сеанс Spark, если он не существует.
DatabricksSession.builder.create() всегда создает новый сеанс Spark. Параметры подключения, такие как host, tokenи cluster_id заполняются либо из исходного кода, переменных среды, либо файла профилей конфигурации .databrickscfg.
Другими словами, при запуске с помощью Databricks Connect следующий код создает два отдельных сеанса:
spark1 = DatabricksSession.builder.create()
spark2 = DatabricksSession.builder.create()
Поведение рабочей области Databricks
При выполнении кода в записной книжке или задании в рабочей области Databricks DatabricksSession.builder.getOrCreate() возвращает сеанс Spark по умолчанию (также доступен через переменную spark) при использовании без дополнительной настройки. Переменная spark предварительно сконфигурирована для подключения к вычислительному экземпляру, к которому присоединена записная книжка или задание. Новый сеанс Spark создается, если заданы дополнительные параметры подключения, например с помощью DatabricksSession.builder.clusterId(...).getOrCreate() или DatabricksSession.builder.serverless().getOrCreate().
DatabricksSession.builder.create() требуются явные параметры подключения в блокноте, такие как DatabricksSession.builder.clusterId(...).create(), в противном случае возвращается ошибка [UNSUPPORTED].
Можно использовать Databricks Connect для подключения к вычислительным ресурсам Databricks, которые не привязаны к записной книжке или заданию, с помощью remote(), который принимает конфигурацию kwargs, или отдельных методов конфигурации, таких как host() или token(). В таких случаях для указанного вычисления создается новый сеанс, как при использовании за пределами записной книжки или задания Databricks.
Замечание
Для ноутбуков, работающих на бессерверных вычислениях, по умолчанию запросы истекают через 9000 секунд. Это можно настроить, задав свойство конфигурации Spark spark.databricks.execution.timeout. См. статью Настройка свойств конфигурации Spark в Azure Databricks.