Установка Databricks Connect для Python

2025-06-23

Примечание.

В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.

В этой статье описывается установка Databricks Connect для Python. См. раздел "Что такое Databricks Connect?". Сведения о версии Scala этой статьи см. в разделе Install Databricks Connect for Scala.

Требования

Чтобы установить Databricks Connect для Python, необходимо выполнить следующие требования:

Если вы подключаетесь к бессерверным вычислениям, рабочая область должна соответствовать требованиям для бессерверных вычислений.

Примечание.

Бессерверные вычисления поддерживаются в Databricks Connect версии 15.1 и выше. Кроме того, версии Databricks Connect по сравнению с выпуском Databricks Runtime в бессерверном режиме полностью совместимы. См . заметки о выпуске. Чтобы проверить, совместима ли версия Databricks Connect с бессерверными вычислениями, см. статью "Проверка подключения к Databricks".
Если вы подключаетесь к кластеру, целевой кластер должен соответствовать требованиям к конфигурации кластера, включая требования к версии Databricks Runtime.
На компьютере разработки должен быть установлен Python 3, а дополнительная версия Python, установленная на компьютере разработки, должна соответствовать требованиям к версии в таблице ниже.
Если вы используете определяемые пользователем функции (UDFS), локальная дополнительная версия Python должна соответствовать дополнительной версии Python версии Databricks Runtime кластера или бессерверных вычислений. Чтобы найти минорную версию Python в версии среды выполнения Databricks для вашего кластера, обратитесь к разделу Системная среда заметок о выпуске Databricks Runtime для этой версии. Ознакомьтесь с заметками о выпуске Databricks Runtime и версиями совместимости и заметками о выпуске бессерверных вычислений.

Матрица поддержки версий

В следующей таблице показаны совместимые версии Databricks Connect и Python. Номера версий Databricks Connect соответствуют номерам версий Databricks Runtime.

Сведения о поддержке UDF см. в базовой среде Python.

Тип вычисления	Версия Databricks Connect	Совместимая версия Python
Бессерверные приложения	От 16.1 до 16.4	3.12
Бессерверные приложения	15.4.10 до ниже 16.0	3.11
Кластер	16.1 и выше	3.12
Кластер	15.4 LTS	3.11
Кластер	13.3 LTS до 14.3 LTS	3,10

Активация виртуальной среды Python

Databricks настоятельно рекомендует активировать виртуальную среду Python для каждой версии Python, которая используется с Databricks Connect. Виртуальные среды Python помогают убедиться, что вы используете правильные версии Python и Databricks Connect вместе. Дополнительные сведения об этих инструментах и их активации см . в venv или поэзии.

Установка клиента Databricks Connect

В этом разделе описывается установка клиента Databricks Connect с помощью venv или поэзии.

Примечание.

Если у вас уже установлено расширение Databricks для Visual Studio Code, можно установить Databricks Connect для Databricks Runtime 13.3 LTS и выше с помощью расширения. Смотрите Отладка кода с использованием Databricks Connect для расширения Databricks для Visual Studio Code.

Установка клиента Databricks Connect с помощью venv

После активации виртуальной среды удалите PySpark, если оно уже установлено, выполнив uninstall команду. Это необходимо, так как пакет databricks-connect конфликтует с PySpark. Дополнительные сведения см. в разделе Конфликтующие установки PySpark. Чтобы проверить, установлен ли PySpark, выполните show команду.
```
# Is PySpark already installed?
pip3 show pyspark

# Uninstall PySpark
pip3 uninstall pyspark
```
При активации виртуальной среды установите клиент Databricks Connect, выполнив install команду. --upgrade Используйте параметр для обновления любой существующей установки клиента до указанной версии.
```
pip3 install --upgrade "databricks-connect==16.4.*"  # Or X.Y.* to match your cluster version.
```
Примечание.

Databricks рекомендует добавить нотацию dot-asterisk, чтобы указать databricks-connect==X.Y.* вместо нее databricks-connect=X.Y, чтобы убедиться, что установлен последний пакет. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.

Установка клиента Databricks Connect с помощью поэзии

После активации виртуальной среды удалите PySpark, если оно уже установлено, выполнив remove команду. Это необходимо, так как пакет databricks-connect конфликтует с PySpark. Дополнительные сведения см. в разделе Конфликтующие установки PySpark. Чтобы проверить, установлен ли PySpark, выполните show команду.
```
# Is PySpark already installed?
poetry show pyspark

# Uninstall PySpark
poetry remove pyspark
```
При активации виртуальной среды установите клиент Databricks Connect, выполнив add команду.
```
poetry add databricks-connect@~16.4  # Or X.Y to match your cluster version.
```
Примечание.

Databricks рекомендует использовать нотацию at-tilde, чтобы указать databricks-connect@~16.4 вместо нее databricks-connect==16.4, чтобы убедиться, что последний пакет установлен. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.

Следующие шаги

После установки Databricks Connect необходимо настроить подключение к Databricks. См . сведения о конфигурации вычислений для Databricks Connect.