Поделиться через


Установка Databricks Connect для Python

Примечание.

В этой статье рассматриваются Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий.

В этой статье описывается установка Databricks Connect для Python. См. раздел "Что такое Databricks Connect?".

Требования

Перед установкой Databricks Connect убедитесь, что рабочая область и локальная среда соответствуют требованиям. См. сведения о требованиях к использованию Databricks Connect.

Активация виртуальной среды Python

Databricks настоятельно рекомендует активировать виртуальную среду Python для каждой версии Python, которая используется с Databricks Connect. Виртуальные среды Python помогают убедиться, что вы используете правильные версии Python и Databricks Connect вместе. Дополнительные сведения об этих инструментах и их активации см . в venv или поэзии.

Установка клиента Databricks Connect

В этом разделе описывается, как установить клиент Databricks Connect, используя venv или Poetry.

Примечание.

Если у вас уже установлено расширение Databricks для Visual Studio Code, можно установить Databricks Connect для Databricks Runtime 13.3 LTS и выше с помощью расширения. Смотрите Отладка кода с использованием Databricks Connect для расширения Databricks для Visual Studio Code.

Установка клиента Databricks Connect с помощью venv

  1. После активации виртуальной среды удалите PySpark, если оно уже установлено, выполнив uninstall команду. Это необходимо, так как пакет databricks-connect конфликтует с PySpark. Дополнительные сведения см. в разделе Конфликтующие установки PySpark. Чтобы проверить, установлен ли PySpark, выполните show команду.

    # Is PySpark already installed?
    pip3 show pyspark
    
    # Uninstall PySpark
    pip3 uninstall pyspark
    
  2. При активации виртуальной среды установите клиент Databricks Connect, выполнив install команду. --upgrade Используйте параметр для обновления любой существующей установки клиента до указанной версии.

    pip3 install --upgrade "databricks-connect==17.3.*"  # Or X.Y.* to match your cluster version.
    

    Примечание.

    Databricks рекомендует добавить нотацию dot-asterisk, чтобы указать databricks-connect==X.Y.* вместо нее databricks-connect=X.Y, чтобы убедиться, что установлен последний пакет. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.

Установка клиента Databricks Connect с помощью поэзии

  1. После активации виртуальной среды удалите PySpark, если оно уже установлено, выполнив remove команду. Это необходимо, так как пакет databricks-connect конфликтует с PySpark. Дополнительные сведения см. в разделе Конфликтующие установки PySpark. Чтобы проверить, установлен ли PySpark, выполните show команду.

    # Is PySpark already installed?
    poetry show pyspark
    
    # Uninstall PySpark
    poetry remove pyspark
    
  2. При активации виртуальной среды установите клиент Databricks Connect, выполнив add команду.

    poetry add databricks-connect@~17.3  # Or X.Y to match your cluster version.
    

    Примечание.

    Databricks рекомендует использовать нотацию at-tilde, чтобы указать databricks-connect@~17.3 вместо нее databricks-connect==17.3, чтобы убедиться, что последний пакет установлен. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.