Миграция на Databricks Connect для Python

В этой статье описывается, как выполнить миграцию из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и выше для Python. Databricks Connect позволяет подключать популярные идентификаторы, серверы записных книжек и пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".

Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.

Сведения о версии Scala этой статьи см. в разделе "Миграция на Databricks Connect для Scala".

Перенос проекта Python

Чтобы перенести существующий проект кода Python или среду кодирования из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и выше:

Установите правильную версию Python, как указано в требованиях к установке, чтобы соответствовать кластеру Azure Databricks, если он еще не установлен локально.
Обновите виртуальную среду Python, чтобы при необходимости использовать правильную версию Python для сопоставления кластера. Инструкции см. в документации поставщика виртуальной среды.
После активации виртуальной среды удалите PySpark из виртуальной среды:
```
pip3 uninstall pyspark
```
При активации виртуальной среды удалите Databricks Connect для Databricks Runtime 12.2 LTS и ниже:
```
pip3 uninstall databricks-connect
```
При активации виртуальной среды установите Databricks Connect для Databricks Runtime 13.3 LTS и выше:
```
pip3 install --upgrade "databricks-connect==14.0.*"  # Or X.Y.* to match your cluster version.
```
Примечание.

Databricks рекомендует добавить нотацию dot-asterisk, чтобы указать databricks-connect==X.Y.* вместо нее databricks-connect=X.Y, чтобы убедиться, что установлен последний пакет. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.
Обновите код Python, чтобы инициализировать spark переменную (которая представляет экземпляр класса, аналогичного DatabricksSessionSparkSession PySpark). См . сведения о конфигурации вычислений для Databricks Connect.
Перенесите API-интерфейсы RDD, чтобы использовать API кадра данных и перенести их SparkContext для использования альтернативных вариантов.

Настройка конфигураций Hadoop

На клиенте можно задать конфигурации Hadoop с помощью API spark.conf.set, который применяется к SQL и операциям с кадрами данных. Конфигурации Hadoop, заданные для sparkContext, должны быть установлены в конфигурации кластера или с помощью записной книжки. Это обусловлено тем, что конфигурации, заданные для sparkContext, не привязаны к пользовательским сеансам, но применяются ко всему кластеру.

Обратная связь

Были ли сведения на этой странице полезными?

Last updated on 2026-01-16

Поделиться через

Миграция на Databricks Connect для Python

Перенос проекта Python

Настройка конфигураций Hadoop

Обратная связь

Дополнительные ресурсы