Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается, как выполнить миграцию из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и выше для Python. Databricks Connect позволяет подключать популярные идентификаторы, серверы записных книжек и пользовательские приложения к кластерам Azure Databricks. См. раздел "Что такое Databricks Connect?".
Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.
Сведения о версии Scala этой статьи см. в разделе "Миграция на Databricks Connect для Scala".
Перенос проекта Python
Чтобы перенести существующий проект кода Python или среду кодирования из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и выше:
Установите правильную версию Python, как указано в требованиях к установке, чтобы соответствовать кластеру Azure Databricks, если он еще не установлен локально.
Обновите виртуальную среду Python, чтобы при необходимости использовать правильную версию Python для сопоставления кластера. Инструкции см. в документации поставщика виртуальной среды.
После активации виртуальной среды удалите PySpark из виртуальной среды:
pip3 uninstall pysparkПри активации виртуальной среды удалите Databricks Connect для Databricks Runtime 12.2 LTS и ниже:
pip3 uninstall databricks-connectПри активации виртуальной среды установите Databricks Connect для Databricks Runtime 13.3 LTS и выше:
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Примечание.
Databricks рекомендует добавить нотацию dot-asterisk, чтобы указать
databricks-connect==X.Y.*вместо нееdatabricks-connect=X.Y, чтобы убедиться, что установлен последний пакет. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.Обновите код Python, чтобы инициализировать
sparkпеременную (которая представляет экземпляр класса, аналогичногоDatabricksSessionSparkSessionPySpark). См . сведения о конфигурации вычислений для Databricks Connect.Перенесите API-интерфейсы RDD, чтобы использовать API кадра данных и перенести их
SparkContextдля использования альтернативных вариантов.
Настройка конфигураций Hadoop
На клиенте можно задать конфигурации Hadoop с помощью API spark.conf.set, который применяется к SQL и операциям с кадрами данных. Конфигурации Hadoop, заданные для sparkContext, должны быть установлены в конфигурации кластера или с помощью записной книжки. Это обусловлено тем, что конфигурации, заданные для sparkContext, не привязаны к пользовательским сеансам, но применяются ко всему кластеру.