Примечание.
Для доступа к этой странице требуется авторизация. Вы можете попробовать войти или изменить каталоги.
Для доступа к этой странице требуется авторизация. Вы можете попробовать изменить каталоги.
В этой статье описывается, как выполнить миграцию из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и более поздних версий для Python. Databricks Connect позволяет подключать популярные среды IDE, серверы блокнотов и пользовательские приложения к кластерам Azure Databricks. См. Databricks Connect.
Прежде чем начать использовать Databricks Connect, необходимо настроить клиент Databricks Connect.
Сведения о версии Scala этой статьи см. в разделе "Миграция на Databricks Connect для Scala".
Перенос проекта Python
Чтобы перенести существующий проект кода Python или среду кодирования из Databricks Connect для Databricks Runtime 12.2 LTS и ниже в Databricks Connect для Databricks Runtime 13.3 LTS и выше:
Установите правильную версию Python, как указано в требованиях installation для соответствия кластеру Azure Databricks, если он еще не установлен локально.
Обновите виртуальную среду Python, чтобы использовать правильную версию Python при необходимости, чтобы она соответствовала версии, используемой в вашем кластере. Инструкции см. в документации поставщика виртуальной среды.
После активации виртуальной среды удалите PySpark из виртуальной среды:
pip3 uninstall pysparkПри уже активированной виртуальной среде удалите Databricks Connect для Databricks Runtime 12.2 LTS и ниже:
pip3 uninstall databricks-connectС активированной виртуальной средой установите Databricks Connect для Databricks Runtime 13.3 LTS и выше.
pip3 install --upgrade "databricks-connect==14.0.*" # Or X.Y.* to match your cluster version.Примечание.
Databricks рекомендует добавить нотацию "точка-звездочка", чтобы указать
databricks-connect==X.Y.*вместоdatabricks-connect=X.Y, чтобы убедиться, что установлена последняя версия пакета. Хотя это не является обязательным требованием, он помогает убедиться, что вы можете использовать последние поддерживаемые функции для этого кластера.Обновите код на Python, чтобы инициализировать переменную
spark(которая представляет экземпляр классаDatabricksSession, аналогичноSparkSessionв PySpark). См. Конфигурацию вычислений для Databricks Connect.Перенесите API-интерфейсы RDD, чтобы использовать API DataFrame, и перенесите
SparkContextдля использования альтернатив.
Настройка конфигураций Hadoop
На клиенте можно задать конфигурации Hadoop с помощью API spark.conf.set, который применяется к SQL и операциям с кадрами данных. Конфигурации Hadoop, заданные для sparkContext, должны быть установлены в конфигурации кластера или с помощью записной книжки. Это обусловлено тем, что конфигурации, заданные для sparkContext, не привязаны к пользовательским сеансам, но применяются ко всему кластеру.