Поделиться через


Управление зависимостями Python для конвейеров

Декларативные конвейеры Spark Lakeflow поддерживают внешние зависимости в конвейерах. Databricks рекомендует использовать один из двух шаблонов для установки пакетов Python:

  1. Используйте параметры среды для добавления пакетов в среду конвейера для всех исходных файлов в конвейере.
  2. Импорт модулей или библиотек из исходного кода, хранящегося в файлах рабочей области. См. импорт модулей Python из папок Git или файлов рабочей области.

Конвейеры также поддерживают использование глобальных и кластеризованных скриптов инициализации. Однако эти внешние зависимости, особенно скрипты инициализации, повышают риск проблем с обновлениями среды выполнения. Чтобы устранить эти риски, свести к минимуму использование скриптов инициализации в конвейерах. Если для обработки требуются скрипты инициализации, автоматизируйте тестирование конвейера для раннего обнаружения проблем. Если вы используете скрипты инициализации, Databricks рекомендует увеличить частоту тестирования.

Это важно

Так как библиотеки JVM не поддерживаются в конвейерах, не используйте скрипт init для установки библиотек JVM. Однако можно установить другие типы библиотек, такие как библиотеки Python, с помощью скрипта инициализации.

библиотеки Python

Чтобы указать внешние библиотеки Python, измените среду для конвейера.

  1. В редакторе конвейера нажмите кнопку "Параметры".
  2. В разделе "Среда конвейера" выберите значок карандаша.Изменить среду.
  3. Щелкните значок Добавьте зависимость.
  4. Введите имя зависимости. Databricks рекомендует зафиксировать (закрепить) версию библиотеки. Например, чтобы добавить зависимость от simplejson версии 3.19, введите simplejson==3.19.*.

Вы также можете установить пакет колеса Python из тома каталога Unity, указав его путь, например /Volumes/my_catalog/my_schema/my_ldp_volume/ldpfns-1.0-py3-none-any.whl.

Можно ли использовать библиотеки Scala или Java в конвейерах?

Нет, конвейеры поддерживают только SQL и Python. В конвейере нельзя использовать библиотеки JVM. Установка библиотек JVM приведет к непредсказуемому поведению и может нарушить работу будущих релизов декларированных конвейеров Lakeflow Spark. Если конвейер использует скрипт инициализации, необходимо также убедиться, что библиотеки JVM не установлены скриптом.