Поделиться через


Разработка кода конвейера в локальной среде разработки

Вы можете создать исходный код конвейера Python в предпочтительной интегрированной среде разработки (IDE).

Невозможно проверить или запустить обновления в коде конвейера, написанном в интегрированной среде разработки. Необходимо развернуть файлы исходного кода обратно в рабочую область Azure Databricks и настроить их в рамках конвейера.

В этой статье представлен обзор поддержки локальной разработки интегрированной среды разработки. Для более интерактивной разработки и тестирования Databricks рекомендует использовать редактор Lakeflow Pipelines. См. статью "Разработка и отладка конвейеров ETL" с помощью редактора конвейеров Lakeflow.

Настройка локальной интегрированной среды разработки конвейеров

Databricks предоставляет модуль Python для локальной разработки, распределенной через PyPI. Инструкции по установке и использованию см. в Stub Python для DLT.

Этот модуль содержит интерфейсы и ссылки на строку документации для интерфейса конвейера Python, предоставляя проверку синтаксиса, автозавершение и проверку типов данных при написании кода в интегрированной среде разработки.

Этот модуль включает интерфейсы, но не функциональные реализации. Эту библиотеку нельзя использовать для локального создания или запуска конвейеров.

Пакеты ресурсов Databricks можно использовать для упаковки и развертывания исходного кода и конфигураций в целевой рабочей области, а также для запуска обновления конвейера, настроенного таким образом. См. статью "Преобразование конвейера в проект пакета активов Databricks".

Расширение Databricks для Visual Studio Code имеет дополнительные функции для работы с конвейерами с помощью наборов ресурсов Databricks. См. обозреватель ресурсов пакета .

Синхронизация потока кода из интегрированной среды разработки в рабочую область

В следующей таблице приведены сведения о параметрах синхронизации исходного кода конвейера между локальной интегрированной среды разработки и рабочей областью Azure Databricks:

Инструмент или шаблон Сведения
Пакеты активов Databricks Используйте пакеты ресурсов Databricks для развертывания ресурсов конвейера, начиная от одного файла исходного кода до конфигураций для нескольких конвейеров, заданий и файлов исходного кода. См. статью "Преобразование конвейера в проект пакета активов Databricks".
Расширение Databricks для Visual Studio Code Azure Databricks обеспечивает интеграцию с Visual Studio Code, которая включает простую синхронизацию между локальными файлами интегрированной среды разработки и рабочих областей. Это расширение также предоставляет инструменты для использования Databricks Asset Bundles для развертывания активов конвейеров. См. раздел "Что такое расширение Databricks для Visual Studio Code?".
Файлы рабочей области Файлы рабочей области Databricks можно использовать для отправки исходного кода конвейера в рабочую область Databricks, а затем импортировать этот код в конвейер. См. раздел " Что такое файлы рабочей области?".
Папки Git Папки Git позволяют синхронизировать код между локальной средой и рабочей областью Azure Databricks с помощью репозитория Git в качестве посредника. Ознакомьтесь с папками Azure Databricks Git.