Подключение к dbt Core

2025-03-30

В этой статье объясняется, что такое dbt, как установить dbt Core и как подключиться. Размещенная версия dbt, называемая dbt Cloud, также доступна. Дополнительные сведения см. в разделе Подключение к dbt Cloud.

Что такое dbt?

dbt (средство сборки данных) — это среда разработки для преобразования данных путем написания инструкций select. dbt преобразует такие инструкции select в таблицы и представления. dbt компилирует код в необработанные инструкции SQL, а затем выполняет его в указанной базе данных в Azure Databricks. dbt поддерживает шаблоны и рекомендации по совместному программированию, включая управление версиями, документацию и модульность.

dbt не извлекает и не загружает данные. dbt сосредотачивается только на этапе преобразования, используя архитектуру "преобразование после загрузки". В dbt предполагается, что у вас уже есть копия данных в базе.

dbt Core позволяет создавать код dbt в интегрированной среде разработки на локальном компьютере разработки, а затем запускать dbt из командной строки. В dbt Core предусмотрен интерфейс командной строки (CLI) dbt. Интерфейс dbt CLI является бесплатным и имеет открытый код.

dbt Core (и dbt Cloud) может использовать размещенные репозитории Git. Дополнительные сведения см. в статьях Создание проекта dbt и Использование существующего проекта на веб-сайте dbt.

Требования для установки

Перед установкой dbt Core необходимо установить на компьютере локальной разработки следующие компоненты:

Python 3.7 или более поздней версии;
служебную программу для создания виртуальных сред Python (например, pipenv).

Для проверки подлинности также требуется одно из следующих действий.

Рекомендуется, чтобы dbt Core был включен как приложение OAuth в вашей учетной записи. Эта функция включена по умолчанию.
Личный маркер доступа

Примечание.

В качестве рекомендации по обеспечению безопасности при проверке подлинности с помощью автоматизированных средств, систем, сценариев и приложений Databricks рекомендуется использовать маркеры OAuth.

Если вы используете аутентификацию с помощью персональных токенов доступа, Databricks рекомендует использовать персональные токены, принадлежащие служебным субъектам, а не пользователям рабочей области. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.

Шаг 1. Установка адаптера dbt Databricks

Мы рекомендуем использовать виртуальную среду Python, так как она изолирует версии пакетов и зависимости кода для конкретной среды независимо от версий пакетов и зависимостей кода в других средах. Это помогает сократить число несовпадений версий пакета и конфликтов зависимостей кода.

Databricks рекомендует версию 1.8.0 или больше пакета dbt-databricks.

Внимание

Если на локальном компьютере разработки используется любая из следующих операционных систем, сначала необходимо выполнить дополнительные действия: CentOS, MacOS, Ubuntu, Debian и Windows. См. раздел "Соответствует ли моя операционная система требованиям" на странице Использование pip для установки dbt на веб-сайте dbt Labs.

Шаг 2. Создание проекта dbt, указание и проверка параметров подключения

Создайте проект dbt (коллекцию связанных каталогов и файлов, необходимых для использования dbt). Затем вы настроите профили подключений, содержащие параметры подключения к вычислительным ресурсам Azure Databricks, хранилищу SQL или обоим. Чтобы повысить безопасность, проекты и профили dbt по умолчанию хранятся в разных расположениях.

При активации виртуальной среды выполните команду dbt init с именем проекта. В этом примере процедуры создается проект с именем my_dbt_demo.
```
dbt init my_dbt_demo
```
При появлении запроса на выбор databricks или spark базу данных введите номер, соответствующий databricks.
При появлении запроса на host значение выполните следующие действия:
- Для вычисления введите значение имени узла сервера на вкладке "Дополнительные параметры" (JDBC/ODBC ) для вычислений Azure Databricks.
- Введите значение Имя узла сервера с вкладки Сведения о подключении для хранилища SQL.
При появлении запроса для ввода значения выполните действия:
- Для вычисления введите значение пути HTTP на вкладке "Дополнительные параметры" (JDBC/ODBC ) для вычислений Azure Databricks.
- Введите значение Путь HTTP с вкладки Сведения о подключении для хранилища SQL.
Чтобы выбрать тип проверки подлинности, введите номер, соответствующий use oauth (рекомендуется) или use access token.
Если вы выбрали use access token тип проверки подлинности, введите значение вашего токена личного доступа Azure Databricks.

Примечание.

Databricks рекомендует в целях повышения безопасности использовать персональные токены доступа, принадлежащие сервисным учетным записям, вместо пользователей рабочей области, при аутентификации с использованием автоматизированных инструментов, систем, скриптов и приложений. Сведения о создании маркеров для субъектов-служб см. в разделе "Управление маркерами" для субъекта-службы.
При появлении запроса на desired Unity Catalog option значение введите номер, соответствующий use Unity Catalog или not use Unity Catalog.
Если вы решили использовать каталог Unity, введите требуемое значение catalog при появлении запроса.
Введите нужные значения для schema и threads при появлении соответствующего запроса.
dbt записывает данные в файл profiles.yml. Расположение этого файла указывается в выходных данных команды dbt init. Это расположение также можно вывести позже, выполнив команду dbt debug --config-dir. Теперь этот файл можно открыть, чтобы изучить и проверить его содержимое.

Если вы выбрали use oauth для типа проверки подлинности, добавьте свой профиль проверки подлинности «компьютер-компьютер» (M2M) или «пользователь-компьютер» (U2M) в profiles.yml.

Примеры см. в статье Настройка входа Azure Databricks из dbt Core с идентификатором Microsoft Entra.

Databricks не рекомендует указывать секреты непосредственно в profiles.yml. Вместо этого задайте идентификатор клиента и секрет клиента в качестве переменных среды.
Подтвердите сведения о подключении, выполнив dbt debug команду в каталоге my_dbt_demo .

Если вы выбрали use oauth как тип проверки подлинности, вам предложат войти через вашего поставщика удостоверений.

Внимание

Перед началом работы убедитесь, что процессорный ресурс или SQL-склад запущен.

Вы должны увидеть результат, аналогичный приведенному ниже:
```
cd my_dbt_demo
dbt debug
```
```
...
Configuration:
  profiles.yml file [OK found and valid]
  dbt_project.yml file [OK found and valid]

Required dependencies:
  - git [OK found]

Connection:
  ...
  Connection test: OK connection ok
```

Следующие шаги

Создание, запуск и тестирование моделей dbt Core локально. Ознакомьтесь с руководством по dbt Core.
Запускайте проекты dbt Core в качестве задач в Azure Databricks. См. статью "Использование преобразований dbt" в заданиях Lakeflow.