Прием данных с помощью Фабрика данных Azure в Azure Cosmos DB для PostgreSQL

Область применения: Azure Cosmos DB для PostgreSQL (на базе расширения базы данных Citus до PostgreSQL)

Фабрика данных Azure — это облачная служба ETL и интеграции данных. Служба позволяет создавать рабочие процессы на основе данных для их перемещения и преобразования в большом масштабе.

С помощью фабрики данных можно создавать и планировать рабочие процессы на основе данных (называемые конвейерами), которые используют данные из разрозненных хранилищ данных. Конвейеры могут работать локально, в Azure или с использованием других поставщиков облачных служб для аналитики и создания отчетов.

Фабрика данных имеет приемник данных для Azure Cosmos DB для PostgreSQL. Приемник данных позволяет перенести данные (реляционные, NoSQL, файлы озера данных) в таблицы Azure Cosmos DB для PostgreSQL для хранения, обработки и отчетности.

Dataflow diagram for Azure Data Factory.

Важно!

Фабрика данных не поддерживает частные конечные точки для Azure Cosmos DB для PostgreSQL в настоящее время.

Фабрика данных для приема в режиме реального времени

Ниже приведены основные причины выбора Фабрика данных Azure приема данных в Azure Cosmos DB для PostgreSQL:

  • Простота в использовании. Предлагает визуальную среду без применения кода для оркестрации и автоматизации перемещения данных.
  • Мощные возможности. Использует полную мощность базовой пропускной способности сети до 5 ГиБ/с.
  • Встроенные соединители — интегрирует все источники данных с более чем 90 встроенными соединителями.
  • Экономичность — поддерживает полностью управляемую облачную службу без сервера, которая масштабируется по требованию.

Действия по использованию фабрики данных

В этой статье описано, как создать конвейер данных с помощью пользовательского интерфейса фабрики данных. Конвейер в этой фабрике данных копирует данные из хранилища BLOB-объектов Azure в базу данных. Список хранилищ данных, которые поддерживаются в качестве источников и приемников, см. в таблице Поддерживаемые хранилища данных и форматы.

В фабрике данных можно использовать действие копирования для копирования данных между хранилищами данных, расположенными в локальной среде и в облаке в Azure Cosmos DB для PostgreSQL. Если вы не знакомы с фабрикой данных, ознакомьтесь с кратким руководством по началу работы:

  1. После подготовки фабрики данных перейдите к фабрике данных и запустите Фабрика данных Azure Studio. Вы увидите домашнюю страницу фабрики данных, как показано на следующем изображении:

    Screenshot showing the landing page of Azure Data Factory.

  2. На домашней странице Фабрика данных Azure Studio выберите Orchestrate.

    Screenshot showing the 'Orchestrate' page of Azure Data Factory.

  3. В разделе "Свойства" введите имя конвейера.

  4. На панели элементов действий разверните категорию перемещения и преобразования и перетащите действие копирования данных в область конструктора конвейера. В нижней части панели конструктора на вкладке "Общие " введите имя действия копирования.

    Screenshot showing a pipeline in Azure Data Factory.

  5. Настройка источника.

    1. На странице "Действия" выберите вкладку "Источник". Нажмите кнопку "Создать", чтобы создать исходный набор данных.

    2. В диалоговом окне Новый набор данных выберите Хранилище BLOB-объектов Azure и щелкните Продолжить.

    3. Выберите тип формата данных, а затем нажмите кнопку Продолжить.

    4. На странице "Задать свойства" в разделе "Связанная служба" выберите "Создать".

    5. На странице "Новая связанная служба" введите имя связанной службы и выберите учетную запись хранения в списке имен служба хранилища учетной записи.

      Screenshot that shows configuring Source in Azure Data Factory.

    6. В разделе "Тестовое подключение" выберите "Путь к файлу", введите контейнер и каталог для подключения, а затем выберите "Проверить подключение".

    7. Нажмите кнопку "Создать", чтобы сохранить конфигурацию.

    8. На экране "Задать свойства" нажмите кнопку "ОК".

  6. Настройка приемника.

    1. На странице "Действия" выберите вкладку "Приемник". Нажмите кнопку "Создать", чтобы создать набор данных приемника.

    2. В диалоговом окне Создать набор данных выберите элемент База данных Azure PostgreSQL, а затем — команду Продолжить.

    3. На странице "Задать свойства" в разделе "Связанная служба" выберите "Создать".

    4. На странице "Новая связанная служба" введите имя связанной службы и нажмите клавишу ВВОД вручную в методе выбора учетной записи.

    5. Введите имя координатора кластера в поле "Полное доменное имя ". Вы можете скопировать имя координатора на странице обзора кластера Azure Cosmos DB для PostgreSQL.

    6. Оставьте порт 5432 по умолчанию в поле "Порт " для прямого подключения к координатору или замените его портом 6432, чтобы подключиться к управляемому порту PgBouncer .

    7. Введите имя базы данных в кластере и укажите учетные данные для подключения к нему.

    8. Выберите SSL в раскрывающемся списке метода шифрования.

      Screenshot that shows configuring Sink in Azure Data Factory.

    9. Выберите "Проверить подключение" в нижней части панели, чтобы проверить конфигурацию приемника.

    10. Нажмите кнопку "Создать", чтобы сохранить конфигурацию.

    11. На экране "Задать свойства" нажмите кнопку "ОК".

    12. На вкладке "Приемник" на странице "Действия" выберите "Открыть рядом с раскрывающимся списком набора данных приемника" и выберите имя таблицы в целевом кластере, где требуется принять данные.

    13. В разделе "Запись" выберите команду Copy.

    Screenshot that shows selecting the table and Copy command.

  7. На панели инструментов над холстом выберите элемент Проверка, чтобы проверить параметры конвейера. Исправьте все ошибки, повторную проверку и убедитесь, что конвейер успешно проверен.

  8. Выберите "Отладка " на панели инструментов для выполнения конвейера.

    Screenshot that shows Debug and Execute in Azure Data Factory.

  9. После успешного запуска конвейера в верхней панели инструментов выберите Опубликовать все. Это действие опубликует созданные сущности (наборы данных и конвейеры) в фабрике данных.

Вызов хранимой процедуры в фабрике данных

В некоторых конкретных сценариях может потребоваться вызвать хранимую процедуру или функцию, чтобы отправить агрегированные данные из промежуточной таблицы в сводную таблицу. Фабрика данных не предлагает действие хранимой процедуры для Azure Cosmos DB для PostgreSQL, но в качестве обходного решения можно использовать действие поиска с запросом для вызова хранимой процедуры, как показано ниже:

Screenshot that shows calling a procedure in Azure Data Factory.

Следующие шаги