Поделиться через


Преобразование данных из источника ODP SAP с помощью соединителя SAP CDC в Фабрика данных Azure или Azure Synapse Analytics

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

В этой статье описывается, как использовать поток данных сопоставления для преобразования данных из источника ODP SAP с помощью соединителя SAP CDC. Дополнительные сведения см. в вводной статье о Фабрике данных Azure или Azure Synapse Analytics. Введение в преобразование данных с помощью Фабрика данных Azure и Аналитики Azure Synapse, чтение потока данных сопоставления или учебник по потоку данных сопоставления.

Совет

Сведения об общей поддержке сценария интеграции данных SAP см. в технической документации по интеграции данных SAP с помощью фабрики данных Azure, где приводятся подробная информация, сравнение и рекомендации для каждого соединителя SAP.

Поддерживаемые возможности

Этот соединитель SAP CDC поддерживается для следующих возможностей:

Поддерживаемые возможности IR
Поток данных для сопоставления (источник/-) ①, ②

① Среда выполнения интеграции Azure ② Локальная среда выполнения интеграции

Этот соединитель SAP CDC использует платформу SAP ODP для извлечения данных из исходных систем SAP. Общие сведения об архитектуре решения см. в статье "Введение и архитектура" для отслеживания измененных данных SAP (CDC) в нашем центре знаний SAP.

Платформа SAP ODP содержится во всех актуальных системах на основе SAP NetWeaver, включая SAP ECC, SAP S/4HANA, SAP BW, SAP BW/4HANA, сервер репликации SAP LT (SLT). Предварительные требования и минимальные необходимые выпуски см. в разделе "Предварительные требования" и "Конфигурация".

Соединитель SAP CDC поддерживает базовую проверку подлинности или безопасную сетевую связь (SNC), если SNC настроен.

Текущие ограничения

Ниже приведены текущие ограничения соединителя SAP CDC в Фабрике данных:

  • Вы не можете сбрасывать или удалять подписки ODQ в фабрике данных (используйте ODQMON транзакции в подключенной системе SAP для этой цели).
  • С решением нельзя использовать иерархии SAP.

Необходимые компоненты

Чтобы использовать этот соединитель SAP CDC, ознакомьтесь с предварительными условиями и настройкой соединителя SAP CDC.

Начать

Чтобы выполнить действие копирования с конвейером, можно воспользоваться одним из приведенных ниже средств или пакетов SDK:

Создание связанной службы для соединителя SAP CDC с помощью пользовательского интерфейса

Выполните действия, описанные в разделе "Подготовка связанной службы SAP CDC" для создания связанной службы для соединителя SAP CDC в пользовательском интерфейсе портал Azure.

Свойства набора данных

Чтобы подготовить набор данных SAP CDC, следуйте инструкциям по подготовке исходного набора данных SAP CDC.

Преобразование данных с помощью соединителя SAP CDC

Необработанный канал изменений SAP ODP сложно интерпретировать и обновлять его правильно до приемника может быть проблемой. Например, технические атрибуты, связанные с каждой строкой (например, ODQ_CHANGEMODE), необходимо понимать, чтобы правильно применять изменения к приемнику. Кроме того, извлечение данных об изменениях из ODP может содержать несколько изменений в одном и том же ключе (например, один и тот же заказ на продажу). Поэтому важно соблюдать порядок изменений, одновременно оптимизируя производительность путем параллельной обработки изменений. Кроме того, для управления каналом отслеживания измененных данных также требуется отслеживание состояния, например для предоставления встроенных механизмов восстановления ошибок. Потоки данных фабрики данных Azure заботятся обо всех таких аспектах. Поэтому подключение SAP CDC является частью процесса сопоставления потока данных. Таким образом, пользователи могут сосредоточиться на требуемой логике преобразования без необходимости беспокоиться с техническими сведениями о извлечении данных.

Чтобы приступить к работе, создайте конвейер с потоком данных сопоставления.

Screenshot of add data flow activity in pipeline.

Затем укажите промежуточную связанную службу и промежуточную папку в Azure Data Lake 2-го поколения, которая служит промежуточным хранилищем для данных, извлеченных из SAP.

Примечание.

  • Промежуточная связанная служба не может использовать локальную среду выполнения интеграции.
  • Промежуточная папка должна считаться внутренним хранилищем соединителя SAP CDC. Для дальнейшей оптимизации среды выполнения SAP CDC сведения о реализации, такие как формат файла, используемый для промежуточных данных, может измениться. Поэтому рекомендуется не использовать промежуточную папку для других целей, например источник для других действий копирования или сопоставления потоков данных.

Screenshot of specify staging folder in data flow activity.

Ключ контрольной точки используется средой выполнения SAP CDC для хранения сведений о состоянии процесса отслеживания измененных данных. Это, например, позволяет потокам данных сопоставления SAP CDC автоматически восстанавливаться из ситуаций ошибок или знать, был ли уже установлен процесс отслеживания измененных данных для данного потока данных. Поэтому важно использовать уникальный ключ контрольной точки для каждого источника. В противном случае сведения о состоянии одного источника будут перезаписаны другим источником.

Примечание.

  • Чтобы избежать конфликтов, уникальный идентификатор создается в качестве ключа контрольной точки по умолчанию.
  • При использовании параметров для использования одного потока данных для нескольких источников обязательно необходимо параметризовать ключ контрольной точки с уникальными значениями для каждого источника.
  • Свойство "Ключ контрольной точки" не отображается, если режим выполнения в источнике SAP CDC имеет значение Full при каждом запуске (см. следующий раздел), так как в этом случае процесс отслеживания измененных данных не установлен.

Screenshot of checkpoint key property in data flow activity.

Свойства потока данных для сопоставления

Чтобы создать поток данных сопоставления с помощью соединителя SAP CDC в качестве источника, выполните следующие действия:

  1. В ADF Studio перейдите в раздел "Потоки данных" центра "Автор ", нажмите кнопку ... , чтобы удалить меню действий потока данных и выбрать элемент "Создать поток данных". Включите режим отладки с помощью кнопки отладки потока данных в верхней строке холста потока данных.

    Screenshot of the data flow debug button in mapping data flow.

  2. В редакторе потока данных сопоставления выберите "Добавить источник".

    Screenshot of add source in mapping data flow.

  3. На вкладке "Параметры источника" выберите подготовленный набор данных SAP CDC или нажмите кнопку "Создать ", чтобы создать новую. Кроме того, можно выбрать Inline в свойстве типа источника и продолжить без определения явного набора данных.

    Screenshot of the select dataset option in source settings of mapping data flow source.

  4. На вкладке "Источник" выберите параметр "Полный" для каждого запуска , если вы хотите загрузить полные моментальные снимки для каждого выполнения потока данных сопоставления. Выберите "Полный" при первом запуске, а затем добавочный, если вы хотите подписаться на канал изменений из исходной системы SAP, включая начальный полный моментальный снимок данных. В этом случае первый запуск конвейера выполняет разностную инициализацию, что означает, что она создает разностную подписку ODP в исходной системе и возвращает текущий полный моментальный снимок данных. Последующие запуски конвейера возвращают только добавочные изменения с момента предыдущего выполнения. Параметр добавочных изменений создает только разностную подписку ODP без возврата начального полного моментального снимка данных в первом запуске. Опять же, последующие запуски возвращают добавочные изменения, так как предыдущий запуск выполняется только. Оба параметра добавочной загрузки требуют указания ключей исходного объекта ODP в свойстве "Ключевые столбцы ".

    Screenshot of the run mode property in source options of mapping data flow source.

    Screenshot of the key columns selection in source options of mapping data flow source.

  5. Для табуляции проекции, оптимизации и проверки следуйте потоку данных сопоставления.

Оптимизация производительности полной или начальной загрузки с помощью секционирования источника

Если в режиме выполнения задано значение Full для каждого запуска или полного выполнения, то при добавочном выполнении вкладка "Оптимизация " предлагает тип выбора и секционирования с именем Source. Этот параметр позволяет указать несколько условий секции (т. е. фильтр), чтобы блокировать большой набор исходных данных в несколько небольших частей. Для каждой секции соединитель SAP CDC активирует отдельный процесс извлечения в исходной системе SAP.

Screenshot of the partitioning options in optimize of mapping data flow source.

Если секции равным размерам, секционирование источников может линейно увеличить пропускную способность извлечения данных. Для достижения таких улучшений производительности необходимы достаточные ресурсы в исходной системе SAP, виртуальная машина, в которых размещена локальная среда выполнения интеграции, и среда выполнения интеграции Azure.