Обзор и архитектура возможностей SAP CDC

Область применения:Фабрика данных Azure Azure Synapse Analytics

Совет

Попробуйте использовать фабрику данных в Microsoft Fabric, решение для аналитики с одним интерфейсом для предприятий. Microsoft Fabric охватывает все, от перемещения данных до обработки и анализа данных в режиме реального времени, бизнес-аналитики и отчетности. Узнайте, как бесплатно запустить новую пробную версию !

Узнайте о возможностях отслеживания измененных данных SAP (CDC) в Фабрика данных Azure и о архитектуре.

Фабрика данных Azure — это платформа интеграции данных ETL и ELT, предоставляемая как услуга (PaaS). Для интеграции данных SAP Фабрика данных в настоящее время предлагает шесть соединителей общей доступности:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Потребности извлечения данных

Соединители SAP в Фабрике данных извлекают исходные данные SAP только пакетами. Каждый пакет обрабатывает существующие и новые данные одинаково. При извлечении данных в пакетном режиме изменения между существующими и новыми наборами данных не определяются. Этот тип режима извлечения не является оптимальным, если у вас есть большие наборы данных, такие как таблицы с миллионами или миллиардами записей, которые часто изменяются.

Для обеспечения актуальности копии данных SAP можно часто извлекать полный набор данных, но такой подход является дорогостоящим и неэффективным. Вы также можете использовать ограниченный обходной путь, связанный с извлечением в основном новых или обновленных записей вручную. В процессе, называемом подложкой, извлечение требует использования столбца метки времени, монотонно увеличивая значения и постоянно отслеживая наибольшее значение с момента последнего извлечения. Но в некоторых таблицах нет столбца, который можно использовать для нанесения водяных знаков. Этот процесс также не идентифицирует удаленную запись как изменение в наборе данных.

Возможности SAP CDC

Клиенты Майкрософт указывают, что им нужен соединитель, который может извлекать только различия между двумя наборами данных. В данных различия (или разность) — это изменение в наборе данных, которое является результатом обновления, вставки или удаления в наборе данных. Соединитель разностного извлечения использует функцию отслеживания измененных данных SAP (CDC), которая существует в большинстве систем SAP для определения разности в наборе данных. Возможности SAP CDC в фабрике данных используют платформу подготовки операционных данных SAP (ODP), чтобы реплика te delta в исходном наборе данных SAP.

В этой статье представлена высокоуровневая архитектура возможностей SAP CDC в Фабрика данных Azure. Дополнительные сведения о возможностях SAP CDC:

Использование возможностей SAP CDC

Соединитель SAP CDC является основой возможностей SAP CDC. Он может подключаться ко всем системам SAP, поддерживающим ODP, включая SAP ECC, SAP S/4HANA, SAP BW и SAP BW/4HANA. Это решение работает либо непосредственно на уровне приложения, либо косвенно через сервер SAP Landscape Transformation Replication Server (SLT), который используется в качестве прокси-сервера. Она не зависит от подложки для извлечения данных SAP полностью или добавочно. Данные, извлеченные соединителем SAP CDC, включают не только физические таблицы, но и логические объекты, созданные с помощью таблиц. Примером табличного объекта является представление SAP Advanced Business Application Programming (ABAP) Core Data Services (CDS).

Используйте соединитель SAP CDC с функциями фабрики данных, такими как сопоставление действий потока данных, а также триггеры переворачивающегося окна для решения sap CDC с низкой задержкой реплика tion в самоуправляемом конвейере.

Архитектура SAP CDC

Решение SAP CDC в Фабрике данных Azure является соединителем между SAP и Azure. На стороне SAP имеется соединитель SAP ODP, который вызывает API ODP через стандартные модули удаленного вызова функций (RFC) для извлечения необработанных полных и разностных данных SAP.

Сторона Azure включает поток данных сопоставления, который может преобразовывать и загружать данные SAP в любой приемник данных, поддерживаемый сопоставлением потоков данных. Некоторые из этих вариантов — это назначения хранилища, такие как Azure Data Lake Storage 2-го поколения или базы данных, такие как База данных SQL Azure или Azure Synapse Analytics. Действие потока данных сопоставления также может загружать результаты в Data Lake Storage 2-го поколения в разностном формате. Вы можете использовать функцию Delta Lake Time Travel для создания моментальных снимков данных SAP за определенный период. Вы можете часто запускать потоки данных конвейера и сопоставления с помощью триггера переворачивающегося окна фабрики данных, чтобы реплика te данные SAP в Azure с низкой задержкой и без использования подложки.

Diagram of the architecture of the SAP CDC solution.

Чтобы приступить к работе, создайте связанную службу SAP CDC, исходный набор данных SAP CDC и конвейер с действием потока данных сопоставления, в котором используется исходный набор данных SAP CDC. Для извлечения данных из SAP требуется локальная среда выполнения интеграции, которая устанавливается на локальном компьютере или на виртуальной машине, которая имеет линию видимости для исходных систем SAP или сервера SLT. Действие потока данных сопоставления выполняется в бессерверном кластере Azure Databricks или Apache Spark или в среде выполнения интеграции Azure. Промежуточное хранилище необходимо настроить в действии потока данных сопоставления, чтобы локальная среда выполнения интеграции работала без проблем с средой выполнения интеграции потока данных сопоставления.

Соединитель SAP CDC использует платформу SAP ODP для извлечения различных типов источников данных, в том числе:

  • Средства извлечения SAP, изначально созданные для извлечения данных из SAP ECC и их загрузки в SAP BW
  • Представления ABAP CDS — новый стандарт извлечения данных для SAP S/4HANA
  • Наборы данных InfoProviders и InfoObjects в SAP BW и SAP BW/4HANA
  • Таблицы приложений SAP при использовании сервера SAP LT реплика tion (SLT) в качестве прокси-сервера

В этом процессе источники данных SAP являются поставщиками. Поставщики работают в системах SAP для получения полных или добавочных данных в рабочей очереди изменений (ODQ). Источник потока данных сопоставления является подписчиком ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Так как ODP полностью отделяет поставщиков от подписчиков, всю документацию SAP, которую предлагают конфигурации поставщиков, можно использовать и для Фабрики данных в качестве подписчика. Дополнительные сведения об ODP см. в статье Общие сведения о подготовке операционных данных.

Предварительные требования и настройка для решения CDC SAP