Información general y arquitectura de las funcionalidades CDC de SAP

SE APLICA A: Azure Data Factory Azure Synapse Analytics

Sugerencia

Pruebe Data Factory en Microsoft Fabric, una solución de análisis todo en uno para empresas. Microsoft Fabric abarca todo, desde el movimiento de datos hasta la ciencia de datos, el análisis en tiempo real, la inteligencia empresarial y los informes. Obtenga información sobre cómo iniciar una nueva evaluación gratuita.

Obtenga información sobre las funcionalidades de captura de datos modificados (CDC) de SAP en Azure Data Factory y comprenda su arquitectura.

Azure Data Factory es una plataforma de integración de datos ETL y ELT como servicio (PaaS). Para la integración de datos de SAP, Data Factory actualmente ofrece seis conectores de disponibilidad general:

Screenshot of the six general availability connectors for SAP systems in Data Factory.

Necesidades de extracción de datos

Los conectores de SAP de Data Factory extraen los datos de origen de SAP solo en lotes. Cada lote procesa los datos existentes y nuevos del mismo modo. En la extracción de datos en modo por lotes, no se identifican los cambios entre los conjuntos de datos existentes y los nuevos. Este tipo de modo de extracción no es óptimo cuando tiene grandes conjuntos de datos como tablas que tienen millones o miles de millones de registros que cambian a menudo.

Puede mantener limpia y actualizada la copia de los datos de SAP mediante la extracción frecuente del conjunto de datos completo, pero este enfoque es costoso e ineficaz. También puede usar una solución alternativa manual y limitada para extraer principalmente registros nuevos o actualizados. En un proceso denominado marca de agua, la extracción requiere el uso de una columna de marca de tiempo, valores monotónicamente crecientes y el seguimiento continuo del valor más alto desde la última extracción. Pero algunas tablas no tienen una columna que puede usar para la marca de agua. Este proceso tampoco identifica un registro eliminado como un cambio en el conjunto de datos.

Funcionalidades CDC de SAP

Los clientes de Microsoft indican que necesitan un conector que solo pueda extraer la diferencia entre dos conjuntos de datos. En los datos, un diferencial es cualquier cambio en un conjunto de datos que sea el resultado de una actualización, inserción o eliminación en el conjunto de datos. Un conector de extracción diferencial usa la característica captura de datos modificados (CDC) de SAP que existe en la mayoría de los sistemas SAP para determinar el diferencial en un conjunto de datos. Las funcionalidades CDC de SAP en Data Factory usa el marco de aprovisionamiento de datos operativos (ODP) de SAP para replicar la diferencia en un conjunto de datos de origen de SAP.

En este artículo se proporciona una arquitectura de alto nivel de las funcionalidades CDC de SAP en Azure Data Factory. Obtenga más información sobre las funcionalidades CDC de SAP:

Procedimiento para usar las funcionalidades CDC de SAP

El conector CDC de SAP es el núcleo de las funcionalidades CDC de SAP. Puede conectarse a todos los sistemas SAP que admiten ODP, que incluyen SAP ECC, SAP S/4HANA, SAP BW y SAP BW/4HANA. La solución funciona directamente en el nivel de aplicación o indirectamente a través de un servidor de replicación de transformación horizontal de SAP (SLT) como proxy. No se basa en la marca de agua para extraer datos de SAP de forma completa o incremental. Los datos que extrae el conector CDC de SAP no solo incluyen tablas físicas, sino también objetos lógicos creados mediante las tablas. Un ejemplo de un objeto basado en tablas es una vista de Core Data Services (CDS) de programación avanzada de aplicaciones empresariales (ABAP) de SAP.

Use el conector CDC de SAP con características de Data Factory, como actividades de flujo de datos de asignación y desencadenadores periódicos para una solución de replicación CDC de SAP de baja latencia en una canalización autoadministrada.

Arquitectura CDC de SAP

La solución CDC de SAP en Azure Data Factory es un conector entre SAP y Azure. El lado de SAP incluye el conector ODP de SAP que invoca la API de ODP a través de módulos estándar de llamada a funciones remotas (RFC) para extraer datos SAP sin procesar completos y diferenciales.

En el lado de Azure se incluye el flujo de datos de asignación que puede transformar y cargar los datos de SAP en cualquier receptor de datos compatible con los flujos de datos de asignación. Algunas de estas opciones incluyen destinos de almacenamiento como Azure Data Lake Storage Gen2 o bases de datos como Azure SQL Database o Azure Synapse Analytics. La actividad de flujo de datos de asignación también puede cargar los resultados en Data Lake Storage Gen2 en formato delta. Puede usar la característica de viaje en el tiempo de Delta Lake Time Travel para generar instantáneas de datos de SAP durante un período específico. Puede ejecutar la canalización y flujos de datos de asignación con frecuencia mediante un desencadenador periódico de Data Factory para replicar datos de SAP en Azure con baja latencia y sin usar marcas de agua.

Diagram of the architecture of the SAP CDC solution.

Para empezar, cree un servicio vinculado CDC de SAP, un conjunto de datos de origen CDC de SAP y una canalización con una actividad de flujo de datos de asignación en la que se usa el conjunto de datos de origen CDC de SAP. Para extraer los datos de SAP, se requiere un entorno de ejecución de integración autohospedado instalado en un equipo local o en una máquina virtual (VM) que tenga una línea de visión en los sistemas de origen de SAP o en el servidor SLT. La actividad de flujo de datos de asignación se ejecuta en un clúster de Azure Databricks o Apache Spark sin servidor, o en un entorno de ejecución de integración de Azure. Es necesario configurar un almacenamiento provisional en la actividad de flujo de datos de asignación para que el entorno de ejecución de integración autohospedado funcione sin problemas con el entorno de ejecución de integración del flujo de datos de asignación.

El conector CDC de SAP usa el marco ODP de SAP para extraer diversos tipos de orígenes de datos, entre los que se incluyen:

  • Extractores de SAP, creados originalmente para extraer datos de SAP ECC y cargarlos en SAP BW
  • Vistas de CDS de ABAP, el nuevo estándar de extracción de datos para SAP S/4HANA
  • Conjuntos de datos InfoProviders e InfoObjects en SAP BW y SAP BW/4HANA
  • Tablas de aplicación SAP, cuando se utiliza un servidor de replicación SAP LT (SLT) como proxy

En este proceso, los orígenes de datos de SAP son proveedores. Los proveedores se ejecutan en sistemas SAP para generar datos completos o incrementales en una cola diferencial operativa (ODQ). El origen del flujo de datos de asignación es un suscriptor de ODQ.

Diagram of the architecture of the SAP ODP framework through a self-hosted integration runtime.

Dado que ODP desvincula completamente los proveedores de los suscriptores, cualquier documentación de SAP que ofrezca configuraciones de proveedores es aplicable a Data Factory como suscriptor. Para más información sobre ODP, consulte Introducción al aprovisionamiento de datos operativos.

Requisitos y configuración de la solución CDC de SAP