Arquitectura de ejemplo de integración de datos de SAP

Artículo
07/26/2023

Este artículo forma parte de la serie de artículos "Ampliación e innovación de datos de SAP: procedimientos recomendados".

En este artículo se describe el flujo de datos de SAP desde sistemas SAP de origen a destinos de bajada. Cada destino tiene un propósito en el recorrido de datos de su empresa. El diseño de arquitectura amplía las soluciones de SAP mediante los servicios de datos de Azure. Use Azure Synapse Analytics para crear una plataforma de datos moderna para la ingesta, el procesamiento, el almacenamiento, el suministro y la visualización de datos de varios orígenes.

Architecture

El diagrama siguiente es una arquitectura de ejemplo de una integración de datos de SAP en Azure. Use esta arquitectura de ejemplo como punto de partida.

Descargue un archivo Visio de esta arquitectura.

Flujo de datos

El siguiente flujo de datos corresponde al diagrama anterior:

Orígenes de datos. Un sistema se conecta a un origen de datos para habilitar la ingesta y el análisis de datos.
Ingesta de datos. Las canalizaciones de Azure Data Factory y Synapse permiten la integración de datos.
Almacenamiento de datos. Los datos se almacenan en Azure Data Lake Storage, que se basan en Azure Blob Storage.
Transformación y consumo de datos. Los datos se transforman en fases y el consumo se habilita a través de informes con Power BI o a través de puntos de conexión privados que le permiten acceder de forma segura a los datos a través de un vínculo privado.
Visualización de datos e informes. Puede acceder a informes y visualizar datos con el servicio Power BI o una aplicación externa.

Orígenes de datos

Los sistemas SAP de origen se pueden ejecutar de forma local con SAP RISE en Azure o SAP en máquinas virtuales de Azure. Pueden ser servidores SQL locales, datos semiestructurados en archivos JSON, XML y de registro, u otros sistemas de almacenamiento de datos. Las actividades de copia de canalizaciones de Synapse pueden ingerir estos datos sin procesar. Los sistemas de origen se hospedan en el entorno local, en una nube privada o pública, o con suscripciones de SAP RISE.

Los sistemas de procesamiento de datos transaccionales en línea (OLTP) y procesamiento analítico en línea (OLAP) de SAP son repositorios centrales de transacciones y datos empresariales. Extraiga, almacene e ingiera datos en Azure para obtener el valor y la información de los datos que residen en estos repositorios de datos económicos.

Con los servicios de Azure, puede integrar datos desde cualquier ubicación de origen. Planee la configuración de extracción en función de la ubicación hospedada, los controles de seguridad, los estándares de operaciones, el ancho de banda y las obligaciones contractuales.

Ingesta de datos

En esta arquitectura, los datos se ingieren mediante canalizaciones de Synapse y se procesan en fases mediante las funcionalidades de Data Lake del grupo de Spark de Synapse.

Las canalizaciones de Synapse y Data Factory extraen datos con los conectores de SAP siguientes:

Para obtener más información, consulte los siguientes recursos:

Almacenamiento de datos

En Data Lake Storage Gen2, Azure Storage es la base para crear lagos de datos empresariales en Azure. Con Data Lake Storage Gen2, puede administrar grandes cantidades de datos porque ofrece varios petabytes de información mientras mantiene cientos de gigabits de rendimiento.

Los datos se cifran en reposo una vez que se ingieren en el lago de datos. Use las claves administradas por el cliente para mejorar aún más el cifrado y agregar flexibilidad de control de acceso.

Para obtener más información, consulte la introducción y los procedimientos recomendados de Data Lake Storage Gen2.

Transformación y consumo de datos

En esta arquitectura, los datos ingeridos de los orígenes de datos se almacenan en una ubicación Data Lake Storage Gen2.

Puede administrar y ejecutar actividades de copia entre un almacén de datos del entorno local y la nube con un entorno de ejecución de integración autohospedado (SHIR). Mantenga siempre el sistema SHIR cerca de los sistemas de origen.

Almacene datos en la cuenta de Almacenamiento mediante directorios de Data Lake Storage Gen2 específicos de la fase, como Bronze, Silver y Gold.

Bronze: Las actividades de copia de las canalizaciones de Synapse ingieren datos de los sistemas de origen. Estos datos ingeridos se almacenan en formato sin procesar mediante el directorio Bronze del lago de datos.
Silver: El grupo de Synapse Spark ejecuta reglas de calidad de datos para limpiar los datos sin procesar. Estos datos enriquecidos se almacenan en el directorio Silver del lago de datos.
Gold: Después del proceso de limpieza, el grupo de Spark aplica todas las operaciones de normalización, transformaciones de datos y reglas de negocio necesarias en los datos del directorio Silver. Estos datos transformados se almacenan en el directorio Gold del lago de datos.

El conector de Synapse Apache Spark a Synapse SQL inserta los datos normalizados en el grupo de Synapse SQL para que los consuman las aplicaciones de nivel inferior y los servicios de informes, como Power BI. Este conector transfiere de forma óptima los datos entre los grupos de Apache Spark sin servidor y los grupos de SQL en el área de trabajo Azure Synapse Analytics.

En el caso de las cuentas de almacenamiento, los puntos de conexión privados proporcionan a los clientes de la red virtual acceso seguro a los datos a través de un vínculo privado. El punto de conexión privado usa una dirección IP del espacio de direcciones de la red virtual para el servicio de la cuenta de almacenamiento. El tráfico de red entre los clientes de la red virtual y la cuenta de almacenamiento atraviesa la red virtual y un vínculo privado de la red troncal de Microsoft para eliminar la exposición a la red pública de Internet.

Visualización de datos e informes

En el servicio Power BI, use DirectQuery para capturar datos de forma segura del grupo de Synapse SQL.

Una puerta de enlace de datos instalada en una máquina virtual en la red virtual privada proporciona una plataforma de conexión entre el servicio Power BI y el grupo de Synapse SQL. Para conectarse de forma segura, la puerta de enlace de datos usa un punto de conexión privado en la misma red virtual.

Las aplicaciones externas pueden acceder a datos desde los grupos sin servidor de Synapse o los grupos de SQL dedicados usando puntos de conexión privados que están conectados a la red virtual.

Componentes

Esta arquitectura usa varios servicios y funcionalidades de Azure.

Análisis de datos

Azure Synapse Analytics es el servicio principal que ingiere, procesa y analiza los datos.
Data Lake Storage Gen2 se basa en los servicios de Storage y proporciona funcionalidades de lago de datos que otros servicios usan al almacenar y procesar datos.
Las canalizaciones de Azure Synapse Analytics copian datos de orígenes a ubicaciones de Data Lake Storage Gen2.
Apache Spark limpia, normaliza y procesa los datos que se ingieren desde ubicaciones de origen.

Storage

El grupo de SQL dedicado de Azure Synapse Analytics proporciona funcionalidades de almacenamiento de datos después de procesar y normalizar los datos y está listo para que los clientes y las aplicaciones los usen.
Con el grupo de SQL sin servidor de Azure Synapse Analytics, puede consultar y analizar rápidamente los datos procesados y normalizados.

Redes y equilibradores de carga

Una red virtual administrada de Azure Synapse Analytics crea un entorno administrado y aislado para el área de trabajo de Azure Synapse, por lo que no necesita administrar la configuración de red para los recursos del área de trabajo.
Los puntos de conexión privados administrados de Azure Synapse establecen vínculos privados a recursos de Azure y enrutan el tráfico entre las áreas de trabajo de Azure Synapse y otros recursos de Azure usando la red troncal de Microsoft.
Azure Virtual Network proporciona funcionalidades de red privadas para recursos de Azure que no forman parte del área de trabajo de Azure Synapse. Puede administrar el acceso, la seguridad y el enrutamiento entre recursos.
Un punto de conexión privado de Azure conecta un servicio a una red virtual mediante una dirección IP privada de la red virtual de la solución a los servicios administrados por Azure. Esta conexión asegura la conexión en red entre el área de trabajo de Azure Synapse y otros servicios de Azure, como Storage, Azure Cosmos DB, Azure SQL Database o su propio servicio de Azure Private Link.

Informes

Power BI realiza análisis avanzados y proporciona información de los datos procesados.