Exemple d’architecture d’intégration de données SAP

2023-07-24

Cet article fait partie de la série d’articles « Étendre et innover des données SAP : bonnes pratiques ».

Cet article décrit le flux de données SAP des systèmes SAP sources vers les cibles en aval. Chaque cible a un objectif dans le parcours de données de votre entreprise. La conception de l’architecture étend les solutions SAP à l’aide des services de données Azure. Utilisez Azure Synapse Analytics pour générer une plateforme de données moderne qui ingère, traite, stocke, sert et visualise des données de différentes sources.

Apache Spark® et Apache Kafka® sont des marques déposées ou des marques commerciales de l’Apache Software Foundation aux États-Unis et/ou dans d’autres pays. L’utilisation de ces marques n’implique aucune approbation de l’Apache Software Foundation.

Architecture

Le diagramme suivant est un exemple d’architecture d’une intégration de données SAP sur Azure. Utilisez cet exemple d’architecture comme point de départ.

Téléchargez un fichier Visio de cette architecture.

Dataflow

Le flux de données suivant correspond au diagramme précédent :

Sources de données. Un système se connecte à une source de données pour activer l’ingestion et l’analyse des données.
Ingestion des données. Les pipelines Azure Data Factory et Synapse permettent l’intégration des données.
Stockage des données. Les données sont stockées dans Azure Data Lake Store qui repose sur le stockage Blob Azure.
Transformation et consommation des données. Les données sont transformées par étapes et la consommation est activée via des rapports avec Power BI ou via des points de terminaison privés qui vous permettent d’accéder en toute sécurité aux données par une liaison privée.
Visualisation des données et création de rapports. Vous pouvez accéder aux rapports et visualiser des données avec le service Power BI ou une application externe.

Sources de données

Les systèmes SAP sources peuvent s’exécuter localement avec SAP RISE sur Azure ou SAP sur des machines virtuelles Azure. Il peut s’agir de serveurs SQL locaux, de données semi-structurées dans des fichiers JSON, XML et journaux, ou d’autres systèmes d’entrepôt de données. Les activités de copie des pipelines Synapse peuvent ingérer ces données brutes. Les systèmes sources sont hébergés localement, dans un cloud privé ou public, ou avec des abonnements SAP RISE.

Les systèmes SAP de traitement des données transactionnelles en ligne (OLTP) et de traitement analytique en ligne (OLAP) sont des référentiels centraux de données et de transactions métier. Extrayez, stockez et ingérez des données dans Azure pour obtenir de la valeur et des insights à partir des données résidant dans ces référentiels de données métier.

Avec les services Azure, vous pouvez intégrer des données à partir de n’importe quel emplacement source. Planifiez la configuration d’extraction en fonction de l’emplacement hébergé, des contrôles de sécurité, des normes d’exploitation, de la bande passante et des obligations contractuelles.

Ingestion de données

Dans cette architecture, les données sont ingérées à l’aide de pipelines Synapse et sont traitées par étapes à l’aide des fonctionnalités Data Lake du pool Spark de Synapse.

Les pipelines Data Factory et Synapse extraient des données à l’aide des connecteurs SAP suivants :

Pour plus d’informations, consultez les ressources suivantes :

Stockage des données

Dans Data Lake Storage Gen2, le stockage Azure est la base de la création de lacs de données d’entreprise sur Azure. Avec Data Lake Storage Gen2, vous pouvez gérer d’énormes quantités de données, car il gère plusieurs pétaoctets d’informations tout en conservant des centaines de gigabits de débit.

Les données sont chiffrées au repos après avoir été ingérées dans le lac de données. Utilisez vos clés gérées par le client pour améliorer davantage le chiffrement et ajouter la flexibilité du contrôle d’accès.

Pour plus d’informations, consultez l’Introduction et les meilleures pratiques de Data Lake Storage Gen2.

Transformation et consommation des données

Dans cette architecture, les données ingérées à partir des sources de données sont stockées dans un emplacement Data Lake Storage Gen2.

Vous pouvez également gérer et exécuter des activités de copie entre un magasin de données dans votre environnement local et le cloud à l’aide d’un runtime d’intégration auto-hébergé (SHIR). Gardez toujours le système SHIR à proximité des systèmes sources.

Stockez les données dans votre compte de stockage à l’aide de répertoires Data Lake Storage Gen2 spécifiques à une étape, comme Bronze, Silver et Gold.

Bronze : Les activités de copie des pipelines Synapse ingèrent les données des systèmes sources. Ces données ingérées sont stockées dans leur format brut à l’aide du répertoire Bronze du lac de données.
Silver : Le pool Spark de Synapse exécute des règles de qualité des données pour nettoyer les données brutes. Ces données enrichies sont stockées dans le répertoire Silver du lac de données.
Gold : Après le processus de nettoyage, le pool Spark applique la normalisation, les transformations de données et les règles métier nécessaires aux données du répertoire Silver. Ces données transformées sont stockées dans le répertoire Gold du lac de données.

Le connecteur Synapse Apache Spark à Synapse SQL envoie (push) les données normalisées au pool Synapse SQL pour leur utilisation par des applications en aval et des services de création de rapport tels que Power BI. Ce connecteur transfère de manière optimale des données entre des pools Spark Apache serverless et des pools SQL dans l’espace de travail Azure Synapse Analytics.

Pour vos comptes de stockage, des points de terminaison privés fournissent aux clients sur le réseau virtuel un accès sécurisé aux données via une liaison privée. Le point de terminaison privé utilise une adresse IP de l’espace d’adressage du réseau virtuel pour votre service de compte de stockage. Le trafic réseau entre les clients sur le réseau virtuel et le compte de stockage traverse le réseau virtuel et une liaison privée sur le réseau principal de Microsoft pour éliminer toute exposition sur l’Internet public.

Visualisation des données et création de rapports

Dans le service Power BI, utilisez DirectQuery pour extraire en toute sécurité des données du pool Synapse SQL.

Une passerelle de données installée dans une machine virtuelle sur le réseau virtuel privé fournit une plateforme de connexion entre le service Power BI et le pool Synapse SQL. Pour se connecter en toute sécurité, la passerelle de données utilise un point de terminaison privé dans le même réseau virtuel.

Des applications externes peuvent accéder aux données des pools serverless Synapse ou des pools SQL dédiés à l’aide de points de terminaison privés qui sont connectés au réseau virtuel.

Composants

Cette architecture utilise plusieurs services et fonctionnalités Azure.

Analyse des données

Azure Synapse Analytics est le service principal qui ingère, traite et analyse les données.
Data Lake Storage Gen2 repose sur les services de stockage Azure et fournit des fonctionnalités de lac de données que d’autres services utilisent pour le stockage et le traitement des données.
Les pipelines Azure Synapse Analytics copient des données des sources vers des emplacements Data Lake Storage Gen2.
Apache Spark nettoie, normalise et traite des données ingérées à partir des emplacements sources.

Stockage

Le pool SQL dédié Azure Synapse Analytics fournit des fonctionnalités d’entrepôt de données après que les données ont été traitées et normalisées et lorsqu’elles prêtes à être utilisées par les clients et les applications.
Avec le pool SQL serverless Azure Synapse Analytics, vous pouvez interroger et analyser rapidement des données traitées et normalisées.

Réseaux et équilibreurs de charge

Un réseau virtuel managé par Azure Synapse Analytics crée un environnement isolé et managé pour l’espace de travail Azure Synapse, ainsi vous n’avez pas à gérer la configuration de mise en réseau des ressources de l’espace de travail.
Les points de terminaison privés managés par Azure Synapse établissent des liens privés vers des ressources Azure et acheminent le trafic entre vos espaces de travail Azure Synapse et d’autres ressources Azure à l’aide du réseau principal Microsoft.
Le réseau virtuel Azure fournit des fonctionnalités de réseau privé aux ressources Azure qui ne font pas partie de l’espace de travail Azure Synapse. Vous pouvez gérer l’accès, la sécurité et le routage entre les ressources.
Un point de terminaison privé Azure connecte un service à un réseau virtuel à l’aide d’une adresse IP privée du réseau virtuel de la solution aux services gérés par Azure. Cette connexion sécurise la mise en réseau entre l’espace de travail Azure Synapse et d’autres services Azure tels que le stockage Azure, Azure Cosmos DB, Azure SQL Database ou votre propre service Azure Private Link.

Création de rapports

Power BI effectue des analyses avancées et des insights des données traitées.