Analytique du Big data avec une sécurité de classe Entreprise en utilisant Azure Synapse

Azure Analysis Services

Azure Data Lake Storage

Azure Synapse Analytics

Idées de solution

Cet article présente une idée de solution. Votre architecte cloud peut s’appuyer sur ces conseils pour visualiser les principaux composants d’une implémentation typique de cette architecture. Utilisez cet article comme point de départ pour concevoir une solution bien conçue qui répond aux exigences spécifiques de votre charge de travail.

La solution décrite dans cet article montre comment utiliser Azure Synapse Analytics afin de créer une plateforme de données moderne pour ingérer, traiter, stocker, servir et visualiser des données de différentes sources.

Architecture

Téléchargez un fichier Visio de cette architecture.

Dataflow

Les données circulent dans la solution comme suit :

Les activités de copie des pipelines Synapse ingèrent des données structurées brutes d’entrepôts de données relationnelles externes, des données semi-structurées telles que des journaux, des fichiers plats et des fichiers au format xml, ainsi que d’autres systèmes sources. Ces données ingérées sont ensuite stockées dans une localisation Azure Data Lake Storage Gen2. À l’aide d’un runtime d’intégration auto-hébergé, vous pouvez également gérer et exécuter des activités de copie entre un magasin de données dans votre environnement local et le cloud.
Azure Data Lake Storage Gen2 fournit un stockage sécurisé.
- Il est recommandé d’utiliser un pare-feu pour limiter l’accès du compte de stockage aux services Azure approuvés afin de limiter la vulnérabilité aux attaques externes.
- Points de terminaison privéspour vos comptes de stockage Azure autorisent les clients sur le réseau virtuel à accéder en toute sécurité aux données via une liaison privée. Le point de terminaison privé utilise une adresse IP de l’espace d’adressage du réseau virtuel pour votre service de compte de stockage. Le trafic réseau entre les clients sur le réseau virtuel et le compte de stockage traverse le réseau virtuel et une liaison privée sur le réseau principal de Microsoft, ce qui élimine l’exposition à l’Internet public.
Les données sont chiffrées au repos une fois ingérées dans le lac de données. L’utilisation de vos propres clés gérées par le client peut renforcer la protection de vos clés de chiffrement et apporter davantage de flexibilité lors de la gestion des contrôles d’accès.
Les données sont ingérées à l’aide de pipelines Synapse et traitées par étapes à l’aide du pool Synapse Spark et de ses fonctionnalités de lac de données. Les données sont stockées dans le compte de stockage Azure à l’aide de répertoires Azure Data Lake Storage Gen 2 spécifiques de la phase. Les phases sont les suivantes :
1. Les activités de copie des pipelines Synapse ingèrent initialement les données des systèmes sources. Ces données ingérées sont stockées dans leur format brut en utilisant le répertoire Bronze du lac de données.
2. Le pool Synapse Spark exécute ensuite des règles de qualité des données pour nettoyer les données brutes. Ces données enrichies sont ensuite stockées dans le répertoire Silver du lac de données.
3. Après le nettoyage, le pool Spark applique sur les données du répertoire Silver la normalisation, les transformations de données et les règles métier qui sont nécessaires. Ces données transformées sont ensuite stockées dans le répertoire Gold du lac de données.
Le connecteur Synapse Apache Spark à Synapse SQL envoie les données normalisées au pool SQL Synapse en vue de leur utilisation par des applications en aval et des services de création de rapport tels que Power BI. Ce connecteur est conçu pour transférer de manière optimale des données entre des pools Apache Spark sans serveur et des pools SQL dans l’espace de travail Azure Synapse Analytics.
Le service Power BI utilise le mode DirectQuery pour extraire en toute sécurité des données du pool SQL Synapse. Une passerelle de données installée dans une machine virtuelle sur le réseau virtuel privé agit comme une plateforme de connexion entre le service Power BI et le pool SQL Synapse, en utilisant un point de terminaison privé dans le même réseau virtuel pour se connecter en toute sécurité.
Des applications externes peuvent accéder aux données des pools sans serveur Synapse ou des pools SQL dédiés en accédant aux points de terminaison privés appropriés connectés au réseau virtuel.

Cet exemple de solution utilise plusieurs services et fonctionnalités Azure :

Azure Synapse Analytics est le service principal utilisé dans cet exemple de solution pour l’ingestion, le traitement et l’analyse des données.
Azure Data Lake Storage (Gen2) repose sur les services Stockage Azure et fournit des fonctionnalités de lac de données que d’autres services de cet exemple de solution utilisent pour le stockage et le traitement des données.
Pipelines Synapse copie les données des sources d’origine vers les emplacements de stockage du lac de données.
Apache Spark dans Azure Synapse Analytics nettoie, normalise et effectue d’autres tâches de traitement sur les données ingérées à partir des emplacements sources.
Un pool SQL dédié (anciennement SQL DW) fournit des fonctionnalités d’entreposage de données pour les données une fois traitées, normalisées et prêtes à être utilisées par vos utilisateurs finaux et vos applications.
Pool SQL sans serveur permet aux utilisateurs d’interroger et d’analyser rapidement les données traitées et normalisées.
Réseau virtuel géré par Azure Synapse crée un environnement de réseau virtuel géré isolé pour l’espace de travail Azure Synapse, ce qui vous décharge de la nécessité de gérer la configuration de mise en réseau pour les ressources de l’espace de travail.
Points de terminaison privés gérés par Azure Synapse établissent des liens privés vers des ressources Azure, et acheminent le trafic entre vos espaces de travail Azure Synapse et d’autres ressources Azure en utilisant uniquement le réseau principal Microsoft.
Le Réseau virtuel (VNet) Azure fournit des fonctionnalités de réseau privé pour les ressources Azure qui ne font pas partie de l’espace de travail Azure Synapse. Il vous permet de gérer l’accès, la sécurité et le routage entre les ressources.
Un point de terminaison privé Azure fournit une adresse IP privée du réseau virtuel de la solution aux services managés par Azure, connectant un service au réseau virtuel. Cela permet une mise en réseau sécurisée entre l’espace de travail Azure Synapse et d’autres services Azure tels que Stockage Azure, Azure Cosmos DB, Azure SQL Database ou votre propre service Azure Private Link.
Power BI permet aux utilisateurs d’effectuer des analyses avancées et de partager des insights en utilisant les données traitées de la solution.

Composants

Détails du scénario

Azure Synapse Analytics regroupe l’intégration des données, l’entreposage des données d’entreprise et l’analytique du Big Data pour vous aider à créer une plateforme de données moderne capable gérer les défis de données les plus courants auxquels sont confrontées les grandes organisations. Le réseau virtuel Azure vous permet de créer votre propre réseau privé dans le cloud public Azure et le réseau géré, et le point de terminaison privé Azure vous permet d’intégrer en toute sécurité des services cloud managés dans ces réseaux privés.

Cas d’usage potentiels

La solution décrite dans cet article montre comment combiner ces technologies pour créer une plateforme de données moderne capable d’ingérer, de traiter, de stocker, de servir et de visualiser des données de différentes sources, tant structurées que semi-structurées, tout en répondant aux normes de sécurité élevée que votre organisation attend. Cela inclut la prise en charge des exigences courantes, telles que les suivantes :

Sécurisation des sources de données. Les sources de données dans le réseau d’entreprise local ou sur le réseau virtuel sont sécurisées derrière un pare-feu. Ces ressources sont accessibles en toute sécurité en installant un runtime d’intégration auto-hébergé sur une ressource hébergée localement ou sur les réseaux virtuels.
Authentification et autorisation à l’aide d’identités managées. La communication entre services Azure peut être sécurisée à l’aide d’identités managées qui fournissent une identité pour les applications à utiliser lors de la connexion à des ressources qui prennent en charge l’authentification Microsoft Entra. Dans cet exemple, Azure Synapse utilise l’identité managée pour intégrer les pipelines.
Points de terminaison privés établissant une liaison privée vers des ressources Azure. Azure Synapse fournit une fonctionnalité de point de terminaison privé entièrement gérée pour les services au sein de l’espace de travail Synapse (par exemple, Stockage Azure ou Azure Cosmos DB). D’autres ressources Azure, comme des applications Azure, Microsoft Power BI et le service Azure Synapse, sont sécurisées en utilisant des points de terminaison privés intégrés au réseau virtuel de l’exemple de solution. Le trafic réseau entre votre réseau privé et les pools Synapse utilise une liaison privée pour déplacer le trafic sur le réseau principal de Microsoft, évitant ainsi l’exposition sur l’Internet public.
Chiffrement des données en transit. Les données sont chiffrées en transit, car tous les transferts de données s’effectuent via le canal sécurisé HTTPS et TLS sur TCP pour empêcher les attaques de l’intercepteur pendant la communication avec des services Azure, ce qui garantit un déplacement des données privées sécurisé de bout en bout.
Chiffrement des données au repos. Le chiffrement transparent des données dans Azure Synapse Analytics vous aide à vous protéger contre les activités malveillantes en effectuant un chiffrement et un déchiffrement en temps réel de vos données stockées dans l’espace de travail Synapse. Le stockage Azure chiffre également toutes les données dans un compte de stockage au repos. Par défaut, les données sont chiffrées à l’aide de clés gérées par Microsoft, mais vous pouvez gérer vos propres clés si vous avez besoin d’un contrôle supplémentaire sur le chiffrement.

Déployer ce scénario

Vous devez disposer d’un compte Azure existant. Si vous n’avez pas d’abonnement Azure, créez un compte gratuit avant de commencer.

Les modèles Azure Resource Manager, dont vous aurez besoin pour déployer les composants décrits dans cette architecture, sont disponibles dans le référentiel GitHub. Ces modèles déploient tous les services affichés dans le diagramme d’architecture, à l’exception de la passerelle de données Power BI, du runtime d’intégration autohébergé et du coffre Azure Key Vault pour les clés gérées par le client.

C’est à l’utilisateur de créer la structure de dossiers du lac de données et les pipelines d’intégration Azure Synapse Analytics nécessaires pour se connecter aux sources de données.

Déployez le modèle ARM directement en cliquant sur ce bouton :

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Kiran Kalyanam | Ingénieur logiciel Senior

Étapes suivantes

Pour savoir comment développer cette approche, découvrez les principes de base d’Azure Synapse Analytics en suivant les tutoriels suivants :

Lors de la planification et du déploiement de solutions à l’aide d’Azure Synapse Analytics, consultez les articles suivants :

Partager via

Analytique du Big data avec une sécurité de classe Entreprise en utilisant Azure Synapse

Architecture

Dataflow

Composants

Détails du scénario

Cas d’usage potentiels

Déployer ce scénario

Contributeurs

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Partager via

Analytique du Big data avec une sécurité de classe Entreprise en utilisant Azure Synapse

Architecture

Dataflow

Composants

Détails du scénario

Cas d’usage potentiels

Déployer ce scénario

Contributeurs

Étapes suivantes

Ressources associées

Aide à propos de l’architecture connexe

Commentaires

Commentaires

Ressources supplémentaires