Cet exemple de scénario illustre un pipeline de données qui intègre de grandes quantités de données provenant de plusieurs sources en une plateforme d’analyse unifiée dans Azure. Ce scénario particulier repose sur une solution de vente et de marketing, mais les modèles de conception sont appropriés à de nombreux secteurs nécessitant une analyse avancée des jeux de données volumineux comme ceux de l’e-commerce, de la vente au détail et de la santé.
Architecture
Téléchargez un fichier Visio de cette architecture.
Dataflow
Les données circulent dans la solution comme suit :
- Pour chaque source de données, des mises à jour sont exportées régulièrement dans une zone de transit dans Azure Data Lake Storage.
- Azure Data Factory charge de façon incrémentielle les données d’Azure Data Lake Storage dans des tables intermédiaires dans Azure Synapse Analytics. Les données sont nettoyées et transformées pendant ce processus. La technologie PolyBase peut paralléliser le processus pour des jeux de données volumineux.
- À l’issue du chargement d’un nouveau lot de données dans l’entrepôt, un modèle tabulaire Azure Analysis Services créé précédemment est actualisé. Ce modèle sémantique simplifie l’analyse des données d’entreprise et des relations.
- Les analystes d’entreprise utilisent Microsoft Power BI pour analyser les données en entrepôt via le modèle sémantique Analysis Services.
Components
L’entreprise dispose de sources de données sur différentes plateformes :
- Instance SQL Server locale
- Instance Oracle locale
- Azure SQL Database
- Stockage de table Azure
- Azure Cosmos DB
Les données sont chargées à partir de ces différentes sources de données à l’aide de plusieurs composants Azure :
- Azure Data Lake Storage est utilisé pour mettre les données sources en transit avant leur chargement dans Azure Synapse.
- Data Factory orchestre la transformation des données mises en lots en une structure commune dans Azure Synapse. Data Factory utilise PolyBase lors du chargement des données dans Azure Synapse pour optimiser le débit.
- Azure Synapse est un système distribué permettant de stocker et d’analyser des jeux de données volumineux. Son recours à un traitement parallèle massif (MPP) lui permet d’exécuter des analyses hautes performances. Azure Synapse peut utiliser PolyBase pour charger rapidement des données à partir d’Azure Data Lake Storage.
- Analysis Services fournit un modèle sémantique de vos données. Ce composant permet également d’augmenter les performances du système lors de l’analyse de vos données.
- Power BI est une suite d’outils d’analyse métier pour analyser les données et partager les informations. Power BI peut interroger un modèle sémantique stocké dans Analysis Services ou interroger directement Azure Synapse.
- Microsoft Entra ID authentifie les utilisateurs qui se connectent au serveur Analysis Services via Power BI. Data Factory peut également utiliser Microsoft Entra ID pour s'authentifier auprès d'Azure Synapse via un principal de service ou une identité gérée pour les ressources Azure.
Autres solutions
L’exemple de pipeline inclut plusieurs types de sources de données. Cette architecture peut gérer un large éventail de sources de données relationnelles et non relationnelles.
Data Factory orchestre les flux de travail pour votre pipeline de données. Si vous souhaitez charger des données une seule fois ou à la demande, vous pouvez utiliser des outils tels que la copie en bloc (bcp) et AzCopy de SQL Server pour copier les données dans Azure Data Lake Storage. Vous pouvez alors charger les données dans Azure Synapse à l’aide de PolyBase
Si vous disposez de jeux de données très volumineux, pensez à utiliser Data Lake Storage, qui fournit un stockage illimité pour les données d’analyse.
Azure Synapse ne convient pas à des charges de travail OLTP ni à des jeux de données inférieurs à 250 Go. Pour ces cas, vous devez utiliser Azure SQL Database ou SQL Server.
Pour procéder à des comparaisons avec d’autres solutions, consultez les articles suivants :
Détails du scénario
Cet exemple présente une entreprise de ventes et de marketing qui crée des programmes d’offres incitatives. Ces programmes récompensent les clients, les fournisseurs, les vendeurs et les employés. Les données sont essentielles pour ces programmes, et l’entreprise souhaite améliorer les informations obtenues via l’analyse des données à l’aide d’Azure.
L’entreprise recherche une approche moderne en matière de données d’analyse, afin que les décisions soient prises à l’aide des données appropriées au moment opportun. Les objectifs de l’entreprise sont les suivants :
- combinaison de différents types de sources de données en une plateforme à l’échelle du cloud ;
- transformation des données sources en une structure et une taxonomie communes afin de rendre les données cohérentes et facilement comparables ;
- chargement des données à l’aide d’une approche hautement parallélisée pouvant prendre en charge des milliers de programmes d’offres incitatives, sans les coûts élevés de déploiement et de gestion d’une infrastructure locale ;
- réduction considérable du temps nécessaire pour collecter et transformer des données afin que vous puissiez vous concentrer sur l’analyse des données.
Cas d’usage potentiels
Cette approche peut également servir à :
- établir un entrepôt de données pour qu’il soit une source unique et fiable de vos données ;
- intégrer des sources de données relationnelles à d’autres jeux de données non structurées ;
- Utiliser de puissants outils de visualisation et de modélisation sémantique pour simplifier l’analyse des données.
Considérations
Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.
Les technologies appliquées dans cette architecture ont été choisies, car elles remplissent les exigences de l’entreprise en matière d’extensibilité et de disponibilité tout en les aidant à maîtriser les coûts.
- L’architecture de traitement massivement parallèle d’Azure Synapse offre extensibilité et hautes performances.
- Azure Synapse propose des accords de niveau de service (SLA) garantis et des pratiques recommandées pour atteindre une haute disponibilité.
- Lorsque l’activité d’analyse est faible, l’entreprise peut mettre à l’échelle Azure Synapse à la demande de façon à réduire voire à interrompre le calcul afin de réduire les coûts.
- La taille des instances Azure Analysis Services peut être augmentée afin de réduire les temps de réponse au cours des charges de travail élevées pour les requêtes. Vous pouvez aussi séparer le traitement du pool de requêtes afin que les requêtes des clients ne soient pas ralenties par les opérations de traitement.
- Azure Analysis Services vous garantit également des SLA et des pratiques recommandées pour assurer une haute disponibilité.
- Le modèle de sécurité Azure Synapse assure la sécurité de la connexion, l'authentification et l'autorisation via l'authentification Microsoft Entra ID ou SQL Server, ainsi que le chiffrement. Azure Analysis Services utilise Microsoft Entra ID pour la gestion des identités et l'authentification des utilisateurs.
Optimisation des coûts
L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.
Examinez un exemple de tarification pour un scénario d’entreposage de données via la calculatrice de prix Azure. Ajustez les valeurs pour déterminer l’incidence de vos besoins sur vos coûts.
- Azure Synapse vous permet de mettre à l’échelle vos niveaux de calcul et de stockage de façon indépendante. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.
- Les coûts Data Factory sont basés sur le nombre d’opérations de lecture/écriture et de surveillance et sur les activités d’orchestration effectuées dans une charge de travail. Vos coûts de fabrique de données augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.
- Analysis Services est disponible pour les niveaux développeur, de base et standard. La tarification des instances est établie en fonction des unités de traitement des requêtes (QPU) et de la mémoire disponible. Pour diminuer vos coûts, réduisez le nombre de requêtes exécutées, la quantité de données traitées et leur fréquence d’exécution.
- Power BI offre différentes options de produit selon les besoins. Power BI Embedded offre une option Azure permettant d’intégrer la fonctionnalité Power BI dans vos applications. L’exemple de tarification ci-dessus comprend une instance Power BI Embedded.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Alex Buck | Senior Content Developer
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
Passez en revue l’article BI d’entreprise automatisée avec SQL Data Warehouse et Azure Data Factory, qui inclut des instructions pour déployer une instance de cette architecture dans Azure.
Découvrez plus en détail les services utilisés dans ce scénario :