Entreposage et analytique des données
Cet exemple de scénario illustre un pipeline de données qui intègre de grandes quantités de données provenant de plusieurs sources en une plateforme d’analyse unifiée dans Azure. Ce scénario particulier repose sur une solution de vente et de marketing, mais les modèles de conception sont appropriés à de nombreux secteurs nécessitant une analyse avancée des jeux de données volumineux comme ceux de l’e-commerce, de la vente au détail et de la santé.
Architecture
Téléchargez un fichier Visio de cette architecture.
Flux de données
Les données circulent dans la solution comme suit :
- Pour chaque source de données, des mises à jour sont exportées régulièrement dans une zone de transit dans Azure Data Lake Storage.
- Azure Data Factory charge de façon incrémentielle les données d’Azure Data Lake Storage dans des tables intermédiaires dans Azure Synapse Analytics. Les données sont nettoyées et transformées pendant ce processus. La technologie PolyBase peut paralléliser le processus pour des jeux de données volumineux.
- À l’issue du chargement d’un nouveau lot de données dans l’entrepôt, un modèle tabulaire Azure Analysis Services créé précédemment est actualisé. Ce modèle sémantique simplifie l’analyse des données d’entreprise et des relations.
- Les analystes d’entreprise utilisent Microsoft Power BI pour analyser les données en entrepôt via le modèle sémantique Analysis Services.
Composants
L’entreprise dispose de sources de données sur différentes plateformes :
- Instance SQL Server locale
- Instance Oracle locale
- Azure SQL Database
- Stockage de table Azure
- Base de données Azure Cosmos DB
Les données sont chargées à partir de ces différentes sources de données à l’aide de plusieurs composants Azure :
- Azure Data Lake Storage est utilisé pour mettre en scène les données sources avant qu’elles ne soient chargées dans Azure Synapse.
- Data Factory orchestre la transformation des données intermédiaires en une structure commune dans Azure Synapse. Data Factory utilise PolyBase lors du chargement de données dans Azure Synapse pour optimiser le débit.
- Azure Synapse est un système distribué permettant de stocker et d’analyser des jeux de données volumineux. Son recours à un traitement parallèle massif (MPP) lui permet d’exécuter des analyses hautes performances. Azure Synapse peut utiliser PolyBase pour charger rapidement des données à partir d’Azure Data Lake Storage.
- Analysis Services fournit un modèle sémantique pour vos données. Ce composant permet également d’augmenter les performances du système lors de l’analyse de vos données.
- Power BI est une suite d’outils d’analytique métier pour analyser les données et partager des insights. Power BI peut interroger un modèle sémantique stocké dans Analysis Services ou interroger directement Azure Synapse.
- Microsoft Entra ID authentifie les utilisateurs qui se connectent au serveur Analysis Services via Power BI. Data Factory peut également utiliser l’ID Microsoft Entra pour s’authentifier auprès d’Azure Synapse via un principal de service ou une identité managée pour les ressources Azure.
Autres solutions
L’exemple de pipeline inclut plusieurs types de sources de données. Cette architecture peut gérer un large éventail de sources de données relationnelles et non relationnelles.
Data Factory orchestre les flux de travail pour votre pipeline de données. Si vous souhaitez charger des données une seule fois ou à la demande, vous pouvez utiliser des outils tels que la copie en bloc (bcp) et AzCopy de SQL Server pour copier les données dans Azure Data Lake Storage. Vous pouvez alors charger les données dans Azure Synapse à l’aide de PolyBase
Si vous avez des jeux de données très volumineux, envisagez d’utiliser Data Lake Storage, qui fournit un stockage sans limite pour les données d’analyse.
Azure Synapse ne convient pas à des charges de travail OLTP ni à des jeux de données inférieurs à 250 Go. Pour ces cas, vous devez utiliser Azure SQL Database ou SQL Server.
Pour procéder à des comparaisons avec d’autres solutions, consultez les articles suivants :
Détails du scénario
Cet exemple présente une entreprise de ventes et de marketing qui crée des programmes d’offres incitatives. Ces programmes récompensent les clients, les fournisseurs, les vendeurs et les employés. Les données sont essentielles pour ces programmes, et l’entreprise souhaite améliorer les informations obtenues via l’analyse des données à l’aide d’Azure.
L’entreprise recherche une approche moderne en matière de données d’analyse, afin que les décisions soient prises à l’aide des données appropriées au moment opportun. Les objectifs de l’entreprise sont les suivants :
- combinaison de différents types de sources de données en une plateforme à l’échelle du cloud ;
- transformation des données sources en une structure et une taxonomie communes afin de rendre les données cohérentes et facilement comparables ;
- chargement des données à l’aide d’une approche hautement parallélisée pouvant prendre en charge des milliers de programmes d’offres incitatives, sans les coûts élevés de déploiement et de gestion d’une infrastructure locale ;
- réduction considérable du temps nécessaire pour collecter et transformer des données afin que vous puissiez vous concentrer sur l’analyse des données.
Cas d’usage potentiels
Cette approche peut également servir à :
- établir un entrepôt de données pour qu’il soit une source unique et fiable de vos données ;
- intégrer des sources de données relationnelles à d’autres jeux de données non structurées ;
- Utiliser de puissants outils de visualisation et de modélisation sémantique pour simplifier l’analyse des données.
Considérations
Ces considérations implémentent les piliers d’Azure Well-Architected Framework, un ensemble de principes directeurs que vous pouvez utiliser pour améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Well-Architected Framework.
Les technologies appliquées dans cette architecture ont été choisies, car elles remplissent les exigences de l’entreprise en matière d’extensibilité et de disponibilité tout en les aidant à maîtriser les coûts.
- L’architecture de traitement massivement parallèle d’Azure Synapse offre une scalabilité et des performances élevées.
- Azure Synapse a garanti des contrats de niveau de service (SLA) et des pratiques recommandées pour obtenir une haute disponibilité.
- Lorsque l’activité d’analyse est faible, l’entreprise peut mettre à l’échelle Azure Synapse à la demande, réduire ou même suspendre le calcul pour réduire les coûts.
- Azure Analysis Services peut être mis à l’échelle pour réduire les temps de réponse pendant les charges de travail de requête élevées. Vous pouvez aussi séparer le traitement du pool de requêtes afin que les requêtes des clients ne soient pas ralenties par les opérations de traitement.
- Azure Analysis Services a également garanti des contrats SLA et des pratiques recommandées pour atteindre la haute disponibilité.
- Le modèle de sécurité Azure Synapse fournit la sécurité, l’authentification et l’autorisation de connexion via l’authentification Microsoft Entra ID ou SQL Server et le chiffrement. Azure Analysis Services utilise l’ID Microsoft Entra pour la gestion des identités et l’authentification des utilisateurs.
Optimisation des coûts
L’optimisation des coûts se concentre sur les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez la liste de contrôle de révision de conception pour l’optimisation des coûts.
Passez en revue un exemple de tarification pour un scénario d’entreposage de données via la calculatrice de prix Azure. Ajustez les valeurs pour déterminer l’incidence de vos besoins sur vos coûts.
- Azure Synapse vous permet de mettre à l’échelle vos niveaux de calcul et de stockage indépendamment. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.
- Les coûts de Data Factory sont basés sur le nombre d’opérations de lecture/écriture, d’opérations de supervision et d’orchestration effectuées dans une charge de travail. Vos coûts de fabrique de données augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.
- Analysis Services est disponible dans les niveaux Développeur, De base et Standard. La tarification des instances est établie en fonction des unités de traitement des requêtes (QPU) et de la mémoire disponible. Pour diminuer vos coûts, réduisez le nombre de requêtes exécutées, la quantité de données traitées et leur fréquence d’exécution.
- Power BI propose différentes options de produit pour différentes exigences. Power BI Embedded fournit une option basée sur Azure pour incorporer des fonctionnalités Power BI à l’intérieur de vos applications. L’exemple de tarification ci-dessus comprend une instance Power BI Embedded.
Contributeurs
Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.
Auteur principal :
- Alex Buck | Développeur de contenu senior
Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.
Étapes suivantes
Passez en revue la conception de l’architecture des bases de données.
Découvrez plus en détail les services utilisés dans ce scénario :