Entreposage et analytique des données

Azure Data Lake Storage
Azure Cosmos DB
Azure Data Factory
Azure SQL Database
Stockage de table Azure

Cet exemple de scénario illustre un pipeline de données qui intègre de grandes quantités de données provenant de plusieurs sources en une plateforme d’analyse unifiée dans Azure. Ce scénario particulier repose sur une solution de vente et de marketing, mais les modèles de conception sont appropriés à de nombreux secteurs nécessitant une analyse avancée des jeux de données volumineux comme ceux de l’e-commerce, de la vente au détail et de la santé.

Architecture

Architecture for a data warehousing and analysis scenario in Azure

Téléchargez un fichier Visio de cette architecture.

Dataflow

Les données circulent dans la solution comme suit :

  1. Pour chaque source de données, des mises à jour sont exportées régulièrement dans une zone de transit dans Azure Data Lake Storage.
  2. Azure Data Factory charge de façon incrémentielle les données d’Azure Data Lake Storage dans des tables intermédiaires dans Azure Synapse Analytics. Les données sont nettoyées et transformées pendant ce processus. La technologie PolyBase peut paralléliser le processus pour des jeux de données volumineux.
  3. À l’issue du chargement d’un nouveau lot de données dans l’entrepôt, un modèle tabulaire Azure Analysis Services créé précédemment est actualisé. Ce modèle sémantique simplifie l’analyse des données d’entreprise et des relations.
  4. Les analystes d’entreprise utilisent Microsoft Power BI pour analyser les données en entrepôt via le modèle sémantique Analysis Services.

Components

L’entreprise dispose de sources de données sur différentes plateformes :

  • Instance SQL Server locale
  • Instance Oracle locale
  • Azure SQL Database
  • Stockage de table Azure
  • Azure Cosmos DB

Les données sont chargées à partir de ces différentes sources de données à l’aide de plusieurs composants Azure :

  • Azure Data Lake Storage est utilisé pour mettre les données sources en transit avant leur chargement dans Azure Synapse.
  • Data Factory orchestre la transformation des données mises en lots en une structure commune dans Azure Synapse. Data Factory utilise PolyBase lors du chargement des données dans Azure Synapse pour optimiser le débit.
  • Azure Synapse est un système distribué permettant de stocker et d’analyser des jeux de données volumineux. Son recours à un traitement parallèle massif (MPP) lui permet d’exécuter des analyses hautes performances. Azure Synapse peut utiliser PolyBase pour charger rapidement des données à partir d’Azure Data Lake Storage.
  • Analysis Services fournit un modèle sémantique de vos données. Ce composant permet également d’augmenter les performances du système lors de l’analyse de vos données.
  • Power BI est une suite d’outils d’analyse métier pour analyser les données et partager les informations. Power BI peut interroger un modèle sémantique stocké dans Analysis Services ou interroger directement Azure Synapse.
  • Microsoft Entra ID authentifie les utilisateurs qui se connectent au serveur Analysis Services via Power BI. Data Factory peut également utiliser Microsoft Entra ID pour s'authentifier auprès d'Azure Synapse via un principal de service ou une identité gérée pour les ressources Azure.

Autres solutions

Détails du scénario

Cet exemple présente une entreprise de ventes et de marketing qui crée des programmes d’offres incitatives. Ces programmes récompensent les clients, les fournisseurs, les vendeurs et les employés. Les données sont essentielles pour ces programmes, et l’entreprise souhaite améliorer les informations obtenues via l’analyse des données à l’aide d’Azure.

L’entreprise recherche une approche moderne en matière de données d’analyse, afin que les décisions soient prises à l’aide des données appropriées au moment opportun. Les objectifs de l’entreprise sont les suivants :

  • combinaison de différents types de sources de données en une plateforme à l’échelle du cloud ;
  • transformation des données sources en une structure et une taxonomie communes afin de rendre les données cohérentes et facilement comparables ;
  • chargement des données à l’aide d’une approche hautement parallélisée pouvant prendre en charge des milliers de programmes d’offres incitatives, sans les coûts élevés de déploiement et de gestion d’une infrastructure locale ;
  • réduction considérable du temps nécessaire pour collecter et transformer des données afin que vous puissiez vous concentrer sur l’analyse des données.

Cas d’usage potentiels

Cette approche peut également servir à :

  • établir un entrepôt de données pour qu’il soit une source unique et fiable de vos données ;
  • intégrer des sources de données relationnelles à d’autres jeux de données non structurées ;
  • Utiliser de puissants outils de visualisation et de modélisation sémantique pour simplifier l’analyse des données.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Les technologies appliquées dans cette architecture ont été choisies, car elles remplissent les exigences de l’entreprise en matière d’extensibilité et de disponibilité tout en les aidant à maîtriser les coûts.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Examinez un exemple de tarification pour un scénario d’entreposage de données via la calculatrice de prix Azure. Ajustez les valeurs pour déterminer l’incidence de vos besoins sur vos coûts.

  • Azure Synapse vous permet de mettre à l’échelle vos niveaux de calcul et de stockage de façon indépendante. Les ressources de calcul sont facturées à l’heure, et vous pouvez mettre ces ressources à l’échelle ou en pause à la demande. Les ressources de stockage sont facturées au téraoctet. Vos coûts augmentent donc en fonction du volume de données ingéré.
  • Les coûts Data Factory sont basés sur le nombre d’opérations de lecture/écriture et de surveillance et sur les activités d’orchestration effectuées dans une charge de travail. Vos coûts Data Factory augmentent avec chaque flux de données supplémentaire et la quantité de données traitées par chacun d’eux.
  • Analysis Services est disponible pour les niveaux développeur, de base et standard. La tarification des instances est établie en fonction des unités de traitement des requêtes (QPU) et de la mémoire disponible. Pour diminuer vos coûts, réduisez le nombre de requêtes exécutées, la quantité de données traitées et leur fréquence d’exécution.
  • Power BI offre différentes options de produit selon les besoins. Power BI Embedded offre une option Azure permettant d’intégrer la fonctionnalité Power BI dans vos applications. L’exemple de tarification ci-dessus comprend une instance Power BI Embedded.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes