Entrepôt de données moderne pour les PME/TPE

Azure Data Lake

Azure SQL Database

Azure Synapse Analytics

Dynamics 365

Plateforme Microsoft Power

Cet exemple de charge de travail montre plusieurs manières dont les PME/TPE peuvent moderniser des magasins de données hérités et explorer les outils et fonctionnalités Big Data, sans étendre les compétences et les budgets actuels. Ces solutions d’entreposage de données Azure de bout en bout s’intègrent facilement à des outils comme Azure Machine Learning, Microsoft Power Platform, Microsoft Dynamics et d’autres technologies Microsoft.

Architecture

Téléchargez un fichier Visio de cette architecture.

Les entrepôts de données hérités des PME/TPE peuvent contenir plusieurs types de données :

Données non structurées, telles que des documents et des graphiques
Données semi-structurées, telles que des fichiers journaux ou des fichiers CSV, JSON et XML
Données relationnelles structurées, notamment des bases de données qui utilisent des procédures stockées pour les activités d’extraction, de transformation et de chargement (ETL/ELT)

Dataflow

Le flux de données suivant illustre l’ingestion du type de données que vous avez choisi :

Les pipelines Azure Synapse Analytics ingèrent les entrepôts de données hérités dans Azure.
- Les pipelines orchestrent le flux des packages SSIS et des bases de données hérités migrés ou partiellement refactorisés dans Azure SQL Database. Cette approche lift-and-shift est plus rapide à implémenter et offre une transition sans heurts pour passer d’une solution SQL locale vers une application PaaS Azure finale. Vous pouvez moderniser les bases de données de façon incrémentielle après avoir implémenté l’approche lift and shift.
- Les pipelines peuvent également transmettre des données non structurées, semi-structurées et structurées dans Azure Data Lake Storage pour un stockage et une analyse centralisés avec d’autres sources. Utilisez cette approche lorsque la fusion de données offre plus d’avantages commerciaux que la simple recréation de la plateforme de données.
Les sources de données Microsoft Dynamics permettent de créer des tableaux de bord BI centralisés sur des jeux de données enrichis à l’aide d’outils d’analyse serverless de Synapse. Vous pouvez réimporter les données fusionnées et traitées dans Dynamics et Power BI pour une analyse plus poussée.
Les données en temps réel provenant de sources de streaming peuvent également entrer dans le système via Azure Event Hubs. Pour les clients avec des exigences de tableau de bord en temps réel, Azure Stream Analytics peut analyser ces données immédiatement.
Les données peuvent également entrer dans le lac de données centralisé pour une analyse, un stockage et un reporting plus poussés.
Les outils d’analyse serverless sont disponibles dans l’espace de travail Azure Synapse Analytics. Ces outils utilisent un pool SQL serverless ou des fonctionnalités de calcul Apache Spark pour traiter les données dans Data Lake Storage Gen2. Les pools serverless sont disponibles à la demande et ne nécessitent aucune ressource provisionnée.

Les pools serverless sont idéaux pour les scénarios suivants :
- Explorations de science des données ad hoc au format T-SQL.
- Prototypage précoce pour les entités d’entrepôt de données.
- Définition de vues que les consommateurs peuvent utiliser, par exemple dans Power BI, pour les scénarios qui peuvent tolérer un décalage des performances.

Azure Synapse est étroitement intégré aux consommateurs potentiels de vos jeux de données fusionnés, comme Azure Machine Learning. Les autres consommateurs peuvent inclure les applications Power Apps, Azure Logic Apps, Azure Functions et les applications web Azure App Service.

Components

Azure Synapse Analytics est un service d’analytique qui combine l’intégration de données, l’entreposage des données d’entreprise et l’analytique Big Data. Contenu de cette solution :
- Un espace de travail Azure Synapse favorise la collaboration entre les ingénieurs de données, les scientifiques des données, les analystes de données et les professionnels du business intelligence.
- Les pipelines Azure Synapse orchestrent et ingèrent les données dans SQL Database et Data Lake Storage Gen2.
- Les pools SQL serverless Azure Synapse analysent les données non structurées et semi-structurées dans Data Lake Storage Gen2 à la demande.
- Les pools Apache Spark serverless Azure Synapse effectuent des explorations code-first dans Data Lake Storage Gen2 avec des langages Spark comme Spark SQL, PySpark et Scala.
Azure SQL Database est un service de bases de données relationnelles, scalable et intelligent, conçu pour le cloud. Dans cette solution, SQL Database contient l’entrepôt de données d’entreprise et exécute des activités ETL/ELT qui utilisent des procédures stockées.
Azure Event Hubs est une plateforme de streaming en temps réel et un service d’ingestion d’événements. Event Hubs peut ingérer des données à partir de n’importe quel endroit et s’intègre de façon fluide aux services de données Azure.
Azure Stream Analytics est un service d’analytique serverless en temps réel pour les données de streaming. Stream Analytics offre une scalabilité rapide et élastique, une fiabilité et une récupération de classe Entreprise, ainsi que des fonctionnalités Machine Learning intégrées.
Azure Machine Learning est un ensemble d’outils pour le développement de modèles de science des données et la gestion du cycle de vie. Machine Learning constitue un exemple de services Azure et Microsoft qui peuvent consommer des données fusionnées et traitées issues de Data Lake Storage Gen2.

Autres solutions

Azure IoT Hub peut remplacer ou compléter Event Hubs. La solution que vous choisissez dépend de la source de vos données de streaming et de la nécessité ou non du clonage et de la communication bidirectionnelle avec les appareils de reporting.
Vous pouvez utiliser Azure Data Factory pour l’intégration de données à la place des pipelines Azure Synapse. Le choix dépend de plusieurs facteurs :
- Les pipelines Azure Synapse simplifient la conception de la solution et permettent la collaboration au sein d’un espace de travail Azure Synapse unique.
- Les pipelines Azure Synapse ne prennent pas en charge le réhébergement des packages SSIS, qui est disponible dans Azure Data Factory.
- Le Hub Monitor de Synapse surveille les pipelines Azure Synapse, tandis qu’Azure Monitor peut surveiller Data Factory.
Pour plus d’informations et pour une comparaison des fonctionnalités des pipelines Azure Synapse et de Data Factory, consultez la page Intégration des données dans Azure Synapse Analytics et Azure Data Factory.
Vous pouvez utiliser des pools SQL dédiés Synapse Analytics pour stocker des données d’entreprise au lieu d’utiliser SQL Database. Passez en revue les cas d’usage et les éléments à prendre en considération présentés dans cet article et les ressources associées pour prendre une décision.

Détails du scénario

Les petites et moyennes entreprises (PME/TPE) font face à un choix lorsqu’elles envisagent de moderniser leurs entrepôts de données locaux pour le cloud. Elles peuvent adopter des outils Big Data pour une extensibilité future ou conserver des solutions traditionnelles basées sur SQL pour bénéficier d’une rentabilité, d’une facilité de maintenance et d’une transition sans heurt.

Toutefois, une approche hybride allie la migration simple du patrimoine de données existant à la possibilité d’ajouter des outils et des processus Big Data pour certains cas d’usage. Les sources de données basées sur SQL peuvent s’exécuter dans le cloud et continuer à être modernisées en fonction des besoins.

Cet exemple de charge de travail montre plusieurs manières dont les PME-TPE peuvent moderniser des magasins de données hérités et explorer les outils et fonctionnalités Big Data, sans étendre les compétences et les budgets actuels. Ces solutions d’entreposage de données Azure de bout en bout s’intègrent facilement à Azure et aux services et outils Microsoft tels que Azure Machine Learning, Microsoft Power Platform et Microsoft Dynamics.

Cas d’usage potentiels

Plusieurs scénarios peuvent tirer parti de cette charge de travail :

Migration d’un entrepôt de données relationnelles local et traditionnel d’une taille inférieure à 1 To et qui utilise de manière intensive des packages SQL Server Integration Services (SSIS) pour orchestrer des procédures stockées.
Maillage des données Dataverse Dynamics ou Power Platform existantes avec des sources Azure Data Lake par lot et en temps réel.
Utilisation de techniques novatrices pour interagir avec des données Data Lake Storage Gen2 centralisées. Ces techniques incluent l’analyse serverless, l’exploration de connaissances, la fusion de données entre les domaines et l’exploration des données de l’utilisateur final.
Configuration d’entreprises eCommerce pour adopter un entrepôt de données pour optimiser leurs opérations.

Cette solution n’est pas recommandée dans les cas suivants :

Déploiement Greenfield d’entrepôts de données dont on estime qu’ils atteindront une taille de > 1 To dans un délai d’un an.
Migration d’entrepôts de données locaux de > 1 To ou qui atteindront cette taille dans un délai d’un an.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d'informations, consultez Microsoft Azure Well-Architected Framework.

Les remarques suivantes s’appliquent à ce scénario.

Disponibilité

SQL Database est un service PaaS qui peut répondre à vos besoins en matière de haute disponibilité et de reprise d’activité. Veillez à sélectionner la référence SKU qui répond à vos besoins. Pour obtenir de l’aide, consultez Haute disponibilité pour Azure SQL Database.

Opérations

SQL Database utilise SQL Server Management Studio (SSMS) pour développer et gérer des artefacts hérités tels que des procédures stockées.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d’informations, consultez Vue d’ensemble du pilier d’optimisation des coûts.

Consultez un exemple de tarification pour un scénario d’entreposage de données pour PME/TPE dans la calculatrice de prix Azure. Ajustez les valeurs pour déterminer l’incidence de vos besoins sur les coûts.

SQL Database est facturé en fonction des niveau de calcul et de service sélectionnés, ainsi que du nombre d’unités de transaction de base de données (unités DTU) et de vCores. L’exemple montre une base de données unique avec le calcul provisionné et huit vCores, en se basant sur l’hypothèse selon laquelle vous devez exécuter des procédures stockées dans SQL Database.
Les tarifs de Data Lake Storage Gen2 dépendent de la quantité de données stockées et de la fréquence à laquelle elles sont utilisées. L’exemple de tarification inclut 1 To de données stockées, avec d’autres hypothèses transactionnelles. 1 To fait référence à la taille du lac de données, et non à la taille initiale de la base de données héritée.
Les pipelines Azure Synapse sont facturés en fonction du nombre d’activités de pipeline de données, des heures d’exécution d’intégration, de la taille de cluster de workflow et des frais d’exécution et d’opération. Les coûts associés aux pipelines augmentent avec les sources de données supplémentaires et les quantités de données traitées. L’exemple suppose une source de données traitée par lot toutes les heures pendant 15 minutes sur un runtime d’intégration hébergé par Azure.
Le pool Azure Synapse Spark est facturé en fonction de la taille des nœuds, du nombre d’instances et de la durée de fonctionnement. L’exemple se base sur un petit nœud de calcul avec une utilisation allant de cinq heures par semaine à 40 heures par mois.
La tarification des pools SQL serverless Azure Synapse est basée sur les To de données traitées. L’exemple se base sur 50 To traités par mois. Ce chiffre fait référence à la taille du lac de données, et non à la taille initiale de la base de données héritée.
Event Hubs est facturé en fonction du niveau, des unités de débit provisionnées et du trafic entrant reçu. L’exemple se base sur une unité de débit dans le niveau Standard sur 1 million d’événements par mois.
Stream Analytics est facturé en fonction du nombre d’unités de streaming provisionnées. L’exemple se base sur une unité de streaming utilisée par mois.

Contributeurs

Cet article est mis à jour et géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Galina Polyakova | Architecte de solution cloud senior

Étapes suivantes

Pour trouver du contenu et des labos à des fins de formation, consultez les parcours d’apprentissage pour les ingénieurs de données.
Tutoriel : Bien démarrer avec Azure Synapse Analytics
Créer une base de données unique - Azure SQL Database
Création d’un compte de stockage pour Azure Data Lake Storage Gen2
Démarrage rapide Azure Event Hubs - Créer un Event Hub à l’aide du portail Azure
Démarrage rapide – Créer un travail Stream Analytics avec le portail Azure
Démarrage rapide : Bien démarrer avec Azure Machine Learning

En savoir plus sur :

Partager via

Entrepôt de données moderne pour les PME/TPE

Architecture

Dataflow

Components

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Disponibilité

Opérations

Optimisation des coûts

Contributeurs

Étapes suivantes

Commentaires

Commentaires

Ressources supplémentaires

Partager via

Entrepôt de données moderne pour les PME/TPE

Architecture

Dataflow

Components

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Disponibilité

Opérations

Optimisation des coûts

Contributeurs

Étapes suivantes

Ressources associées

Commentaires

Commentaires

Ressources supplémentaires