Entrepôts de données modernes pour les petites et moyennes entreprises

Azure Data Lake

Azure SQL Database

Microsoft Fabric

Cet article décrit plusieurs façons dont les petites et moyennes entreprises (PME) peuvent moderniser les magasins de données hérités et explorer les outils et fonctionnalités Big Data sans dépasser les budgets actuels et les ensembles de compétences. Ces solutions complètes d’entrepôt de données s’intègrent parfaitement avec Azure Machine Learning, les services Azure AI, Microsoft Power Platform, Microsoft Dynamics 365 et d’autres technologies Microsoft. Ces solutions offrent un point d’entrée facile à la plateforme de données en tant que service (SaaS) entièrement gérée sur Microsoft Fabric, qui peut évoluer à mesure que vos besoins augmentent.

Les PME qui utilisent SQL Server local pour des solutions d’entrepôt de données de moins de 500 Go pourraient bénéficier de ce modèle. Ils utilisent différents outils pour l’ingestion de données dans leur solution d’entreposage de données, notamment SQL Server Integration Services (SSIS), SQL Server Analysis Services (SSAS), SQL Server Reporting Services (SSRS), procédures stockées SQL courantes, extraction externe, transformation, chargement (ETL) et extraction, chargement, transformation, transformation (ELT), travaux SQL Server Agent et réplication d’instantané SQL. Les opérations de synchronisation des données sont généralement basées sur des captures instantanées, effectuées une fois par jour, et n’ont pas d’exigences de rapports en temps réel.

Architecture simplifiée

Téléchargez un fichier Visio de cette architecture.

Une opportunité de modernisation conceptuelle implique la transition de la solution d’entrepôt de données héritée vers une combinaison d’Azure SQL Database, Azure SQL Managed Instance et Fabric. Cette stratégie garantit une large compatibilité avec SQL Server traditionnel et les outils clients SQL, tels que SQL Server Management Studio (SSMS). Elle offre également des options de « lift-and-shift » pour les processus existants et nécessite un minimum de montée en compétences pour l’équipe de support. Cette solution constitue une première étape vers une modernisation complète, qui permet à l’organisation d’adopter pleinement une approche lakehouse à mesure que l’entrepôt de données se développe et que les compétences de l’équipe progressent.

Architecture

Téléchargez un fichier Visio de cette architecture.

Les entrepôts de données hérités des PME peuvent contenir plusieurs types de données :

Des données non structurées, comme des documents et des graphiques.
Des données semi-structurées, telles que des journaux, des fichiers CSV, JSON et XML.
Des données relationnelles structurées, y compris des bases de données qui utilisent des procédures stockées pour les activités ETL et ELT.

Dataflow

Le flux de données suivant correspond au diagramme précédent. Il démontre l’ingestion du type de données que vous choisissez :

Les pipelines de données Fabric ou les pipelines Azure Data Factory orchestrent l’ingestion de données transactionnelles dans la solution d’entrepôt de données.
- Les pipelines orchestrent le flux des bases de données héritées migrées ou partiellement refactorisées et des packages SSIS vers SQL Database et SQL Managed Instance. Vous pouvez rapidement mettre en œuvre cette approche « lift-and-shift », qui garantit une transition en douceur d’une solution SQL locale à un futur environnement SaaS Fabric. Vous pouvez moderniser les bases de données de façon incrémentielle après avoir implémenté l’approche lift and shift.
- Les pipelines peuvent transmettre des données non structurées, semi-structurées et structurées dans Azure Data Lake Storage pour un stockage centralisé et une analyse avec d’autres sources. Utilisez cette approche lorsque la fusion des données apporte plus de bénéfices commerciaux que la recréation de la plateforme de données.
Utilisez les sources de données Microsoft Dynamics 365 pour créer des tableaux de bord de Business Intelligence (BI) centralisés sur des ensembles de données augmentés à l’aide des outils d’analyse sans serveur de Fabric. Vous pouvez ramener les données fusionnées et traitées dans Dynamics et les utiliser pour des analyses supplémentaires au sein de Fabric.
Les données en temps réel provenant de sources de streaming peuvent entrer dans le système via Azure Event Hubs ou d’autres solutions de streaming. Pour les clients ayant des exigences de tableaux de bord en temps réel, Fabric Real-Time Analytics peut analyser ces données immédiatement.
Les données peuvent être ingérées dans le OneLake centralisé de Fabric pour une analyse, un stockage et un reporting supplémentaires à l’aide de raccourcis Data Lake Storage. Ce processus permet une analyse sur place et facilite la consommation en aval.
Les outils d’analyse sans serveur, tels que le point de terminaison SQL Analytics et les capacités Fabric Spark, sont disponibles à la demande dans Fabric et ne nécessitent aucune ressource provisionnée. Les outils d’analyse sans serveur sont idéaux pour :
- Les activités ETL et ELT sur les données OneLake.
- Servir la couche « gold » de l’architecture en médaillon aux rapports Power BI via la fonctionnalité DirectLake.
- Des explorations improvisées en science des données au format T-SQL ou Python.
- Prototypage précoce pour les entités d’entrepôt de données.

Fabric est étroitement intégré avec les consommateurs potentiels de vos ensembles de données multisources, y compris les rapports Power BI en front-end, Machine Learning, Power Apps, Azure Logic Apps, Azure Functions et les applications web Azure App Service.

Composants

Fabric est un service d’analyse qui combine ingénierie des données, entreposage des données, science des données, et capacités de données en temps réel et de BI. Dans cette solution, les capacités d’ingénierie des données de Fabric fournissent une plateforme collaborative pour les ingénieurs de données, les scientifiques des données, les analystes de données et les professionnels de la BI. Cet élément clé est alimenté par des moteurs de calcul sans serveur et génère de la valeur commerciale en produisant des insights distribués aux clients.
SQL Database et SQL Managed Instance sont des services de base de données relationnelle basés sur le cloud. SQL Database et SQL Managed Instance utilisent SSMS pour développer et maintenir des artefacts hérités tels que des procédures stockées. Dans cette solution, ces services hébergent l’entrepôt de données d’entreprise et effectuent des activités ETL et ELT en utilisant des procédures stockées ou des packages externes. SQL Database et SQL Managed Instance sont des environnements de plateforme en tant que service (PaaS) que vous pouvez utiliser pour répondre aux exigences de haute disponibilité et de récupération d’urgence. Veillez à choisir le SKU qui répond à vos besoins. Pour plus d’informations, veuillez consulter la section Haute disponibilité pour SQL Database et Haute disponibilité pour SQL Managed Instance.
SSMS est un environnement intégré pour la gestion de l’infrastructure SQL que vous pouvez utiliser pour développer et maintenir des artefacts hérités, tels que des procédures stockées.
Event Hubs est une plateforme de diffusion de données en temps réel et un service d’ingestion d’événements. Event Hubs s’intègre parfaitement avec les services de données Azure et peut ingérer des données depuis n’importe où.

Autres solutions

Vous pouvez utiliser Azure IoT Hub pour remplacer ou compléter Event Hubs. Choisissez votre solution en fonction de la source de vos données de streaming et de la nécessité de clonage et de communication bidirectionnelle avec les dispositifs de reporting.
Vous pouvez utiliser les pipelines de données Fabric au lieu des pipelines Data Factory pour l’intégration des données. Votre décision dépendra de plusieurs facteurs. Pour plus d’informations, veuillez consulter la section Passer d’Azure Data Factory à Data Factory dans Fabric.
Vous pouvez utiliser Fabric Warehouse au lieu de SQL Database ou SQL Managed Instance pour stocker les données d’entreprise. Cet article donne la priorité au délai de mise sur le marché pour les clients souhaitant moderniser leurs entrepôts de données. Pour plus d’informations sur les options de stockage de données pour Fabric, consultez la section Guide de décision Fabric.

Détails du scénario

Lorsque les PME modernisent leurs entrepôts de données locaux pour le cloud, elles peuvent soit adopter des outils de mégadonnées pour une évolutivité future, soit utiliser des solutions traditionnelles basées sur SQL pour l’efficacité des coûts, la facilité de maintenance et une transition en douceur. Une approche hybride offre le meilleur des deux mondes et permet une migration facile des patrimoines de données existants tout en utilisant des outils modernes et des capacités d’IA. Les PME peuvent conserver leurs sources de données basées sur SQL dans le cloud et les moderniser selon les besoins.

Cet article décrit plusieurs stratégies pour les PME de moderniser les magasins de données hérités et d’explorer les outils et capacités des mégadonnées sans dépasser les budgets et les compétences actuels. Ces solutions complètes d’entrepôt de données Azure s’intègrent parfaitement avec les services Azure et Microsoft, y compris les services d’IA, Microsoft Dynamics 365 et Microsoft Power Platform.

Cas d’usage potentiels

Migrez un entrepôt de données relationnel local traditionnel de moins de 1 To et utilisez des packages SSIS pour orchestrer des procédures stockées.
Fusionnez les données existantes Dynamics ou Microsoft Power Platform Dataverse avec des sources Data Lake par lots et en temps réel.
Utilisez des techniques innovantes pour interagir avec des données centralisées sur Azure Data Lake Storage Gen2. Ces techniques incluent l’analyse sans serveur, l’exploration de connaissances, la fusion de données entre domaines et l’exploration de données par les utilisateurs finaux, y compris Fabric Copilot.
Configurez des entreprises de commerce électronique pour adopter un entrepôt de données afin d’optimiser leurs opérations.

Cette solution n’est pas recommandée dans les cas suivants :

Un déploiement greenfield d’entrepôts de données.
Migration d’entrepôts de données locaux de plus de 1 To ou projetés d’atteindre cette taille dans l’année.

Considérations

Ces considérations implémentent les piliers d’Azure Well-Architected Framework qui est un ensemble de principes directeurs qui permettent d’améliorer la qualité d’une charge de travail. Pour plus d’informations, consultez Microsoft Azure Well-Architected Framework.

Optimisation des coûts

L’optimisation des coûts consiste à examiner les moyens de réduire les dépenses inutiles et d’améliorer l’efficacité opérationnelle. Pour plus d'informations, consultez Liste de contrôle de la révision de la conception pour l'optimisation des coûts.

Le calculateur de tarification Azure vous permet de modifier les valeurs pour comprendre comment vos exigences spécifiques affectent les coûts. Vous pouvez voir un exemple de tarification pour un scénario d’entrepôt de données de PME dans le calculateur de tarification Azure.
La tarification de SQL Database dépend du calcul et des niveaux de service que vous choisissez, ainsi que du nombre de vCores et d’unités de transaction de base de données. L’exemple décrit une base de données unique avec un calcul provisionné et huit vCores et suppose que vous devez exécuter des procédures stockées dans SQL Database.
La tarification de Data Lake Storage Gen2 dépend de la quantité de données que vous stockez et de la fréquence d’utilisation des données. L’exemple de tarification couvre 1 To de stockage de données et d’autres hypothèses transactionnelles. Le 1 To fait référence à la taille du data lake et non à la taille de la base de données héritée d’origine.
La tarification de Fabric dépend soit du prix de capacité Fabric F, soit du prix Premium par personne. Les capacités sans serveur utilisent le processeur et la mémoire de votre capacité dédiée achetée.
La tarification de Event Hubs dépend du niveau que vous choisissez, du nombre d’unités de débit provisionnées et du trafic d’entrée reçu. L’exemple suppose une unité de débit dans le niveau Standard traitant plus d’un million d’événements par mois.

Contributeurs

Cet article est géré par Microsoft. Il a été écrit à l’origine par les contributeurs suivants.

Auteur principal :

Galina Polyakova | Architecte de solution cloud senior

Pour afficher les profils LinkedIn non publics, connectez-vous à LinkedIn.

Étapes suivantes

Pour les contenus de formation et les laboratoires, consultez Parcours d’apprentissage pour ingénieurs de données.
Bien démarrer avec Microsoft Fabric.
Parcourez tous les cours, parcours d’apprentissage et modules.
Créer une base de données unique.
Créez une instance SQL Managed.
Créer un compte de stockage à utiliser avec Data Lake Storage Gen2.
Créer un hub d’événement à l’aide du portail Azure.

Partager via

Entrepôts de données modernes pour les petites et moyennes entreprises

Architecture simplifiée

Architecture

Dataflow

Composants

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Optimisation des coûts

Contributeurs

Étapes suivantes

Commentaires

Ressources supplémentaires

Partager via

Entrepôts de données modernes pour les petites et moyennes entreprises

Architecture simplifiée

Architecture

Dataflow

Composants

Autres solutions

Détails du scénario

Cas d’usage potentiels

Considérations

Optimisation des coûts

Contributeurs

Étapes suivantes

Ressources associées

Commentaires

Ressources supplémentaires