Notes
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Le traitement analytique en ligne (OLAP) est une technologie qui organise les grandes bases de données métier pour effectuer des calculs complexes et une analyse des tendances. Cette méthode permet des requêtes complexes sans perturber les systèmes transactionnels.
Les transactions et enregistrements métier sont stockés dans des bases de données appelées bases de données OLTP (Online Transaction Processing), qui sont optimisées pour les entrées d’enregistrement individuelles. Ces bases de données contiennent des informations précieuses, mais elles ne sont pas conçues pour l’analyse, de sorte que la récupération des données est fastidieuse et difficile.
Pour résoudre ce problème, les systèmes OLAP extraient efficacement l’intelligence décisionnelle des données. Les bases de données OLAP sont optimisées pour les tâches de lecture intensive et de faible écriture. Ils sont modélisés et nettoyés pour une analyse efficace. Les bases de données OLAP conservent souvent les données historiques pour l’analyse de série chronologique.
Les systèmes OLAP utilisent traditionnellement des cubes de données multidimensionnels pour organiser les données d’une manière qui prend en charge les requêtes et l’analyse complexes. Le diagramme suivant illustre une architecture système OLAP traditionnelle.
À mesure que la technologie progresse et que les données et les échelles de calcul augmentent, les systèmes OLAP passent à des architectures de traitement massivement parallèle (MPP) que Microsoft Fabric prend en charge. Pour plus d’informations, consultez le magasin de données analytique Fabric.
Le diagramme suivant illustre une architecture système OLAP moderne.
Modélisation sémantique
Un modèle de données sémantique est un modèle conceptuel qui décrit la signification des éléments de données qu’il contient. Les organisations ont souvent leurs propres termes pour les éléments, et parfois ces termes ont des synonymes. Les organisations peuvent également avoir des significations différentes pour le même terme. Par exemple, une base de données d’inventaire peut suivre un équipement à l’aide d’un ID de ressource et d’un numéro de série. Toutefois, une base de données de vente peut faire référence au numéro de série comme ID de ressource. Il n’existe aucun moyen simple de lier ces valeurs sans modèle qui décrit la relation.
La modélisation sémantique fournit un niveau d’abstraction sur le schéma de base de données afin que les utilisateurs n’ont pas besoin de connaître les structures de données sous-jacentes. Les utilisateurs finaux peuvent facilement interroger des données sans effectuer d’agrégats et de jointures sur le schéma sous-jacent. Les colonnes sont souvent renommées en noms plus conviviaux pour rendre le contexte et la signification des données plus évidentes.
La modélisation sémantique est prédominante pour les scénarios à forte charge de lecture, tels que l'analytique et l'informatique décisionnelle (OLAP), plutôt que pour le traitement des données transactionnelles (OLTP). La modélisation sémantique convient aux scénarios lourds en lecture en raison des caractéristiques d’une couche sémantique classique :
- Les comportements d’agrégation sont définis de façon à ce que les outils de création de rapports les affichent correctement.
- La logique métier et les calculs sont définis.
- Les calculs axés sur le temps sont inclus.
- Les données sont souvent intégrées à partir de plusieurs sources.
- Les analyses en temps réel sont prises en charge.
En règle générale, la couche sémantique est placée sur un entrepôt de données pour ces raisons.
Il existe deux types de modèles sémantiques principaux :
Les modèles tabulaires utilisent des constructions de modélisation relationnelle, telles que des modèles, des tables et des colonnes. En interne, les métadonnées sont héritées de constructions de modélisation OLAP, telles que des cubes, des dimensions et des mesures. Le code et le script utilisent des métadonnées OLAP.
Les modèles multidimensionnels utilisent des constructions de modélisation OLAP traditionnelles, telles que des cubes, des dimensions et des mesures.
Analysis Services et Fabric fournissent l’infrastructure et les outils nécessaires pour implémenter efficacement la modélisation sémantique.
Exemple de cas d’usage
Une organisation stocke des données dans une base de données volumineuse. Il souhaite mettre ces données à la disposition des utilisateurs professionnels et des clients pour créer leurs propres rapports et effectuer une analyse.
Ils peuvent donner aux utilisateurs un accès direct à la base de données, mais cette option présente des inconvénients, notamment la gestion de la sécurité et le contrôle d’accès. Et les utilisateurs peuvent avoir des difficultés à comprendre la conception de la base de données, y compris les noms des tables et des colonnes. Cette option nécessite que les utilisateurs sachent quelles tables interroger, comment ces tables doivent être jointes et comment appliquer d’autres logiques métier pour obtenir les résultats corrects. Les utilisateurs doivent également connaître un langage de requête tel que SQL. En règle générale, cette option conduit à plusieurs utilisateurs à signaler les mêmes métriques, mais avec des résultats différents.
Une meilleure option consiste à encapsuler toutes les informations dont les utilisateurs ont besoin dans un modèle sémantique. Les utilisateurs peuvent interroger plus facilement le modèle sémantique à l’aide d’un outil de création de rapports de leur choix. Les données que fournit le modèle sémantique proviennent d’un entrepôt de données, ce qui garantit que tous les utilisateurs affichent une seule source de vérité. Le modèle sémantique fournit également des noms de tables et de colonnes conviviales, définit les relations entre les tables, inclut des descriptions et des calculs, et applique la sécurité au niveau des lignes.
Caractéristiques par défaut de la modélisation sémantique
La modélisation sémantique et le traitement analytique ont tendance à avoir les caractéristiques suivantes.
Besoin | Descriptif |
---|---|
Schéma | Schéma lors de l’écriture, fortement appliqué |
Utilisent des transactions | Non |
Stratégie de verrouillage | Aucun |
Peut être mise à jour | Non, il nécessite généralement de recalculer le cube |
Modifiable | Non, il nécessite généralement de recalculer le cube |
Charge de travail | Lectures intensives, en lecture seule |
Indexation | Indexation multidimensionnelle |
Taille de donnée | Petite à très grande taille |
Modèle | Tabulaire ou multidimensionnel |
Forme des données | Schéma cube, étoile ou flocon |
Flexibilité de requête | Très flexible |
Échelle | Grande, de centaines de gigaoctets (Go) à plusieurs pétaoctets (Po) |
Quand utiliser cette solution ?
Envisagez d’utiliser OLAP pour les scénarios suivants :
Vous devez exécuter rapidement des requêtes analytiques et à la demande complexes, sans affecter négativement vos systèmes OLTP.
Vous souhaitez fournir aux utilisateurs professionnels un moyen simple de générer des rapports à partir de vos données.
Vous souhaitez fournir plusieurs agrégations qui permettent aux utilisateurs d’obtenir des résultats rapides et cohérents.
OLAP est particulièrement utile pour appliquer des calculs d’agrégats sur de grandes quantités de données. Les systèmes OLAP sont optimisés pour les scénarios lourds en lecture. OLAP permet également aux utilisateurs de segmenter les données multidimensionnelles en tranches qu'ils peuvent afficher en deux dimensions, telles qu'un tableau croisé dynamique. Elles peuvent également filtrer les données en fonction de valeurs spécifiques. Les utilisateurs peuvent effectuer ces processus, appelés découpage et segmentation des données, que celles-ci soient partitionnées ou non entre plusieurs sources de données. Les utilisateurs peuvent facilement explorer les données sans connaître les détails de l’analyse traditionnelle des données.
Des modèles sémantiques peuvent aider les utilisateurs professionnels à faire abstraction de la complexité des relations et faciliter l’analyse rapide de données.
Défis
Les systèmes OLAP produisent également des défis :
Les transactions qui circulent à partir de différentes sources mettent constamment à jour les données dans les systèmes OLTP. Les magasins de données OLAP s’actualisent généralement à intervalles beaucoup plus lents, en fonction des besoins de l’entreprise. Les systèmes OLAP répondent aux décisions stratégiques de l’entreprise, plutôt que des réponses immédiates aux changements. Vous devez également planifier un certain niveau de nettoyage et d’orchestration des données pour conserver les magasins de données OLAP up-to-date.
Contrairement aux tables relationnelles traditionnelles normalisées dans les systèmes OLTP, les modèles de données OLAP ont tendance à être multidimensionnels. Il est donc difficile ou impossible de les mapper directement aux modèles orientés entité-relation ou objet, où chaque attribut correspond à une colonne. Au lieu de cela, les systèmes OLAP utilisent généralement un schéma en étoile ou en flocon au lieu de la normalisation traditionnelle.
OLAP dans Azure
Dans Azure, les données des systèmes OLTP, comme Azure SQL Database, sont copiées dans des systèmes OLAP tels que Fabric ou Analysis Services. Les outils d’exploration et de visualisation des données tels que Power BI, Excel et non-Microsoft se connectent aux serveurs Analysis Services et fournissent aux utilisateurs des insights hautement interactifs et visuellement riches sur les données modélisées. Vous pouvez utiliser SQL Server Integration Services pour orchestrer le flux de données des systèmes OLTP vers les systèmes OLAP. Pour implémenter SQL Server Integration Services, utilisez Azure Data Factory.
Les magasins de données Azure suivants répondent aux exigences principales pour OLAP :
SQL Server Analysis Services fournit des fonctionnalités OLAP et d’exploration de données pour les applications décisionnels. Vous pouvez installer SQL Server Analysis Services sur des serveurs locaux ou l’héberger dans une machine virtuelle dans Azure. Analysis Services est un service entièrement géré qui fournit les mêmes fonctionnalités majeures que SQL Server Analysis Services. Analysis Services prend en charge la connexion à différentes sources de données dans le cloud et localement dans votre organisation.
Les index columnstore en cluster sont disponibles dans SQL Server 2014 et versions ultérieures et dans SQL Database. Ces index sont idéaux pour les charges de travail OLAP. À compter de SQL Server 2016, y compris SQL Database, vous pouvez tirer parti du traitement transactionnel et analytique hybride (HTAP) via des index columnstore non cluster pouvant être mis à jour. Utilisez HTAP pour effectuer le traitement OLTP et OLAP sur la même plateforme. Cette approche élimine la nécessité de plusieurs copies de vos données et de systèmes OLTP et OLAP distincts. Pour plus d’informations, consultez Columnstore pour l’analytique opérationnelle en temps réel.
Critères de sélection principaux
Pour limiter les choix, répondez aux questions suivantes :
Voulez-vous un service managé plutôt que de gérer vos propres serveurs ?
Avez-vous besoin de l’ID Microsoft Entra pour l’authentification sécurisée ?
Avez-vous besoin d’intégrer des données à partir de plusieurs sources, au-delà de votre magasin de données OLTP ?
Voulez-vous effectuer des analyses en temps réel ?
Fabric Real-Time Intelligence est un service puissant dans Fabric que vous pouvez utiliser pour extraire des insights et visualiser vos données en mouvement. Il fournit une solution de bout en bout pour les scénarios pilotés par les événements, les données de streaming et les journaux de données. Que vous gériez des Go ou des Po de données, toutes les données organisationnelles en mouvement convergent dans le hub Real-Time.
Avez-vous besoin d’utiliser des données pré-agrégées, par exemple pour fournir des modèles sémantiques qui facilitent l’analytique pour les utilisateurs professionnels ?
Si tel est le cas, choisissez une option qui prend en charge des cubes multidimensionnels ou des modèles sémantiques tabulaires.
Fournissez des agrégats pour aider les utilisateurs à calculer de manière cohérente les agrégats de données. Les données pré-agrégées peuvent également fournir une augmentation importante des performances si vous avez plusieurs colonnes sur de nombreuses lignes. Vous pouvez pré-agréger des données dans des cubes multidimensionnels ou des modèles sémantiques tabulaires.
Matrice de capacité
Les tableaux suivants résument les principales différences entre les fonctionnalités suivantes :
- Tissu
- Services d'analyse
- SQL Server Analysis Services
- SQL Server avec des index de stockage en colonnes
- SQL Database avec des index columnstore
Fonctionnalités générales
Capacité | Tissu | Services d'analyse | SQL Server Analysis Services | SQL Server avec des index de stockage en colonnes | SQL Database avec des index columnstore |
---|---|---|---|---|---|
Est un service géré | Oui | Oui | Non | Non | Oui |
MEMBRE DU PARLEMENT PROVINCIAL | Oui | Non | Non | Non | Non |
Prend en charge des cubes multidimensionnels | Non | Non | Oui | Non | Non |
Prend en charge les modèles sémantiques tabulaires | Oui | Oui | Oui | Non | Non |
Intègre facilement plusieurs sources de données | Oui | Oui | Oui | Non 1 | Non 1 |
Prend en charge l’analytique en temps réel | Oui | Non | Non | Oui | Oui |
Nécessite un processus pour copier des données à partir de sources | Facultatif 3 | Oui | Oui | Non | Non |
Intégration de Microsoft Entra | Oui | Oui | Non | Non2 | Oui |
[1] SQL Server et SQL Database ne peuvent pas interroger et intégrer plusieurs sources de données externes, mais vous pouvez créer un pipeline pour effectuer ces fonctions à l’aide de SQL Server Integration Services ou d’Azure Data Factory. Sql Server hébergé par une machine virtuelle Azure offre davantage d’options, telles que les serveurs liés et PolyBase. Pour plus d’informations, consultez Choisir une technologie d’orchestration de pipeline de données.
[2] Un compte Microsoft Entra ne prend pas en charge la connexion à SQL Server hébergé par une machine virtuelle Azure. Utilisez plutôt un compte Windows Server Active Directory de domaine.
[3] Fabric offre la possibilité d’intégrer des sources de données en déplaçant des données vers OneLake via des pipelines Azure Data Factory ou la mise en miroir. Vous pouvez également créer des raccourcis ou effectuer des analyses en temps réel sur des flux de données sans déplacer les données.
Fonctionnalités d’extensibilité
Capacité | Tissu | Services d'analyse | SQL Server Analysis Services | SQL Server avec des index de stockage en colonnes | SQL Database avec des index columnstore |
---|---|---|---|---|---|
Serveurs régionaux redondants pour assurer une haute disponibilité | Oui | Oui | Non | Oui | Oui |
Prend en charge l’augmentation de la taille des instances de la requête | Oui | Oui | Non | Oui | Oui |
Scalabilité dynamique, montée en puissance | Oui | Oui | Non | Oui | Oui |
Étapes suivantes
- Fabric, magasin de données analytiques
- Index Columnstore
- Création d’un serveur Analysis Services
- Présentation d’Azure Data Factory
- Qu’est-ce que Power BI ?