Partager via


Traitement analytique en ligne

Le traitement analytique en ligne (OLAP) est une technologie qui organise les grandes bases de données métier pour effectuer des calculs complexes et une analyse des tendances. Cette méthode permet des requêtes complexes sans perturber les systèmes transactionnels.

Les transactions et enregistrements métier sont stockés dans des bases de données appelées bases de données OLTP (Online Transaction Processing), qui sont optimisées pour les entrées d’enregistrement individuelles. Ces bases de données contiennent des informations précieuses, mais elles ne sont pas conçues pour l’analyse, de sorte que la récupération des données est fastidieuse et difficile.

Pour résoudre ce problème, les systèmes OLAP extraient efficacement l’intelligence décisionnelle des données. Les bases de données OLAP sont optimisées pour les tâches de lecture intensive et de faible écriture. Ils sont modélisés et nettoyés pour une analyse efficace. Les bases de données OLAP conservent souvent les données historiques pour l’analyse de série chronologique.

Les systèmes OLAP utilisent traditionnellement des cubes de données multidimensionnels pour organiser les données d’une manière qui prend en charge les requêtes et l’analyse complexes. Le diagramme suivant illustre une architecture système OLAP traditionnelle.

Diagramme montrant une architecture logique OLAP traditionnelle dans Azure qui utilise Analysis Services.

À mesure que la technologie progresse et que les données et les échelles de calcul augmentent, les systèmes OLAP passent à des architectures de traitement massivement parallèle (MPP) que Microsoft Fabric prend en charge. Pour plus d’informations, consultez le magasin de données analytique Fabric.

Le diagramme suivant illustre une architecture système OLAP moderne.

Diagramme montrant une architecture logique OLAP moderne dans Azure qui utilise Fabric.

Modélisation sémantique

Un modèle de données sémantique est un modèle conceptuel qui décrit la signification des éléments de données qu’il contient. Les organisations ont souvent leurs propres termes pour les éléments, et parfois ces termes ont des synonymes. Les organisations peuvent également avoir des significations différentes pour le même terme. Par exemple, une base de données d’inventaire peut suivre un équipement à l’aide d’un ID de ressource et d’un numéro de série. Toutefois, une base de données de vente peut faire référence au numéro de série comme ID de ressource. Il n’existe aucun moyen simple de lier ces valeurs sans modèle qui décrit la relation.

La modélisation sémantique fournit un niveau d’abstraction sur le schéma de base de données afin que les utilisateurs n’ont pas besoin de connaître les structures de données sous-jacentes. Les utilisateurs finaux peuvent facilement interroger des données sans effectuer d’agrégats et de jointures sur le schéma sous-jacent. Les colonnes sont souvent renommées en noms plus conviviaux pour rendre le contexte et la signification des données plus évidentes.

La modélisation sémantique est prédominante pour les scénarios à forte charge de lecture, tels que l'analytique et l'informatique décisionnelle (OLAP), plutôt que pour le traitement des données transactionnelles (OLTP). La modélisation sémantique convient aux scénarios lourds en lecture en raison des caractéristiques d’une couche sémantique classique :

  • Les comportements d’agrégation sont définis de façon à ce que les outils de création de rapports les affichent correctement.
  • La logique métier et les calculs sont définis.
  • Les calculs axés sur le temps sont inclus.
  • Les données sont souvent intégrées à partir de plusieurs sources.
  • Les analyses en temps réel sont prises en charge.

En règle générale, la couche sémantique est placée sur un entrepôt de données pour ces raisons.

Diagramme montrant une couche sémantique entre un entrepôt de données et un outil de création de rapports.

Il existe deux types de modèles sémantiques principaux :

  • Les modèles tabulaires utilisent des constructions de modélisation relationnelle, telles que des modèles, des tables et des colonnes. En interne, les métadonnées sont héritées de constructions de modélisation OLAP, telles que des cubes, des dimensions et des mesures. Le code et le script utilisent des métadonnées OLAP.

  • Les modèles multidimensionnels utilisent des constructions de modélisation OLAP traditionnelles, telles que des cubes, des dimensions et des mesures.

Analysis Services et Fabric fournissent l’infrastructure et les outils nécessaires pour implémenter efficacement la modélisation sémantique.

Exemple de cas d’usage

Une organisation stocke des données dans une base de données volumineuse. Il souhaite mettre ces données à la disposition des utilisateurs professionnels et des clients pour créer leurs propres rapports et effectuer une analyse.

Ils peuvent donner aux utilisateurs un accès direct à la base de données, mais cette option présente des inconvénients, notamment la gestion de la sécurité et le contrôle d’accès. Et les utilisateurs peuvent avoir des difficultés à comprendre la conception de la base de données, y compris les noms des tables et des colonnes. Cette option nécessite que les utilisateurs sachent quelles tables interroger, comment ces tables doivent être jointes et comment appliquer d’autres logiques métier pour obtenir les résultats corrects. Les utilisateurs doivent également connaître un langage de requête tel que SQL. En règle générale, cette option conduit à plusieurs utilisateurs à signaler les mêmes métriques, mais avec des résultats différents.

Une meilleure option consiste à encapsuler toutes les informations dont les utilisateurs ont besoin dans un modèle sémantique. Les utilisateurs peuvent interroger plus facilement le modèle sémantique à l’aide d’un outil de création de rapports de leur choix. Les données que fournit le modèle sémantique proviennent d’un entrepôt de données, ce qui garantit que tous les utilisateurs affichent une seule source de vérité. Le modèle sémantique fournit également des noms de tables et de colonnes conviviales, définit les relations entre les tables, inclut des descriptions et des calculs, et applique la sécurité au niveau des lignes.

Caractéristiques par défaut de la modélisation sémantique

La modélisation sémantique et le traitement analytique ont tendance à avoir les caractéristiques suivantes.

Besoin Descriptif
Schéma Schéma lors de l’écriture, fortement appliqué
Utilisent des transactions Non
Stratégie de verrouillage Aucun
Peut être mise à jour Non, il nécessite généralement de recalculer le cube
Modifiable Non, il nécessite généralement de recalculer le cube
Charge de travail Lectures intensives, en lecture seule
Indexation Indexation multidimensionnelle
Taille de donnée Petite à très grande taille
Modèle Tabulaire ou multidimensionnel
Forme des données Schéma cube, étoile ou flocon
Flexibilité de requête Très flexible
Échelle Grande, de centaines de gigaoctets (Go) à plusieurs pétaoctets (Po)

Quand utiliser cette solution ?

Envisagez d’utiliser OLAP pour les scénarios suivants :

  • Vous devez exécuter rapidement des requêtes analytiques et à la demande complexes, sans affecter négativement vos systèmes OLTP.

  • Vous souhaitez fournir aux utilisateurs professionnels un moyen simple de générer des rapports à partir de vos données.

  • Vous souhaitez fournir plusieurs agrégations qui permettent aux utilisateurs d’obtenir des résultats rapides et cohérents.

OLAP est particulièrement utile pour appliquer des calculs d’agrégats sur de grandes quantités de données. Les systèmes OLAP sont optimisés pour les scénarios lourds en lecture. OLAP permet également aux utilisateurs de segmenter les données multidimensionnelles en tranches qu'ils peuvent afficher en deux dimensions, telles qu'un tableau croisé dynamique. Elles peuvent également filtrer les données en fonction de valeurs spécifiques. Les utilisateurs peuvent effectuer ces processus, appelés découpage et segmentation des données, que celles-ci soient partitionnées ou non entre plusieurs sources de données. Les utilisateurs peuvent facilement explorer les données sans connaître les détails de l’analyse traditionnelle des données.

Des modèles sémantiques peuvent aider les utilisateurs professionnels à faire abstraction de la complexité des relations et faciliter l’analyse rapide de données.

Défis

Les systèmes OLAP produisent également des défis :

  • Les transactions qui circulent à partir de différentes sources mettent constamment à jour les données dans les systèmes OLTP. Les magasins de données OLAP s’actualisent généralement à intervalles beaucoup plus lents, en fonction des besoins de l’entreprise. Les systèmes OLAP répondent aux décisions stratégiques de l’entreprise, plutôt que des réponses immédiates aux changements. Vous devez également planifier un certain niveau de nettoyage et d’orchestration des données pour conserver les magasins de données OLAP up-to-date.

  • Contrairement aux tables relationnelles traditionnelles normalisées dans les systèmes OLTP, les modèles de données OLAP ont tendance à être multidimensionnels. Il est donc difficile ou impossible de les mapper directement aux modèles orientés entité-relation ou objet, où chaque attribut correspond à une colonne. Au lieu de cela, les systèmes OLAP utilisent généralement un schéma en étoile ou en flocon au lieu de la normalisation traditionnelle.

OLAP dans Azure

Dans Azure, les données des systèmes OLTP, comme Azure SQL Database, sont copiées dans des systèmes OLAP tels que Fabric ou Analysis Services. Les outils d’exploration et de visualisation des données tels que Power BI, Excel et non-Microsoft se connectent aux serveurs Analysis Services et fournissent aux utilisateurs des insights hautement interactifs et visuellement riches sur les données modélisées. Vous pouvez utiliser SQL Server Integration Services pour orchestrer le flux de données des systèmes OLTP vers les systèmes OLAP. Pour implémenter SQL Server Integration Services, utilisez Azure Data Factory.

Les magasins de données Azure suivants répondent aux exigences principales pour OLAP :

SQL Server Analysis Services fournit des fonctionnalités OLAP et d’exploration de données pour les applications décisionnels. Vous pouvez installer SQL Server Analysis Services sur des serveurs locaux ou l’héberger dans une machine virtuelle dans Azure. Analysis Services est un service entièrement géré qui fournit les mêmes fonctionnalités majeures que SQL Server Analysis Services. Analysis Services prend en charge la connexion à différentes sources de données dans le cloud et localement dans votre organisation.

Les index columnstore en cluster sont disponibles dans SQL Server 2014 et versions ultérieures et dans SQL Database. Ces index sont idéaux pour les charges de travail OLAP. À compter de SQL Server 2016, y compris SQL Database, vous pouvez tirer parti du traitement transactionnel et analytique hybride (HTAP) via des index columnstore non cluster pouvant être mis à jour. Utilisez HTAP pour effectuer le traitement OLTP et OLAP sur la même plateforme. Cette approche élimine la nécessité de plusieurs copies de vos données et de systèmes OLTP et OLAP distincts. Pour plus d’informations, consultez Columnstore pour l’analytique opérationnelle en temps réel.

Critères de sélection principaux

Pour limiter les choix, répondez aux questions suivantes :

  • Voulez-vous un service managé plutôt que de gérer vos propres serveurs ?

  • Avez-vous besoin de l’ID Microsoft Entra pour l’authentification sécurisée ?

  • Avez-vous besoin d’intégrer des données à partir de plusieurs sources, au-delà de votre magasin de données OLTP ?

  • Voulez-vous effectuer des analyses en temps réel ?

    Fabric Real-Time Intelligence est un service puissant dans Fabric que vous pouvez utiliser pour extraire des insights et visualiser vos données en mouvement. Il fournit une solution de bout en bout pour les scénarios pilotés par les événements, les données de streaming et les journaux de données. Que vous gériez des Go ou des Po de données, toutes les données organisationnelles en mouvement convergent dans le hub Real-Time.

  • Avez-vous besoin d’utiliser des données pré-agrégées, par exemple pour fournir des modèles sémantiques qui facilitent l’analytique pour les utilisateurs professionnels ?

    Si tel est le cas, choisissez une option qui prend en charge des cubes multidimensionnels ou des modèles sémantiques tabulaires.

    Fournissez des agrégats pour aider les utilisateurs à calculer de manière cohérente les agrégats de données. Les données pré-agrégées peuvent également fournir une augmentation importante des performances si vous avez plusieurs colonnes sur de nombreuses lignes. Vous pouvez pré-agréger des données dans des cubes multidimensionnels ou des modèles sémantiques tabulaires.

Matrice de capacité

Les tableaux suivants résument les principales différences entre les fonctionnalités suivantes :

  • Tissu
  • Services d'analyse
  • SQL Server Analysis Services
  • SQL Server avec des index de stockage en colonnes
  • SQL Database avec des index columnstore

Fonctionnalités générales

Capacité Tissu Services d'analyse SQL Server Analysis Services SQL Server avec des index de stockage en colonnes SQL Database avec des index columnstore
Est un service géré Oui Oui Non Non Oui
MEMBRE DU PARLEMENT PROVINCIAL Oui Non Non Non Non
Prend en charge des cubes multidimensionnels Non Non Oui Non Non
Prend en charge les modèles sémantiques tabulaires Oui Oui Oui Non Non
Intègre facilement plusieurs sources de données Oui Oui Oui Non 1 Non 1
Prend en charge l’analytique en temps réel Oui Non Non Oui Oui
Nécessite un processus pour copier des données à partir de sources Facultatif 3 Oui Oui Non Non
Intégration de Microsoft Entra Oui Oui Non Non2 Oui

[1] SQL Server et SQL Database ne peuvent pas interroger et intégrer plusieurs sources de données externes, mais vous pouvez créer un pipeline pour effectuer ces fonctions à l’aide de SQL Server Integration Services ou d’Azure Data Factory. Sql Server hébergé par une machine virtuelle Azure offre davantage d’options, telles que les serveurs liés et PolyBase. Pour plus d’informations, consultez Choisir une technologie d’orchestration de pipeline de données.

[2] Un compte Microsoft Entra ne prend pas en charge la connexion à SQL Server hébergé par une machine virtuelle Azure. Utilisez plutôt un compte Windows Server Active Directory de domaine.

[3] Fabric offre la possibilité d’intégrer des sources de données en déplaçant des données vers OneLake via des pipelines Azure Data Factory ou la mise en miroir. Vous pouvez également créer des raccourcis ou effectuer des analyses en temps réel sur des flux de données sans déplacer les données.

Fonctionnalités d’extensibilité

Capacité Tissu Services d'analyse SQL Server Analysis Services SQL Server avec des index de stockage en colonnes SQL Database avec des index columnstore
Serveurs régionaux redondants pour assurer une haute disponibilité Oui Oui Non Oui Oui
Prend en charge l’augmentation de la taille des instances de la requête Oui Oui Non Oui Oui
Scalabilité dynamique, montée en puissance Oui Oui Non Oui Oui

Étapes suivantes