Algorithmes d'exploration de données (Analysis Services - Exploration de données)

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

Un algorithme d’exploration de données est un ensemble d’heuristiques et de calculs qui crée un modèle d’exploration de données à partir de données. Pour créer un modèle, l'algorithme analyse d'abord les données que vous fournissez, à la recherche de types spécifiques de modèles ou de tendances. L’algorithme utilise les résultats de cette analyse sur plusieurs itérations pour trouver les paramètres optimaux pour la création du modèle d’exploration de données. Ensuite, ces paramètres sont appliqués au jeu de données entier pour extraire des modèles utilisables et des statistiques détaillées.

Le modèle d'exploration de données qu'un algorithme crée à partir de vos données peut prendre des formes variées, dont les suivantes :

  • Un ensemble de clusters qui décrivent la manière dont les cas sont liés dans un dataset.

  • Un arbre de décision qui prédit les résultats et décrit comment les différents critères affectent ces résultats.

  • Un modèle mathématique permettant de prévoir les ventes.

  • Un ensemble de règles qui décrivent la manière dont les produits sont regroupés dans une transaction et les probabilités que les produits soient achetés ensemble.

Les algorithmes fournis dans SQL Server l’exploration de données sont les méthodes les plus populaires et les mieux documentées pour la dérivation de modèles à partir de données. Pour prendre un exemple, K-moyennes clustering est l’un des algorithmes de clustering les plus anciens et est largement disponible dans de nombreux outils différents et avec de nombreuses implémentations et options différentes. Toutefois, l’implémentation particulière des K-moyennes clustering utilisées dans SQL Server’exploration de données a été développée par Microsoft Research, puis optimisée pour les performances avec SQL Server Analysis Services. Tous les algorithmes d’exploration de données Microsoft sont largement personnalisables et entièrement programmables à l’aide des API fournies. Vous pouvez également automatiser la création, l’entraînement et la reformation de modèles à l’aide des composants d’exploration de données dans Integration Services.

Vous pouvez également utiliser des algorithmes tiers qui sont conformes à la spécification OLE DB pour l'exploration de données, ou développer des algorithmes personnalisés qui peuvent être inscrits en tant que services, puis utilisés dans l'infrastructure d'exploration de données SQL Server.

Choix de l'algorithme adéquat

Le choix du meilleur algorithme à utiliser pour une tâche analytique spécifique peut être un véritable défi. Vous pouvez utiliser des algorithmes différents pour effectuer la même tâche professionnelle, mais chaque algorithme produit un résultat différent et certains algorithmes peuvent produire plusieurs types de résultats. Par exemple, vous pouvez utiliser l'algorithme MDT (Microsoft Decision Trees) non seulement pour les prédictions, mais aussi pour réduire le nombre de colonnes d'un jeu de données, car l'arbre de décision peut identifier les colonnes qui n'ont aucune incidence sur le modèle d'exploration de données final.

Choix d'un algorithme par type

SQL Server l’exploration de données comprend les types d’algorithmes suivants :

  • Lesalgorithmes de classification prévoient une ou plusieurs variables discrètes, en fonction des autres attributs du jeu de données.

  • Lesalgorithmes de régression prévoient une ou plusieurs variables continues, telles que les bénéfices ou les pertes, en fonction d’autres attributs du jeu de données.

  • Lesalgorithmes de segmentation répartissent les données dans des groupes (ou clusters) d’éléments possédant des propriétés similaires.

  • Lesalgorithmes d’association recherchent des corrélations entre différents attributs d’un jeu de données. L'application la plus courante de ce genre d'algorithme concerne la création de règles d'association, utilisables dans une analyse de panier d'achat.

  • Lesalgorithmes d’analyse de séquence synthétisent les séquences ou épisodes fréquents dans des données, comme une série de clics dans un site web ou une série de d’événements de journaux précédant la maintenance d’une machine.

Toutefois, il n'y a aucune raison pour laquelle vous devriez être limité à un algorithme dans vos solutions. Les analystes expérimentés utilisent parfois un algorithme pour déterminer les entrées les plus efficaces (autrement dit, les variables), puis appliquent un algorithme différent pour prédire un résultat spécifique en fonction de ces données. SQL Server l’exploration de données vous permet de créer plusieurs modèles sur une même structure d’exploration de données. Par conséquent, au sein d’une seule solution d’exploration de données, vous pouvez utiliser un algorithme de clustering, un modèle d’arbres de décision et un modèle Naïve Bayes pour obtenir des vues différentes sur vos données. Vous pouvez également utiliser plusieurs algorithmes dans une seule solution pour effectuer des tâches distinctes : par exemple, vous pouvez utiliser la régression pour obtenir des prévisions financières et un algorithme de réseau neuronal pour effectuer une analyse des facteurs qui influencent les prévisions.

Choix d'un algorithme par tâche

Pour vous aider à sélectionner un algorithme en vue d'une utilisation avec une tâche spécifique, le tableau suivant fournit des suggestions pour les types de tâches pour lesquelles chaque algorithme est traditionnellement utilisé.

Exemples de tâches Algorithmes Microsoft à utiliser
Prédiction d’un attribut discret :

Signaler les clients dans une liste de prospects comme intéressants ou inintéressants.

Calculer la probabilité qu'un serveur échoue dans les 6 mois suivants.

Classer les résultats des patients et explorer les facteurs connexes.
Algorithme MDT (Microsoft Decision Trees)

Algorithme MNB (Microsoft Naive Bayes)

Algorithme de clustering Microsoft

Microsoft Neural Network Algorithm
Prédiction d’un attribut continu :

Prévoir les ventes de l'année suivante.

Prédire les visiteurs du site compte tendu des tendances historiques et saisonnières passées.

Générer un score de risque en fonction de données démographiques.
Algorithme MDT (Microsoft Decision Trees)

Algorithme MTS (Microsoft Time Series)

Algorithme MLR (Microsoft Linear Regression)
Prédiction d’une séquence :

Effectuer une analyse des parcours de visite du site Web d'une société.

Analyser les facteurs conduisant à la défaillance d'un serveur.

Capturer et analyser les séquences d'activités pendant les visites de patients, afin de formuler les meilleures pratiques autour des activités courantes.
Algorithme MSC (Microsoft Sequence Clustering)
Recherche de groupes d’éléments communs dans des transactions :

Utiliser l'analyse du panier d'achat pour déterminer le placement d'un produit.

Suggérer des produits supplémentaires à acheter par un client.

Analyser les données d'enquête de participants à un événement afin de rechercher les activités qui ont été mises en corrélation, pour planifier de futures activités.
Algorithme Microsoft Association

Algorithme MDT (Microsoft Decision Trees)
Recherche de groupes d’éléments similaires :

Créer des groupes de patients avec profils à risque basés sur des attributs tels que des données démographiques et des comportements.

Analyser les utilisateurs par consultation des habitudes d'achat.

Identifier les serveurs qui ont des caractéristiques d'utilisation similaires.
Algorithme de clustering Microsoft

Algorithme MSC (Microsoft Sequence Clustering)

La section suivante fournit des liens vers des ressources d’apprentissage pour chacun des algorithmes d’exploration de données fournis dans SQL Server exploration de données :

Rubrique Description
Déterminer l'algorithme utilisé par un modèle d'exploration de données Interroger les paramètres utilisés pour créer un modèle d'exploration de données
Créer un algorithme de plug-in personnalisé Algorithmes de plug-in
Explorer un modèle à l'aide d'une visionneuse d'algorithme Visionneuses de modèle d’exploration de données
Afficher le contenu d'un modèle à l'aide d'un format tabulaire générique Explorer un modèle à l'aide de la visionneuse de l'arborescence de contenu générique Microsoft
En savoir plus sur la configuration de vos données et l'utilisation d'algorithmes pour créer des modèles Structures d'exploration de données (Analysis Services – exploration de données)

Modèles d'exploration de données (Analysis Services - Exploration de données)

Voir aussi

Outils d'exploration de données