Algorithmes d’exploration de données (Analysis Services - Exploration de données)

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et a maintenant été abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez la compatibilité descendante des Analysis Services.

Un algorithme dans l’exploration de données (ou machine learning) est un ensemble d’heuristiques et de calculs qui créent un modèle à partir de données. Pour créer un modèle, l’algorithme analyse d’abord les données que vous fournissez, en recherchant des types spécifiques de modèles ou de tendances. L’algorithme utilise les résultats de cette analyse sur de nombreuses itérations pour trouver les paramètres optimaux pour créer le modèle d’exploration de données. Ces paramètres sont ensuite appliqués dans l’ensemble du jeu de données pour extraire des modèles actionnables et des statistiques détaillées.

Le modèle d’exploration de données créé par un algorithme à partir de vos données peut prendre différentes formes, notamment :

Ensemble de clusters qui décrivent la façon dont les cas d’un jeu de données sont liés.
Arbre de décision qui prédit un résultat et décrit comment différents critères affectent ce résultat.
Modèle mathématique qui prévoit les ventes.
Ensemble de règles qui décrivent comment les produits sont regroupés dans une transaction et les probabilités que les produits soient achetés ensemble.

Les algorithmes fournis dans l’exploration de données SQL Server sont les méthodes les plus populaires et bien étudiées de dérivation de modèles à partir de données. À titre d'exemple, le clustering K-Moyennes est l'un des algorithmes de regroupement les plus anciens et est largement disponible dans de nombreux outils, avec diverses implémentations et options. Toutefois, l’implémentation particulière du clustering K-moyennes utilisée dans l’exploration de données SQL Server a été développée par Microsoft Research, puis optimisée pour les performances avec SQL Server Analysis Services. Tous les algorithmes d’exploration de données Microsoft peuvent être largement personnalisés et sont entièrement programmables à l’aide des API fournies. Vous pouvez également automatiser la création, l’entraînement et la réentraînement des modèles à l’aide des composants d’exploration de données dans Integration Services.

Vous pouvez également utiliser des algorithmes tiers conformes à la spécification OLE DB pour l’exploration de données, ou développer des algorithmes personnalisés qui peuvent être inscrits en tant que services, puis utilisés dans l’infrastructure d’exploration de données SQL Server.

Choix de l’algorithme approprié

Choisir le meilleur algorithme à utiliser pour une tâche analytique spécifique peut être un défi. Bien que vous puissiez utiliser différents algorithmes pour effectuer la même tâche métier, chaque algorithme produit un résultat différent et certains algorithmes peuvent produire plusieurs types de résultats. Par exemple, vous pouvez utiliser l’algorithme Microsoft Decision Trees non seulement pour la prédiction, mais également pour réduire le nombre de colonnes dans un jeu de données, car l’arbre de décision peut identifier les colonnes qui n’affectent pas le modèle d’exploration de données final.

Choix d’un algorithme par type

L’exploration de données SQL Server inclut les types d’algorithmes suivants :

Les algorithmes de classification prédisent une ou plusieurs variables discrètes, en fonction des autres attributs du jeu de données.
Les algorithmes de régression prédisent une ou plusieurs variables numériques continues, telles que le bénéfice ou la perte, en fonction d’autres attributs du jeu de données.
Les algorithmes de segmentation divisent les données en groupes, ou clusters, d’éléments qui ont des propriétés similaires.
Les algorithmes d’association recherchent des corrélations entre différents attributs dans un jeu de données. L’application la plus courante de ce type d’algorithme consiste à créer des règles d’association, qui peuvent être utilisées dans une analyse du panier de marché.
Les algorithmes d’analyse de séquence résument les séquences fréquentes ou les épisodes dans les données, tels qu’une série de clics dans un site web ou une série d’événements de journal précédant la maintenance de l’ordinateur.

Toutefois, il n’existe aucune raison pour laquelle vous devez être limité à un algorithme dans vos solutions. Les analystes expérimentés utilisent parfois un algorithme pour déterminer les entrées les plus efficaces (c’est-à-dire les variables), puis appliquer un autre algorithme pour prédire un résultat spécifique en fonction de ces données. L’exploration de données SQL Server vous permet de créer plusieurs modèles sur une seule structure d’exploration de données. Dans une seule solution d’exploration de données, vous pouvez utiliser un algorithme de clustering, un modèle d’arbre de décision et un modèle Naïve Bayes pour obtenir différentes vues sur vos données. Vous pouvez également utiliser plusieurs algorithmes au sein d’une seule solution pour effectuer des tâches distinctes : par exemple, vous pouvez utiliser la régression pour obtenir des prévisions financières et utiliser un algorithme de réseau neuronal pour effectuer une analyse des facteurs qui influencent les prévisions.

Choix d’un algorithme par tâche

Pour vous aider à sélectionner un algorithme à utiliser avec une tâche spécifique, le tableau suivant fournit des suggestions pour les types de tâches pour lesquels chaque algorithme est traditionnellement utilisé.

Exemples de tâches	Algorithmes Microsoft à utiliser
Prédiction d’un attribut discret : Marquer les clients dans une liste d’acheteurs potentiels comme des prospects bons ou médiocres. Calculez la probabilité qu’un serveur échoue au cours des 6 prochains mois. Catégorisez les résultats des patients et explorez les facteurs connexes.	Algorithme d’arbres de décision Microsoft Algorithme Microsoft Naive Bayes Microsoft Clustering Algorithm Algorithme de réseau neuronal Microsoft
Prédiction d’un attribut continu : Prévoir les ventes de l’année prochaine. Prédire les visiteurs du site en fonction des tendances historiques et saisonnières passées. Générer un score de risque donné en fonction des données démographiques.	Algorithme d’arbres de décision Microsoft Algorithme Microsoft Time Series Algorithme de régression linéaire Microsoft
Prédiction d’une séquence : Effectuez une analyse clickstream du site web d’une entreprise. Analysez les facteurs qui entraînent une défaillance du serveur. Capturez et analysez les séquences d’activités pendant les visites externes, afin de formuler les meilleures pratiques autour des activités courantes.	Algorithme de clustering de séquences Microsoft
Recherche de groupes d’éléments courants dans les transactions : Utilisez l’analyse du panier de marché pour déterminer le placement des produits. Suggérer des produits supplémentaires à un client pour l’achat. Analysez les données d’enquête des visiteurs à un événement, pour déterminer quelles activités ou kiosques ont été corrélés, pour planifier les activités futures.	Algorithme d’association Microsoft Algorithme d’arbres de décision Microsoft
Recherche de groupes d’éléments similaires : Créez des groupes de profils de risque pour les patients en fonction d’attributs tels que les données démographiques et les comportements. Analysez les utilisateurs en fonction de leurs habitudes de navigation et d'achat. Identifiez les serveurs qui ont des caractéristiques d’utilisation similaires.	Microsoft Clustering Algorithm Algorithme de clustering de séquences Microsoft

La section suivante fournit des liens vers des ressources d’apprentissage pour chacun des algorithmes d’exploration de données fournis dans l’exploration de données SQL Server :

Description de l’algorithme de base : explique ce que fait l’algorithme et son fonctionnement, et décrit les scénarios métier possibles où l’algorithme peut être utile.
Référence technique : fournit des détails techniques sur l’implémentation de l’algorithme, avec des références académiques si nécessaire. Répertorie les paramètres que vous pouvez définir pour contrôler le comportement de l’algorithme et personnaliser les résultats dans le modèle. Décrit les exigences de données et fournit des conseils de performances si possible.
Contenu du modèle : explique comment les informations sont structurées dans chaque type de modèle d’exploration de données et explique comment interpréter les informations stockées dans chacun des nœuds.
Requêtes d’exploration de données : fournit plusieurs requêtes que vous pouvez utiliser avec chaque type de modèle. Les exemples incluent des requêtes de contenu qui vous permettent d’en savoir plus sur les modèles dans le modèle et les requêtes de prédiction pour vous aider à créer des prédictions basées sur ces modèles.

Topic	Description
Déterminer l’algorithme utilisé par un modèle d’exploration de données	Interroger les paramètres utilisés pour créer un modèle d’exploration de données
Créer un algorithme de Plug-In personnalisé	Algorithmes de plug-in
Explorer un modèle à l’aide d’une visionneuse spécifique à un algorithme	Visionneuses de modèles d’exploration de données
Afficher le contenu d’un modèle à l’aide d’un format de tableau générique	Parcourir un modèle à l’aide de l’arborescence de contenu générique Microsoft
Découvrez comment configurer vos données et utiliser des algorithmes pour créer des modèles	Structures d’exploration de données (Analysis Services - Exploration de données) Modèles d’exploration de données (Analysis Services - Exploration de données)

Voir aussi

Outils d’exploration de données

Commentaires

Cette page a-t-elle été utile ?

Last updated on 2026-02-03