Algorithme MSC (Microsoft Sequence Clustering)

Article
10/31/2023

S’applique à : SQL Server 2019 et versions antérieures d’Analysis Services Azure Analysis Services Fabric/Power BI Premium

Important

L’exploration de données a été déconseillée dans SQL Server 2017 Analysis Services et est à présent abandonnée dans SQL Server 2022 Analysis Services. La documentation n’est pas mise à jour pour les fonctionnalités déconseillées et abandonnées. Pour en savoir plus, consultez Compatibilité descendante d’Analysis Services.

L’algorithme microsoft sequence clustering est un algorithme unique qui combine l’analyse de séquence avec clustering. Cet algorithme vous permet d’explorer des données qui contiennent des événements qui peuvent être liés en une séquence. L’algorithme recherche les séquences les plus courantes et effectue clustering pour rechercher des séquences similaires. Les exemples suivants illustrent les types de séquences susceptibles d’être capturées en tant que données d’apprentissage automatique, pour fournir des indications sur des problèmes courants ou des scénarios d’entreprise :

Parcours de visite générés quand les utilisateurs parcourent un site web
Journaux qui répertorient les événements précédant un incident, tels que la défaillance d’un disque dur ou le blocage d’un serveur
Enregistrements de transaction qui décrivent l’ordre dans lequel un client ajoute des articles dans son panier d’achat en ligne
Enregistrements qui suivent les interactions du client ou du patient au fil du temps, pour prévoir les annulations de service ou d’autres résultats de qualité médiocre

Cet algorithme est similaire à bien des égards à l’algorithme de clustering Microsoft. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l’algorithme de clustering de séquences Microsoft recherche des clusters de cas qui contiennent des chemins d’accès similaires dans une séquence.

Exemple

Le site web Adventure Works Cycles collecte des informations sur les pages que les utilisateurs visitent et sur l’ordre dans lequel les pages sont visitées. Comme la société permet de commander en ligne, les clients doivent se connecter au site. Cela fournit à la société des informations sur les clics effectués pour chaque profil de client. En utilisant l’algorithme microsoft sequence clustering sur ces données, l’entreprise peut trouver des groupes, ou des clusters, de clients qui ont des modèles ou des séquences de clics similaires. La société peut ensuite utiliser ces clusters pour analyser comment les utilisateurs se déplacent sur le site Web, pour identifier les pages les plus étroitement liées à la vente d'un produit particulier et pour prévoir les pages qui ont le plus de chance d'être consultées ensuite.

Fonctionnement de l'algorithme

L’algorithme de clustering de séquences Microsoft est un algorithme hybride qui combine des techniques de clustering avec l’analyse de chaîne Markov pour identifier les clusters et leurs séquences. L’une des caractéristiques de l’algorithme microsoft sequence clustering est qu’il utilise des données de séquence. Ces données représentent généralement une série d'événements ou de transitions entre des états dans un dataset, comme par exemple une série d'achats de produits ou de clics Web pour un utilisateur particulier. L’algorithme examine toutes les probabilités de transitions et mesure les différences, ou distances, entre toutes les séquences possibles dans le dataset pour identifier les séquences les mieux adaptées pour servir d’entrées au clustering. Une fois que l’algorithme a créé la liste des séquences candidates, il utilise les informations de séquence comme entrée pour le clustering en utilisant l’espérance-maximisation (EM, Expectation maximization).

Pour obtenir une description détaillée de l’implémentation, consultez Références techniques relatives à l’algorithme MSC (Microsoft Sequence Clustering).

Données requises pour les modèles Sequence Clustering

Lorsque vous préparez des données à utiliser pour l'apprentissage d'un modèle Sequence Clustering, vous devez comprendre les spécifications liées à l'algorithme, y compris la quantité de données requises et le mode d'utilisation des données.

Les spécifications d'un modèle Sequence Clustering sont les suivantes :

Une seule colonne clé Un modèle Sequence Clustering requiert une clé qui identifie les enregistrements.
Colonne de séquence Pour les données de séquence, le modèle doit avoir une table imbriquée qui contient une colonne d’ID de séquence. L’ID de séquence peut être tout type de données pouvant être trié. Par exemple, vous pouvez utiliser un identificateur de page Web, un entier ou une chaîne de texte, tant que la colonne identifie les événements dans une séquence. Un seul identificateur de séquence est autorisé pour chaque séquence, et un seul type de séquence est autorisé dans chaque modèle.
Des attributs non-séquence facultatifs L’algorithme prend en charge l’ajout d’autres attributs non liés à un séquencement. Ces attributs peuvent inclure des colonnes imbriquées.

Par exemple, dans l’exemple cité précédemment du site Web Adventure Works Cycles, un modèle de séquence clustering peut inclure des informations de commande sous forme de table de cas, des données démographiques sur le client spécifique pour chaque commande en tant qu’attributs non séquentiels et une table imbriquée contenant la séquence dans laquelle le client a parcouru le site ou placé des éléments dans un panier d’achat en tant qu’informations de séquence.

Pour des informations plus détaillées sur les types de contenu et les types de données pris en charge pour les modèles Sequence Clustering, consultez la section relative aux spécifications dans Références techniques relatives à l’algorithme MSC (Microsoft Sequence Clustering).

Affichage d'un modèle Sequence Clustering

Le modèle d'exploration de données que crée cet algorithme contient les descriptions des séquences les plus courantes dans les données. Pour explorer le modèle, vous pouvez utiliser la Visionneuse de l’algorithme MSC (Microsoft Sequence Cluster). Lorsque vous affichez une séquence clustering modèle, SQL Server Analysis Services affiche les clusters qui contiennent plusieurs transitions. Vous pouvez également afficher des statistiques pertinentes. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse de l’algorithme MSC (Microsoft Sequence Cluster).

Si vous voulez en savoir plus, vous pouvez parcourir le modèle dans la Visionneuse de l’arborescence de contenu générique Microsoft. Le contenu stocké pour le modèle inclut la distribution de toutes les valeurs dans chaque nœud, la probabilité de chaque cluster et des détails concernant les transitions. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering séquentiels (Analysis Services - Exploration de données).

Création de prédictions

Après l'apprentissage d'un modèle, les résultats sont stockés sous la forme d'un jeu de modèles. Vous pouvez utiliser les descriptions des séquences les plus courantes dans les données pour prévoir l'étape probable suivante d'une nouvelle séquence. Toutefois, comme l'algorithme inclut d'autres colonnes, vous pouvez utiliser le modèle obtenu pour identifier les relations entre les données en séquence et les entrées non séquentielles. Par exemple, si vous ajoutez des données démographiques au modèle, vous pouvez effectuer des prévisions sur des groupes spécifiques de clients. Les requêtes de prédiction peuvent être personnalisées pour retourner un nombre variable de prédictions ou des statistiques descriptives.

Pour plus d’informations sur la façon de créer des requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle Sequence Clustering, consultez Exemples de requêtes de modèle MSC (Sequence Clustering).

Remarques

Ne prend pas en charge l’utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d’exploration de données.
Prend en charge l’extraction.
Prend en charge l'utilisation de modèles d'exploration de données OLAP et la création de dimensions d'exploration de données.

Voir aussi

Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
Sequence Clustering Model Query Examples
Explorer un modèle à l'aide de la visionneuse de l'algorithme MSC (Microsoft Sequence Cluster)

Partager via