Algorithme MSC (Microsoft Sequence Clustering)
L’algorithme microsoft sequence clustering est un algorithme d’analyse de séquence fourni par Microsoft SQL Server Analysis Services. Vous pouvez utiliser cet algorithme pour explorer les données qui contiennent des événements qui peuvent être liés en suivant des chemins d’accès ou des séquences. L'algorithme recherche les séquences les plus communes en groupant, ou en regroupant en clusters, les séquences identiques. Voici quelques exemples de données qui contiennent des séquences qui peuvent être utilisées pour l'exploration de données, pour fournir des précisions sur des problèmes courants ou des scénarios d'entreprise :
Séquence de clics qui sont créées lorsque les utilisateurs parcourent un site Web.
Journaux qui répertorient les événements précédant un incident, tels que la défaillance d'un disque dur ou le blocage d'un serveur.
Enregistrements de transaction qui décrivent l'ordre dans lequel un client ajoute des articles dans son panier d'achat sur un site de vente en ligne.
Enregistrements qui suivent les interactions du client (ou du patient) au fil du temps, pour prévoir les annulations de service ou d'autres résultats de qualité médiocre.
Cet algorithme est similaire à bien des égards à l’algorithme de clustering Microsoft. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l’algorithme Microsoft Sequence Clustering recherche des clusters de cas qui contiennent des chemins d’accès similaires dans une séquence.
Exemple
Le site Web Adventure Works Cycles collecte des informations sur les pages que les utilisateurs du site visitent et sur l’ordre dans lequel les pages sont visitées. Comme la société permet de commander en ligne, les clients doivent se connecter au site. Cela fournit à la société des informations sur les clics effectués pour chaque profil de client. À l’aide de l’algorithme Microsoft Sequence Clustering sur ces données, l’entreprise peut trouver des groupes, ou des clusters, de clients qui ont des modèles ou des séquences de clics similaires. La société peut ensuite utiliser ces clusters pour analyser comment les utilisateurs se déplacent sur le site Web, pour identifier les pages les plus étroitement liées à la vente d'un produit particulier et pour prévoir les pages qui ont le plus de chance d'être consultées ensuite.
Fonctionnement de l'algorithme
L’algorithme Microsoft Sequence Clustering est un algorithme hybride qui combine des techniques de clustering avec l’analyse de chaîne Markov pour identifier les clusters et leurs séquences. L’une des caractéristiques de l’algorithme Microsoft Sequence Clustering est qu’il utilise des données de séquence. Ces données représentent généralement une série d'événements ou de transitions entre des états dans un dataset, comme par exemple une série d'achats de produits ou de clics Web pour un utilisateur particulier. L’algorithme examine toutes les probabilités de transitions et mesure les différences, ou distances, entre toutes les séquences possibles dans le dataset pour identifier les séquences les mieux adaptées pour servir d’entrées au clustering. Une fois que l'algorithme a créé la liste des séquences candidates, il utilise les informations de séquence comme entrée pour la méthode EM de clustering.
Pour obtenir une description détaillée de l’implémentation, consultez Références techniques relatives à l’algorithme MSC (Microsoft Sequence Clustering).
Données requises pour les modèles Sequence Clustering
Lorsque vous préparez des données à utiliser pour l'apprentissage d'un modèle Sequence Clustering, vous devez comprendre les spécifications liées à l'algorithme, y compris la quantité de données requises et le mode d'utilisation des données.
Les spécifications d'un modèle Sequence Clustering sont les suivantes :
Une seule colonne clé Un modèle Sequence Clustering requiert une clé qui identifie les enregistrements.
Colonne de séquence Pour les données de séquence, le modèle doit avoir une table imbriquée qui contient une colonne d’ID de séquence. L'ID de séquence peut être tout type de données pouvant être trié. Par exemple, vous pouvez utiliser un identificateur de page Web, un entier ou une chaîne de texte, tant que la colonne identifie les événements dans une séquence. Un seul identificateur de séquence est autorisé pour chaque séquence, et un seul type de séquence est autorisé dans chaque modèle.
Des attributs non-séquence facultatifs L’algorithme prend en charge l’ajout d’autres attributs non liés à un séquencement. Ces attributs peuvent inclure des colonnes imbriquées.
Par exemple, dans l’exemple cité précédemment du site Web Adventure Works Cycles, un modèle de séquence clustering peut inclure des informations de commande en tant que table de cas, des données démographiques sur le client spécifique pour chaque commande en tant qu’attributs non-séquences et une table imbriquée contenant la séquence dans laquelle le client a parcouru le site ou placé des éléments dans un panier d’achat en tant qu’informations de séquence.
Pour des informations plus détaillées sur les types de contenu et les types de données pris en charge pour les modèles Sequence Clustering, consultez la section relative aux spécifications dans Références techniques relatives à l’algorithme MSC (Microsoft Sequence Clustering).
Affichage d'un modèle Sequence Clustering
Le modèle d'exploration de données que crée cet algorithme contient les descriptions des séquences les plus courantes dans les données. Pour explorer le modèle, vous pouvez utiliser la Visionneuse de l’algorithme MSC (Microsoft Sequence Cluster). Lorsque vous affichez une séquence clustering modèle, Analysis Services affiche les clusters qui contiennent plusieurs transitions. Vous pouvez également afficher des statistiques pertinentes. Pour plus d’informations, consultez Explorer un modèle à l’aide de la visionneuse de l’algorithme MSC (Microsoft Sequence Cluster).
Si vous voulez en savoir plus, vous pouvez parcourir le modèle dans la Visionneuse de l’arborescence de contenu générique Microsoft. Le contenu stocké pour le modèle inclut la distribution de toutes les valeurs dans chaque nœud, la probabilité de chaque cluster et des détails concernant les transitions. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering de séquence (Analysis Services - Exploration de données).
Création de prédictions
Après l'apprentissage d'un modèle, les résultats sont stockés sous la forme d'un jeu de modèles. Vous pouvez utiliser les descriptions des séquences les plus courantes dans les données pour prévoir l'étape probable suivante d'une nouvelle séquence. Toutefois, comme l'algorithme inclut d'autres colonnes, vous pouvez utiliser le modèle obtenu pour identifier les relations entre les données en séquence et les entrées non séquentielles. Par exemple, si vous ajoutez des données démographiques au modèle, vous pouvez effectuer des prévisions sur des groupes spécifiques de clients. Les requêtes de prédiction peuvent être personnalisées pour retourner un nombre variable de prédictions ou des statistiques descriptives.
Pour plus d’informations sur la façon de créer des requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle Sequence Clustering, consultez Exemples de requêtes de modèle MSC (Sequence Clustering).
Notes
Ne prend pas en charge l’utilisation du langage PMML (Predictive Model Markup Language) pour créer des modèles d’exploration de données.
Prend en charge l’extraction.
Prend en charge l'utilisation de modèles d'exploration de données OLAP et la création de dimensions d'exploration de données.
Voir aussi
Algorithmes d'exploration de données (Analysis Services - Exploration de données)
Références techniques relatives à l'algorithme MSC (Microsoft Sequence Clustering)
Sequence Clustering Model Query Examples
Explorer un modèle à l'aide de la visionneuse de l'algorithme MSC (Microsoft Sequence Cluster)