Algorithme de regroupement de séquences Microsoft

L’algorithme Microsoft Sequence Clustering est un algorithme d’analyse de séquence fourni par Microsoft SQL Server Analysis Services. Vous pouvez utiliser cet algorithme pour explorer les données qui contiennent des événements pouvant être liés en suivant des chemins d’accès ou des séquences. L’algorithme recherche les séquences les plus courantes en regroupant, ou en clustering, des séquences identiques. Voici quelques exemples de données qui contiennent des séquences qui peuvent être utilisées pour l’exploration de données, afin de fournir des informations sur les problèmes courants ou les scénarios métier :

Cliquez sur les chemins créés lorsque les utilisateurs naviguent ou parcourent un site web.
Enregistre les événements qui précèdent un incident, tels que l’échec du disque dur ou les blocages de serveur.
Enregistrements de transactions qui décrivent l’ordre dans lequel un client ajoute des articles à un panier d’achat chez un détaillant en ligne.
Enregistrements qui suivent les interactions client (ou patient) au fil du temps, pour prédire les annulations de service ou d’autres résultats médiocres.

Cet algorithme est similaire de plusieurs façons à l’algorithme Microsoft Clustering. Toutefois, au lieu de rechercher des clusters de cas qui contiennent des attributs similaires, l’algorithme Microsoft Sequence Clustering recherche des clusters de cas qui contiennent des chemins similaires dans une séquence.

Exemple :

Le site Web Adventure Works Cycles collecte des informations sur les pages que les utilisateurs visitent et sur l’ordre dans lequel les pages sont visitées. Étant donné que l’entreprise fournit des commandes en ligne, les clients doivent se connecter au site. Cela fournit à l’entreprise des informations de clic pour chaque profil client. En utilisant l’algorithme Microsoft Sequence Clustering sur ces données, l’entreprise peut trouver des groupes ou des clusters, des clients qui ont des modèles ou des séquences de clics similaires. L’entreprise peut ensuite utiliser ces clusters pour analyser la façon dont les utilisateurs passent par le site Web, pour identifier les pages qui sont les plus étroitement liées à la vente d’un produit particulier et prédire les pages les plus susceptibles d’être visitées ultérieurement.

Fonctionnement de l’algorithme

L’algorithme Microsoft Sequence Clustering est un algorithme hybride qui combine les techniques de clustering avec l’analyse de chaîne Markov pour identifier les clusters et leurs séquences. L’une des caractéristiques de l’algorithme Microsoft Sequence Clustering est qu’elle utilise des données de séquence. Ces données représentent généralement une série d’événements ou de transitions entre les états d’un jeu de données, comme une série d’achats de produits ou de clics web pour un utilisateur particulier. L’algorithme examine toutes les probabilités de transition et mesure les différences, ou distances, entre toutes les séquences possibles dans le jeu de données afin de déterminer quelles séquences sont les meilleures à utiliser comme entrées pour le clustering. Une fois l’algorithme créé la liste des séquences candidates, il utilise les informations de séquence comme entrée pour la méthode EM de clustering.

Pour obtenir une description détaillée de l’implémentation, consultez Microsoft Sequence Clustering Algorithm Technical Reference.

Données requises pour les modèles de regroupement de séquences

Lorsque vous préparez des données à utiliser lors de l’apprentissage d’un modèle de clustering de séquences, vous devez comprendre les exigences de l’algorithme particulier, y compris la quantité de données nécessaires et la façon dont les données sont utilisées.

Les conditions requises pour un modèle de clustering de séquence sont les suivantes :

Une seule colonne clé Un modèle de clustering de séquences nécessite une clé qui identifie les enregistrements.
Colonne de séquence Pour les données de séquence, le modèle doit avoir une table imbriquée qui contient une colonne d’ID de séquence. L’ID de séquence peut être n’importe quel type de données triable. Par exemple, vous pouvez utiliser un identificateur de page Web, un entier ou une chaîne de texte, tant que la colonne identifie les événements dans une séquence. Un seul identificateur de séquence est autorisé pour chaque séquence, et un seul type de séquence est autorisé dans chaque modèle.
Attributs non séquentiels facultatifs L’algorithme prend en charge l’ajout d’autres attributs qui ne sont pas liés au séquencement. Ces attributs peuvent inclure des colonnes imbriquées.

Par exemple, dans l’exemple cité précédemment du site Web Adventure Works Cycles, un modèle de clustering de séquences peut inclure des informations de commande comme table de cas, des données démographiques sur le client spécifique pour chaque commande en tant qu’attributs non séquentiels et une table imbriquée contenant la séquence dans laquelle le client a parcouru le site ou placé des éléments dans un panier d’achat comme informations de séquence.

Pour plus d’informations sur les types de contenu et les types de données pris en charge pour les modèles de clustering de séquences, consultez la section Exigences de l’algorithme microsoft Sequence Clustering Technical Reference.

Affichage d’un modèle de clustering de séquences

Le modèle d’exploration de données créé par cet algorithme contient des descriptions des séquences les plus courantes dans les données. Pour explorer le modèle, vous pouvez utiliser la visionneuse du cluster Microsoft Sequence. Lorsque vous affichez un modèle de clustering de séquences, Analysis Services affiche des clusters qui contiennent plusieurs transitions. Vous pouvez également afficher les statistiques pertinentes. Pour plus d’informations, consultez Parcourir un modèle à l’aide de la visionneuse de cluster de séquences Microsoft.

Si vous souhaitez en savoir plus, vous pouvez parcourir le modèle dans l’arborescence de contenu générique Microsoft. Le contenu stocké pour le modèle inclut la distribution de toutes les valeurs de chaque nœud, la probabilité de chaque cluster et les détails sur les transitions. Pour plus d’informations, consultez Contenu du modèle d’exploration de données pour les modèles de clustering de séquence (Analysis Services - Exploration de données).

Création de prédictions

Une fois le modèle entraîné, les résultats sont stockés sous la forme d’un ensemble de modèles. Vous pouvez utiliser les descriptions des séquences les plus courantes dans les données pour prédire l’étape probable suivante d’une nouvelle séquence. Toutefois, étant donné que l’algorithme inclut d’autres colonnes, vous pouvez utiliser le modèle résultant pour identifier les relations entre les données séquencées et les entrées qui ne sont pas séquentielles. Par exemple, si vous ajoutez des données démographiques au modèle, vous pouvez effectuer des prédictions pour des groupes spécifiques de clients. Les requêtes de prédiction peuvent être personnalisées pour retourner un nombre variable de prédictions ou pour retourner des statistiques descriptives.

Pour plus d’informations sur la création de requêtes sur un modèle d’exploration de données, consultez Requêtes d’exploration de données. Pour obtenir des exemples d’utilisation de requêtes avec un modèle de clustering de séquences, consultez Exemples de requêtes de modèle de clustering de séquence.

Remarques

Ne prend pas en charge l’utilisation de PMML (Predictive Model Markup Language) pour la création de modèles d'exploration de données.
Prend en charge l’exploration détaillée.
Prend en charge l’utilisation de modèles d’exploration de données OLAP et la création de dimensions d’exploration de données.

Voir aussi

Algorithmes d’exploration de données (Analysis Services - Exploration de données)
Informations techniques de référence sur l’algorithme de clustering de séquences Microsoft
Exemples de requêtes sur des modèles de clustering de séquence
Parcourir un modèle à l’aide de l’afficheur de regroupement de séquences Microsoft

Last updated on 2017-06-13

Partager via