Remarque
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de vous connecter ou de modifier des répertoires.
L’accès à cette page nécessite une autorisation. Vous pouvez essayer de modifier des répertoires.
Maintenant que vous avez construit le modèle de Clustering de Séquences avec Région, vous pouvez l’explorer en utilisant le Visualiseur de Clustering de Séquences Microsoft dans l’onglet Visionneuse de Modèles d'Exploration du Concepteur d'Exploration de Données. Microsoft Sequence Cluster Viewer contient cinq onglets : Diagramme de cluster, Profils de cluster, Caractéristiques du cluster, ClusterDiscrimination et Transitions d’état. Pour plus d’informations sur l’utilisation de cette visionneuse, consultez Parcourir un modèle à l’aide de la visionneuse de cluster de séquences Microsoft.
Onglet Diagramme de regroupement
L’onglet Diagramme de cluster affiche graphiquement les clusters découverts par l’algorithme dans la base de données. La disposition du diagramme représente les relations des clusters, avec des clusters similaires regroupés ensemble. Par défaut, la nuance de chaque nœud représente la densité de tous les cas du cluster : plus la nuance du nœud est foncée, plus il contient de cas. Vous pouvez modifier la signification de l’ombrage des nœuds afin qu’il représente le support, pour chaque cluster, d’un attribut et d’un état.
Vous pouvez également renommer les clusters pour faciliter l’identification et l’utilisation des clusters cibles. Pour ce tutoriel, vous allez renommer le cluster qui a le pourcentage le plus élevé de clients de la région Pacifique et le cluster qui a le plus de cas dans l’ensemble.
Remarque
Les cas affectés à des clusters spécifiques peuvent changer lorsque vous retraitez le modèle, en fonction des données et des paramètres du modèle. En outre, si vous renommez des clusters, les noms seront perdus lorsque vous retraitez le modèle d’exploration de données.
Pour modifier l’attribut utilisé pour mettre en surbrillance des clusters
Dans la liste Variable d'ombrage, sélectionnez Modèle.
Sélectionnez La limite de cyclisme dans la liste État .
Le diagramme est mis à jour pour afficher la concentration du produit sélectionné dans chacun des clusters. Le cluster qui a l’ombrage le plus sombre contient la densité la plus élevée de capuchons cyclistes. Vous pouvez modifier la variable d’ombrage pour utiliser n’importe quel état de n’importe quelle colonne d’entrée.
Dans la liste des variables d'ombrage, sélectionnez Population.
Lorsque vous modifiez la variable d’ombrage en population, le diagramme est mis à jour pour comparer les clusters par taille. Le cluster qui a l’ombrage le plus sombre contient plus de cas que les autres clusters.
Pour renommer des nœuds dans le modèle
Remplacez la variable d'ombrage par
Region, puis définissez l’état sur Pacific.Mettez en surbrillance le nœud le plus sombre dans le graphique.
Cliquez avec le bouton droit sur ce cluster, puis sélectionnez Renommer le cluster.
Tapez le nomPacific Cluster.
Modifiez la valeur de la variable d’ombrage en population.
Dans le graphique mis à jour, recherchez le cluster le plus sombre, qui doit être le plus grand cluster. Si vous ne pouvez pas déterminer par l’ombrage quel cluster est le plus grand, placez le curseur sur chaque cluster et affichez l’info-bulle, puis choisissez le cluster qui contient le plus de cas.
Cliquez avec le bouton droit sur ce cluster, puis sélectionnez Renommer le cluster. Tapez le nouveau nom.
Largest Cluster
Vous pouvez explorer à partir du nœud qui représente le cluster pour afficher les détails des cas qui se trouvent dans chaque cluster. Cela peut être utile si vous souhaitez prendre des mesures sur les résultats de votre analyse, tels que l’envoi de courrier électronique à un client. Vous pouvez également parcourir les autres attributs des cas que vous avez inclus dans la structure, mais qui n’ont pas été utilisés dans le modèle, tels que Region et IncomeGroup. Pour plus d’informations sur l'exploration en profondeur des modèles de données vers les cas sous-jacents, consultez Requêtes d’extraction (exploration de données).
Pour creuser dans les détails à partir du diagramme en cluster
Cliquez avec le bouton droit sur
Pacific Cluster, sélectionnez Extraction, puis sélectionnez Colonnes Modèle et Structure.La boîte de dialogue Exploration approfondie s’ouvre. Les colonnes qui ne sont pas utilisées dans le modèle, mais qui sont disponibles pour l’interrogation sont précédées de structure.
Vous pouvez voir que ce cluster contient principalement des clients de la région Pacifique, avec seulement quelques clients d’autres régions.
Cliquez sur le signe plus dans la colonne imbriquée v Assoc Seq Line Items pour afficher la séquence d’éléments dans une commande client particulière.
Fermez la boîte de dialogue Drill Through.
Remarque
Le bouton Lecture vous permet de redemander les données ; cependant, cette action ne modifie pas les données affichées, sauf si le modèle a été mis à jour de manière dynamique en arrière-plan par un autre processus.
Onglet Profils de cluster
L’onglet Profils de cluster affiche les séquences qui se trouvent dans chaque cluster. Les clusters sont répertoriés dans des colonnes individuelles à droite de la colonne États .
Dans la visionneuse, la ligne Model décrit la distribution globale des éléments dans un cluster, et la ligne Model.samples contient des séquences des éléments. Chaque ligne des séquences de couleurs dans chaque cellule de la ligne Model.samples représente le comportement d’un utilisateur sélectionné de façon aléatoire dans le cluster.
Chaque couleur d’un histogramme de séquence individuel représente un modèle de produit. La légende des opérations minières vous montre les séquences de produits en utilisant à la fois le codage par couleur et les noms des modèles de produits. Si vous avez ajouté d’autres colonnes au modèle pour le clustering, comme la région ou le groupe de revenus, la visionneuse contient une ligne supplémentaire pour chaque colonne qui affiche la distribution de ces valeurs au sein de chaque cluster.
Pour afficher les séquences les plus courantes dans un cluster
Cliquez avec le bouton droit sur la ligne Model dans la colonne du cluster
Largest Cluster, puis sélectionnez Afficher la légende.La colonne Couleur contient une barre ombrée qui indique la fréquence des éléments trouvés dans des séquences. Chaque élément est représenté par une couleur différente. La colonne Signification répertorie les noms des modèles de produit pour chaque couleur. La colonne Distribution vous indique le pourcentage de cas qui contenaient cet élément dans une séquence.
Fermez la Légende du minage.
Cliquez avec le bouton droit sur la ligne Model.samples dans la colonne avec l’en-tête, Population, puis sélectionnez Afficher la légende.
Analyser la liste des séquences dans le modèle global
.La légende des mines répertorie d’abord les séquences les plus courantes, vous pouvez donc voir que Mountain Tire Tube est le premier item dans de nombreuses séquences. Cela signifie qu’un client est très susceptible de mettre le Tube Mountain Tire dans le panier d’achat en premier.
Pour accéder en profondeur aux cas depuis le visualiseur de clusters
Faites défiler vers le bas dans le volet Attribut jusqu’à ce que vous trouviez la ligne de l’attribut
Region.La ligne contient un histogramme pour chaque cluster du modèle, ainsi qu’un histogramme supplémentaire pour Population, ce qui signifie que l’ensemble entier des cas utilisés dans le modèle. Un histogramme est une barre avec des couleurs différentes, où chaque couleur représente un attribut, et la taille de la section colorée pour cet attribut représente le pourcentage de cas avec cet attribut.
Comparez les histogrammes pour les clusters que vous avez renommés
Pacific ClusteretLargest Cluster. Chaque cluster apparaît dans une colonne différente.Les deux semblent être des couleurs unies, mais elles sont différentes.
Dans la
Regionligne, placez la souris sur l’histogramme coloré pourLargest Cluster.L’info-bulle affiche les pourcentages réels de cas pour chaque région.
Cliquez avec le bouton droit sur l’histogramme coloré dans la
Regionligne pourPacific Cluster, sélectionnez Exploration détaillée, puis sélectionnez Colonnes du modèle uniquement.Déplacez la barre de défilement pour passer en revue tous les clients de ce cluster.
Encore une fois, en explorant les détails, vous pouvez voir que le cluster contient principalement des commandes de la région Pacifique, mais aussi quelques-unes des régions Amérique du Nord et Europe.
Fermez la boîte de dialogue Drill Through.
Onglet Caractéristiques du cluster
L’onglet Caractéristiques du cluster résume les transitions entre les états d’un cluster en affichant des barres qui représentent visuellement l’importance de la valeur d’attribut pour le cluster sélectionné. La colonne Variables vous indique ce que le modèle a trouvé être important pour le cluster ou la population sélectionné : une valeur particulière ou la relation entre les valeurs, appelée transition. La colonne Valeurs fournit plus de détails sur la valeur ou la transition, et la colonne Probabilité représente visuellement le poids de cet attribut ou de cette transition.
Pour afficher les attributs importants d’un cluster
Dans la liste déroulante Cluster , sélectionnez
Pacific Cluster.La liste est mise à jour pour afficher les caractéristiques du cluster que vous avez renommé
Pacific Cluster. Dans ce cluster, la caractéristique la plus importante estRegion.Suspendez la souris sur la barre ombrée dans la ligne pour
Region.La probabilité de la valeur étant Pacifique est très élevée. Pour plus d’informations sur l’interprétation de ces valeurs, consultez Microsoft Sequence Clustering Algorithm Technical Reference.
Examinez la liste des caractéristiques du cluster jusqu’à ce que vous trouviez la première ligne de transition.
Une ligne de transition contient le texte Transition dans la colonne Variables et une combinaison de valeurs d’attribut séquentiel dans la colonne Valeur . La séquence peut également contenir des points de départ et des valeurs manquantes.
Par exemple, supposons que la transition a la valeur [Start] -> Road Tire Tube. Cela signifie que les clients de ce cluster mettent souvent le tube Road Tire dans leur panier d’achat en premier. Cela peut signifier que le produit est un élément populaire que les clients recherchent en premier, ou il peut uniquement indiquer que le produit est facile à trouver sur le site d’achat.
Faites défiler la liste jusqu’à ce que vous trouviez la première transition qui n’a pas [Démarrer] ou manquante dans celle-ci.
Par exemple, supposons que vous trouviez la transition, Touring Tire, Touring Tire Tube. Cela signifie que les clients de ce cluster ont fréquemment acheté ces articles ensemble, dans cet ordre exactement.
Suspendez la souris sur la barre ombrée pour cette transition.
La probabilité de cette transition est affichée sous forme de pourcentage.
Dans la liste déroulante Cluster , sélectionnez Population (All).
La liste des attributs est mise à jour pour afficher les caractéristiques de toutes les commandes utilisées pour créer le modèle. Dans ce modèle d’exploration de données, la caractéristique la plus importante pour distinguer les clusters est
Region, avec une valeur d’Amérique du Nord.
Après avoir examiné ces tâches, vous réalisez deux choses. La première est que vous avez besoin d’un grand nombre de données pour obtenir un nombre significatif de combinaisons. Par exemple, les séquences avec les probabilités les plus élevées sont susceptibles d’inclure un état [Démarrer] ou Manquant .
La seconde est qu’il existe un fort effet de clustering sur les attributs pour Region, ce qui rend plus difficile la vue des groupes de séquences. Par conséquent, vous décidez de créer un autre modèle qui utilise uniquement des séquences et n’inclut pas les colonnes pour la région ou le revenu.
Onglet Discrimination de cluster
L’onglet Discrimination de cluster vous aide à comparer deux clusters pour déterminer quels attributs distinguent un cluster particulier d’un autre cluster. L’onglet contient quatre colonnes : Variables, Valeurs, Cluster 1 et Cluster 2. Vous pouvez choisir n’importe quel cluster à utiliser comme cluster 1 et cluster 2.
La colonne Variables vous indique le nom de l’attribut, qui peut être un nom de colonne ou une combinaison de nom de colonne et de transition de mot. La colonne Valeurs affiche la valeur exacte de l’attribut ou de la transition. Les barres ombrées des colonnes du cluster 1 et du cluster 2 indiquent la force de l’attribut dans les clusters que vous comparez. Plus la barre est longue, plus le cluster est susceptible d’inclure des cas avec cet attribut.
Pour comparer deux clusters à l’aide de l’onglet Discrimination de cluster
Dans l’onglet Discrimination du cluster , pour cluster 1, sélectionnez
Pacific Cluster.Par défaut, la sélection du cluster 2 change en complément du cluster Pacifique.
L’attribut principal qui distingue
Pacific Clusterde tous les autres cas est la région. La région est un attribut si fort pour le clustering qu’il masque d’autres attributs. Pour éviter cet effet, essayez de comparer plusieurs clusters plus petits les uns aux autres. Dans ce cas, la liste des attributs change et peut inclure davantage de transitions entre les modèles.Recherchez une ligne de transition et suspendez la souris sur la barre ombrée.
Les éléments de la colonne Valeurs peuvent inclure les états et les transitions. L’ombrage de chaque élément indique le score de discrimination. Pour en savoir plus sur la signification de différents scores, consultez Le contenu du modèle d’exploration de données pour les modèles de clustering de séquences (Analysis Services - Exploration de données)
Onglet Transitions d’état
Sous l’onglet Transitions d’état , vous pouvez sélectionner un cluster et parcourir ses transitions d’état. Si vous sélectionnez Population (All) dans la liste déroulante du cluster, le diagramme affiche la distribution des états pour l’ensemble du modèle d’exploration de données.
Chaque nœud du graphique représente un état, ou une valeur possible, des séquences que vous essayez d’analyser. La couleur d’arrière-plan des nœuds représente la fréquence de cet état. Les lignes connectent certains états, ce qui indique une transition entre les états. Vous pouvez déplacer le curseur vers le haut ou vers le bas pour modifier le seuil de probabilité des transitions. Les nombres sont associés à certains nœuds, ce qui indique la probabilité de cet état.
Pour explorer les relations dans l’onglet Transition d’état
Sous l’onglet Transitions d’état du visualiseur de modèle d’exploration de données, sélectionnez
Pacific Clusterdans la liste des clusters. Vérifiez que l’option Afficher les étiquettes edge est sélectionnée.Le graphique est mis à jour pour afficher les transitions les plus courantes dans ce cluster.
Cliquez sur n’importe quel nœud connecté par une ligne à un autre nœud.
Le graphique est mis à jour et met en surbrillance les nœuds associés. La valeur numérique en regard de la ligne indique la probabilité de la transition.
Déclenchez le curseur jusqu’à Tous les liens pour augmenter le nombre de transitions incluses dans le graphique.
Sélectionnez Population (All) dans cluster.
Notez que lorsque vous chargez un autre cluster, le graphique est réinitialisé aux paramètres d’affichage par défaut, de sorte que le contrôle de curseur est réinitialisé à la position centrale.
Cliquez sur le nœud le plus sombre du graphique, qui doit être Sport-100.
Notez qu’il n’existe aucune ligne connectant ce produit à d’autres produits.
Augmentez le curseur d’une étape pour augmenter le nombre de transitions incluses dans le graphique. Ne passez pas encore à Tous les liens .
Le graphique est mis à jour en ajoutant plusieurs transitions supplémentaires au graphique, mais aucun n’incluant le modèle Sport-100.
Déplacez le contrôle de curseur jusqu’à Tous les liens. Cliquez sur le nœud Sport-100 s’il n’est pas déjà sélectionné.
Le graphique est mis à jour pour afficher de nombreuses transitions incluant le produit Sport-100. La direction de la flèche sur la ligne de connexion vous indique si l’élément Sport-100 a été sélectionné comme premier élément ou le deuxième élément de la paire.
Cliquez sur le nœud pour Touring Tire et déplacez le contrôle de curseur vers le bas jusqu’à la position centrale.
Au début, il existe de nombreuses lignes de transition reliant Touring Tire à d’autres produits, mais lorsque vous augmentez le seuil de probabilité, les transitions les moins probables sont éliminées du graphique, laissant juste la transition, Touring Tire > Touring Tire Tube. Cette transition signifie que si un client place un pneu de tourisme dans le panier d’achat, il y a une probabilité forte que le client place ensuite une chambre à air pour pneu de tourisme dans le panier.
Visionneuse de contenu générique arborescent
Cette visionneuse peut être utilisée pour tous les modèles, quel que soit l’algorithme ou le type de modèle. Le MicrosoftGeneric Content Tree Viewer est disponible dans la liste déroulante de la Visionneuse.
Une arborescence de contenu est une représentation de n’importe quel modèle d’exploration de données sous la forme d’une série de nœuds, où chaque nœud représente des connaissances apprises sur les données d’apprentissage. Le nœud peut contenir un modèle, un ensemble de règles, un cluster ou la définition d’une plage de dates qui partagent certains attributs. Le contenu exact du nœud diffère selon l’algorithme et l’attribut prédictible, mais la représentation générale du contenu est la même.
Vous pouvez développer chaque nœud pour afficher des niveaux de détail croissants et copier le contenu de n’importe quel nœud dans le Presse-papiers. Pour plus d’informations, consultez Parcourir un modèle à l’aide de l’arborescence de contenu générique Microsoft.
Pour afficher les détails d’un modèle de clustering de séquences à l’aide de la visionneuse d’arborescence de contenu générique
Sous l’onglet Visionneuse du modèle d’exploration, cliquez sur la liste Visionneuse, puis sélectionnez Visionneuse d’arborescence de contenu générique Microsoft.
Dans le volet Légende du nœud, cliquez sur
Pacific Cluster (1).Le nom de ce nœud contient à la fois le nom convivial que vous avez affecté au cluster et l’ID de nœud sous-jacent. Vous pouvez utiliser les ID de nœud pour explorer plus en détail le modèle.
Développez le premier nœud enfant, intitulé Niveau de séquence du cluster 1.
Le nœud de niveau séquence d’un cluster contient des détails sur les états et les transitions inclus dans ce cluster. Vous pouvez utiliser ces détails, disponibles dans la colonne NODE_DISTRIBUTION, pour explorer les séquences et les états de chaque cluster ou du modèle pendant un certain temps.
Continuez à développer les nœuds et à afficher les détails dans le volet de la visionneuse HTML.
Pour plus d’informations sur le contenu du modèle d’exploration de données et sur l’utilisation des détails dans la visionneuse, consultez Contenu du modèle d’exploration de données pour les modèles de clustering séquentiels (Analysis Services - Exploration de données).
Tâche suivante de la leçon
Voir aussi
Algorithme de clustering de séquences Microsoft
Exemples de requêtes sur des modèles de clustering de séquence