Partager via


Exploration du modèle de clustering (didacticiel d’exploration de données de base)

L’algorithme De clustering Microsoft regroupe les cas dans des clusters qui contiennent des caractéristiques similaires. Ces regroupements sont utiles pour explorer les données, identifier les anomalies dans les données et créer des prédictions.

Le "Microsoft Cluster Viewer" fournit les onglets suivants pour l'exploration des modèles de clustering :

Onglet Diagramme de regroupement

L’onglet Diagramme de cluster affiche tous les clusters qui se trouvent dans un modèle d’exploration de données. Les lignes entre les clusters représentent « proximité » et sont ombrées en fonction de la façon dont les clusters sont similaires. La couleur réelle de chaque cluster représente la fréquence de la variable et l’état du cluster.

Pour explorer le modèle sous l’onglet Diagramme de cluster

  1. Utilisez la liste Mining Model en haut de l’onglet Mining Model Viewer pour passer au modèle TM_Clustering.

  2. Dans la liste visionneuse , sélectionnez Visionneuse de cluster Microsoft.

  3. Dans la zone Variable d’ombrage , sélectionnez Bike Buyer.

    La variable par défaut est Population, mais vous pouvez la remplacer par n’importe quel attribut dans le modèle pour découvrir quels clusters contiennent des membres qui ont les attributs souhaités.

  4. Sélectionnez 1 dans la zone État pour explorer les cas où un vélo a été acheté.

    La légende Density décrit la densité de la paire d’état d’attribut sélectionnée dans la variable de nuance et l’état. Dans cet exemple, il nous indique que le cluster avec l’ombrage le plus sombre a le pourcentage le plus élevé d’acheteurs de vélos.

  5. Suspendez votre souris sur le cluster avec l’ombrage le plus sombre.

    Une info-bulle affiche le pourcentage de cas ayant l’attribut Bike Buyer = 1.

  6. Sélectionnez le cluster qui a la densité la plus élevée, cliquez avec le bouton droit sur le cluster, sélectionnez Renommer le cluster et tapez Bike Buyer High pour une identification ultérieure. Cliquez sur OK.

  7. Recherchez le cluster qui a l’ombrage le plus clair (et la densité la plus faible). Cliquez avec le bouton droit sur le cluster, sélectionnez Renommer le cluster et tapez Bike Buyer Low. Cliquez sur OK.

  8. Cliquez sur le cluster Bike Buyers High et faites-le glisser vers une zone du volet qui vous donnera une vue claire de ses connexions aux autres clusters.

    Lorsque vous sélectionnez un cluster, les lignes qui connectent ce cluster à d’autres clusters sont mises en surbrillance afin que vous puissiez facilement voir toutes les relations pour ce cluster. Lorsque le cluster n’est pas sélectionné, vous pouvez indiquer par l’obscurité des lignes la force des relations entre tous les clusters du diagramme. Si l’ombrage est clair ou inexistant, les clusters ne sont pas très similaires.

  9. Utilisez le curseur à gauche du réseau pour filtrer les liens les plus faibles et rechercher les clusters avec les relations les plus proches. Le service marketing Adventure Works Cycles peut souhaiter combiner des clusters similaires lors de la détermination de la meilleure méthode pour fournir le publipostage ciblé.

Onglet Profils de cluster

L’onglet Profils de cluster fournit une vue globale du TM_Clustering modèle. L’onglet Profils de cluster contient une colonne pour chaque cluster dans le modèle. La première colonne répertorie les attributs associés à au moins un cluster. Le reste du visualiseur contient la distribution des états d’un attribut pour chaque groupe. La distribution d’une variable discrète est affichée sous la forme d’une barre colorée avec le nombre maximal de barres affichées dans la liste des barres histogrammes . Les attributs continus sont affichés avec un graphique en diamants, qui représente la moyenne et l’écart type dans chaque cluster.

Pour explorer le modèle sous l’onglet Profils de cluster

  1. Réglez les barres de l'histogramme sur 5.

    Dans notre modèle, 5 est le nombre maximal d’états pour n’importe quelle variable.

  2. Si la Légende du Minage bloque l’affichage des profils d’attribut, déplacez-la.

  3. Sélectionnez la colonne Bike Buyers High et faites-la glisser à droite de la colonne Population .

  4. Sélectionnez la colonne Bike Buyers Low et faites-la glisser à droite de la colonne Bike Buyers High .

  5. Cliquez sur la colonne Bike Buyer High .

    La colonne Variables est triée dans l’ordre d’importance de ce cluster. Faites défiler la colonne et passez en revue les caractéristiques du cluster Bike Buyer High. Par exemple, ils sont plus susceptibles d’avoir un court trajet.

  6. Double-cliquez sur la cellule Age dans la colonne Bike Buyers High .

    La légende de l’extraction affiche une vue plus détaillée et vous pouvez voir la tranche d'âge de ces clients et l'âge moyen.

  7. Cliquez avec le bouton droit sur la colonne Bike Buyers Low et sélectionnez Masquer la colonne.

Onglet Caractéristiques du cluster

Sous l’onglet Caractéristiques du cluster, vous pouvez examiner plus en détail les caractéristiques qui composent un cluster. Au lieu de comparer les caractéristiques de tous les clusters (comme dans l’onglet Profils de cluster), vous pouvez explorer un cluster à la fois. Par exemple, si vous sélectionnez Bike Buyer High dans la liste cluster , vous pouvez voir les caractéristiques des clients de ce cluster. Bien que l'affichage soit différent de celui de la visionneuse de profils de cluster, les résultats restent identiques.

Remarque

Sauf si vous définissez une valeur initiale pour holdoutseed, les résultats varieront chaque fois que vous traitez le modèle. Pour plus d’informations, consultez HoldoutSeed élément

Onglet Discrimination de cluster

Avec l’onglet Discrimination de cluster , vous pouvez explorer les caractéristiques qui distinguent un cluster d’un autre. Après avoir sélectionné deux clusters, l’un dans la liste Cluster 1 et l’autre dans la liste Cluster 2 , la visionneuse calcule les différences entre les clusters et affiche une liste des attributs qui distinguent le plus les clusters.

Pour explorer le modèle sous l’onglet Discrimination de cluster

  1. Dans la zone Cluster 1 , sélectionnez Bike Buyer High.

  2. Dans la zone Cluster 2 , sélectionnez Bike Buyer Low.

  3. Cliquez sur Variables pour trier par ordre alphabétique.

    Certaines des différences les plus importantes entre les clients dans les clusters Bike Buyer Low et Bike Buyer High incluent l’âge, la propriété de voiture, le nombre d’enfants et la région.

Consultez les rubriques suivantes pour explorer les autres modèles d’exploration de données.

Tâche suivante de la leçon

Exploration du modèle Naive Bayes (didacticiel d’exploration de données de base)

Tâche précédente dans la leçon

Exploration du modèle d’arbre de décision (didacticiel d’exploration de données de base)

Voir aussi

Parcourir un modèle à l’aide du visualiseur de cluster Microsoft
Onglet Discrimination de clusters (Visionneuse de modèle d'exploration de données)
Onglet Profils de cluster (Visionneuse du modèle d’exploration de données)
Onglet Caractéristiques du cluster (Visionneuse du modèle d’exploration de données)
Onglet Diagramme de cluster (Visionneuse du modèle d’exploration de données)