Condividi tramite


Esplorazione del modello di clustering (esercitazione di base sul data mining)

L'algoritmo Microsoft Clustering raggruppa i casi in cluster che contengono caratteristiche simili. Questi raggruppamenti sono utili per esplorare i dati, identificare le anomalie nei dati e creare stime.

Microsoft Cluster Viewer offre le schede seguenti da usare per l'esplorazione dei modelli di data mining di clustering:

Scheda Diagramma Cluster

Nella scheda Diagramma cluster vengono visualizzati tutti i cluster presenti in un modello di data mining. Le linee tra i cluster rappresentano la "vicinanza" e sono ombreggiate in base alla somiglianza dei cluster. Il colore effettivo di ogni cluster rappresenta la frequenza della variabile e lo stato nel cluster.

Per esplorare il modello nel tab Cluster Diagram

  1. Utilizzare l'elenco Modello di data mining nella parte superiore della scheda Visualizzatore Modello di data mining per passare al modello TM_Clustering.

  2. Nell'elenco Visualizzatore selezionare Visualizzatore Microsoft Cluster.

  3. Nella casella Variabile di ombreggiatura (Shading Variable), selezionare Acquirente di biciclette (Bike Buyer).

    La variabile predefinita è Population, ma è possibile modificarla in qualsiasi attributo nel modello per individuare quali cluster contengono membri con gli attributi desiderati.

  4. Selezionare 1 nella casella Stato per esplorare i casi in cui è stata acquistata una bicicletta.

    La legenda Densità descrive la densità della coppia di stati dell'attributo selezionata nella variabile shading e nello stato. In questo esempio indica che il cluster con l'ombreggiatura più scura ha la percentuale più elevata di acquirenti di biciclette.

  5. Sospendere il mouse sul cluster con l'ombreggiatura più scura.

    Un tooltip visualizza la percentuale di casi che hanno l'attributo Bike Buyer = 1.

  6. Selezionare il cluster con la massima densità, fare clic con il pulsante destro del mouse sul cluster, scegliere Rinomina cluster e digitare Bike Buyers High per un'identificazione successiva. Fare clic su OK.

  7. Trovare il cluster con l'ombreggiatura più chiara (e la densità più bassa). Fare clic con il pulsante destro del mouse sul cluster, scegliere Rinomina cluster e digitare Bike Buyers Low. Fare clic su OK.

  8. Fare clic sul cluster Bike Buyers High e trascinarlo in un'area del riquadro che offre una visualizzazione chiara delle relative connessioni agli altri cluster.

    Quando si seleziona un cluster, vengono evidenziate le righe che connettono il cluster ad altri cluster, in modo da poter visualizzare facilmente tutte le relazioni per questo cluster. Quando il cluster non è selezionato, è possibile stabilire con l'oscurità delle linee il livello di forza delle relazioni tra tutti i cluster nel diagramma. Se l'ombreggiatura è leggera o inesistente, i cluster non sono molto simili.

  9. Usare il dispositivo di scorrimento a sinistra della rete per filtrare i collegamenti più deboli e trovare i cluster con le relazioni più vicine. Il reparto marketing Adventure Works Cycles potrebbe voler combinare cluster simili quando si determina il metodo migliore per la distribuzione di mailing mirato.

Scheda Profili Cluster

La scheda Profili cluster offre una visualizzazione complessiva del TM_Clustering modello. La scheda Profili cluster contiene una colonna per ogni cluster nel modello. La prima colonna elenca gli attributi associati ad almeno un cluster. Il resto del visualizzatore contiene la distribuzione degli stati di un attributo per ogni cluster. La distribuzione di una variabile discreta viene visualizzata come barra colorata con il numero massimo di barre visualizzate nell'elenco barre istogrammi . Gli attributi continui vengono visualizzati con un grafico a rombo, che rappresenta la deviazione media e standard in ogni cluster.

Per esplorare il modello nella scheda Profili cluster

  1. Impostare le barre dell'istogramma su 5.

    Nel modello 5 è il numero massimo di stati per una variabile.

  2. Se il Mining Legend blocca la visualizzazione dei profili attributo, spostalo fuori strada.

  3. Selezionare la colonna Bike Buyers High e trascinarla a destra della colonna Population .

  4. Selezionare la colonna Bike Buyers Low e trascinarla a destra della colonna Bike Buyers High .

  5. Fare clic sulla colonna Bike Buyers High .

    La colonna Variabili viene ordinata in ordine di importanza per il cluster. Scorri la colonna e rivedi le caratteristiche del cluster "Bike Buyer High". Ad esempio, è più probabile che abbiano un tragitto breve.

  6. Fare doppio clic sulla cella Age nella colonna Bike Buyers High .

    La legenda del mining mostra una vista più dettagliata e consente di vedere l'intervallo di età di questi clienti, nonché l'età media.

  7. Fare clic con il pulsante destro del mouse sulla colonna Bike Buyers Low e scegliere Nascondi colonna.

Scheda Caratteristiche Cluster

Con la scheda Caratteristiche cluster è possibile esaminare in modo più dettagliato le caratteristiche che costituiscono un cluster. Anziché confrontare le caratteristiche di tutti i cluster (come nella scheda Profili cluster), è possibile esplorare un cluster alla volta. Ad esempio, se si seleziona Bike Buyers High nell'elenco Cluster , è possibile visualizzare le caratteristiche dei clienti in questo cluster. Anche se la visualizzazione è diversa dal visualizzatore Profili cluster, i risultati sono gli stessi.

Annotazioni

A meno che non si imposti un valore iniziale per holdoutseed, i risultati variano ogni volta che si elabora il modello. Per altre informazioni, vedere Elemento HoldoutSeed

Scheda Discriminazione cluster

Con la scheda Discriminazione cluster è possibile esplorare le caratteristiche che distinguono un cluster da un altro. Dopo aver selezionato due cluster, uno dall'elenco Cluster 1 e uno dall'elenco Cluster 2 , il visualizzatore calcola le differenze tra i cluster e visualizza un elenco degli attributi che distinguono maggiormente i cluster.

Per esplorare il modello nella scheda Discriminazione dei cluster

  1. Nella casella Cluster 1 selezionare Bike Buyers High.

  2. Nella casella Cluster 2, selezionare Bike Buyers Low.

  3. Fare clic su Variabili per ordinare alfabeticamente.

    Alcune delle differenze più sostanziali tra i clienti nei cluster Bike Buyers Low e Bike Buyers High includono età, proprietà dell'auto, numero di bambini e area geografica.

Vedere gli argomenti seguenti per esplorare gli altri modelli di data mining.

Attività successiva nella lezione

Esplorazione del modello Naive Bayes (esercitazione di base sul data mining)

Compito precedente nella lezione

Esplorazione del modello decision tree (esercitazione di base sul data mining)

Vedere anche

Esplorare un modello usando il Visualizzatore Microsoft Cluster
Scheda Discriminazione di cluster (Visualizzatore modelli di data mining)
Scheda Profili del cluster (Visualizzatore di modelli di data mining)
Scheda Caratteristiche del cluster (Visualizzatore modelli di data mining)
Scheda Diagramma Cluster (Visualizzatore Modelli di Data Mining)