Condividi tramite


Esplorazione del modello di clustering (Esercitazione di base sul data mining)

I casi dell'algoritmo Microsoft Clustering sono raggruppati in cluster che contengono caratteristiche simili. Tali raggruppamenti sono utili per l'esplorazione dei dati, l'identificazione delle relative anomalie e la creazione di stime.

In Microsoft Cluster Viewer sono disponibili le schede seguenti da usare per l'esplorazione dei modelli di data mining di clustering:

Scheda Diagramma dei cluster

Nella scheda Diagramma dei cluster vengono visualizzati tutti i cluster di un modello di data mining. Le linee tra i cluster rappresentano la prossimità e appaiono ombreggiate in base al grado di analogia dei cluster. Il colore effettivo dei cluster rappresenta la frequenza della variabile e lo stato nel cluster.

Per esplorare il modello nella scheda Diagramma dei cluster

  1. Utilizzare l'elenco Modello di data mining nella parte superiore della scheda Visualizzatore modelli di data mining per passare al TM_Clustering modello.

  2. Nell'elenco Visualizzatore selezionare Microsoft Cluster Viewer.

  3. Nella casella Variabile ombreggiatura selezionareBike Buyer.

    La variabile predefinita è Population, ma è possibile modificarla in qualsiasi attributo nel modello per individuare i cluster che contengono i membri con gli attributi desiderati.

  4. Selezionare 1 nella casella Stato per esplorare i casi in cui è stata acquistata una bicicletta.

    La legenda Densità descrive la densità della coppia di stati dell'attributo selezionata nella variabile shading e nello stato. In questo esempio indica che il cluster con l'ombreggiatura più scura ha la percentuale più elevata di acquirenti di biciclette.

  5. Posizionare il mouse sul cluster con l'ombreggiatura più scura.

    Nella descrizione comando verrà visualizzata la percentuale di case che includono l'attributo Bike Buyer = 1.

  6. Selezionare il cluster con la densità più elevata, fare clic con il pulsante destro del mouse sul cluster, scegliere Rinomina cluster e digitare Bike Buyers High per l'identificazione successiva. Fare clic su OK.

  7. Individuare il cluster con l'ombreggiatura più leggera (e la densità più bassa). Fare clic con il pulsante destro del mouse sul cluster, scegliere Rinomina cluster e digitare Bike Buyers Low. Fare clic su OK.

  8. Fare clic sul cluster Bike Buyers High e trascinarlo in un'area del riquadro che consentirà di visualizzare chiaramente le relative connessioni agli altri cluster.

    Quando si seleziona un cluster, le linee che lo connettono agli altri cluster vengono evidenziate, in modo che sia possibile vedere facilmente tutte le relazioni del cluster. Quando il cluster non è selezionato, dal colore delle linee è possibile dedurre il livello di relazione tra tutti i cluster del diagramma. Se l'ombreggiatura è chiara o inesistente, il grado di somiglianza dei cluster è basso.

  9. Utilizzare il dispositivo di scorrimento nella parte sinistra della rete per escludere i collegamenti meno attendibili e individuare i cluster con le relazioni più strette. Il reparto marketing Adventure Works Cycles potrebbe voler combinare cluster simili quando si determina il metodo migliore per la distribuzione di mailing mirato.

Scheda Profili cluster

La scheda Profili cluster offre una visualizzazione complessiva del TM_Clustering modello. La scheda Profili cluster contiene una colonna per ogni cluster nel modello. Nella prima colonna sono elencati gli attributi associati ad almeno un cluster. La parte rimanente del visualizzatore contiene la distribuzione degli stati di un attributo per ogni cluster. La distribuzione di una variabile discreta viene visualizzata come barra colorata con il numero massimo di barre visualizzate nell'elenco Barre istogrammi . Gli attributi continui sono visualizzati sotto forma di un grafico a rombi che rappresenta la deviazione media e standard in ogni cluster.

Per esplorare il modello nella scheda Profili cluster

  1. Impostare le barre dell'istogramma su 5.

    Nel modello utilizzato in questo esempio 5 è il numero massimo di stati per ogni singola variabile.

  2. Se legenda di data mining blocca la visualizzazione dei profili di attributo, spostarla all'esterno.

  3. Selezionare la colonna Bike Buyers High e trascinarla a destra della colonna Population .

  4. Selezionare la colonna Bike Buyers Low e trascinarla a destra della colonna Bike Buyers High .

  5. Fare clic sulla colonna Bike Buyers High .

    La colonna Variabili viene ordinata in ordine di importanza per il cluster. Scorrere la colonna e verificare le caratteristiche del cluster Bike Buyers High. È ad esempio più probabile che i clienti raggruppati in questo cluster abitino a breve distanza dal luogo di lavoro.

  6. Fare doppio clic sulla cella Age nella colonna Bike Buyers High .

    La legenda di data mining visualizza una visualizzazione più dettagliata ed è possibile visualizzare l'intervallo di età di questi clienti, nonché l'età media.

  7. Fare clic con il pulsante destro del mouse sulla colonna Bike Buyers Low e scegliere Nascondi colonna.

Scheda Caratteristiche cluster

Con la scheda Caratteristiche cluster è possibile esaminare in modo più dettagliato le caratteristiche che costituiscono un cluster. Anziché confrontare le caratteristiche di tutti i cluster (come nella scheda Profili cluster), è possibile esplorare un cluster alla volta. Ad esempio, se si seleziona Bike Buyers High nell'elenco Cluster , è possibile visualizzare le caratteristiche dei clienti in questo cluster. Sebbene la visualizzazione sia diversa dalla scheda Profili cluster, i risultati sono gli stessi.

Nota

A meno che non si imposti un valore iniziale per holdoutseed, i risultati variano ogni volta che si elabora il modello. Per altre informazioni, vedere Elemento HoldoutSeed

Scheda Analisi discriminante tra cluster

Con la scheda Cluster Discrimination (Discriminazione cluster) è possibile esplorare le caratteristiche che distinguono un cluster da un altro. Dopo aver selezionato due cluster, uno dall'elenco Cluster 1 e uno dall'elenco Cluster 2 , il visualizzatore calcola le differenze tra i cluster e visualizza un elenco degli attributi che distinguono maggiormente i cluster.

Per esplorare il modello nella scheda Analisi discriminante tra cluster

  1. Nella casella Cluster 1 selezionare Bike Buyers High.

  2. Nella casella Cluster 2 selezionare Bike Buyers Low.In the Cluster 2 box, select Bike Buyers Low.

  3. Fare clic su Variabili per ordinare alfabeticamente.

    Alcune delle differenze più sostanziali tra i clienti nei cluster Bike Buyers Low e Bike Buyers High includono età, proprietà dell'auto, numero di bambini e area geografica.

Per esplorare gli altri modelli di data mining, vedere gli argomenti seguenti.

Attività successiva della lezione

Esplorazione del modello Naive Bayes (Esercitazione di base sul data mining)

Attività precedente della lezione

Esplorazione del modello Decision Trees (Esercitazione di base sul data mining)

Vedere anche

Visualizzare un modello utilizzando il Visualizzatore Microsoft Clustering
Scheda Analisi discriminante tra cluster (Visualizzatore modello di data mining)
Scheda Profili cluster (Visualizzatore modello di data mining)
Scheda Caratteristiche cluster (Visualizzatore modello di data mining)
Scheda Diagramma dei cluster (Visualizzatore modello di data mining)