Condividi tramite


Esplorazione del modello di clusterizzazione sequenziale (tutorial intermedio sul data mining)

Dopo aver creato il modello Sequence Clustering with Region, è possibile esplorarlo usando il Visualizzatore Microsoft Sequence Clustering nella scheda Visualizzatore del modello di data mining di Progettazione di data mining. Microsoft Sequence Cluster Viewer contiene cinque schede: Diagramma cluster, Profili cluster, Caratteristiche cluster, ClusterDiscrimination e Transizioni di stato. Per altre informazioni sull'uso di questo visualizzatore, vedere Esplorare un modello usando microsoft Sequence Cluster Viewer.

Scheda Diagramma Cluster

Nella scheda Diagramma cluster vengono visualizzati graficamente i cluster individuati dall'algoritmo nel database. Il layout nel diagramma rappresenta le relazioni dei cluster, con cluster simili raggruppati insieme. Per impostazione predefinita, la sfumatura di ciascun nodo rappresenta la densità di tutti i casi nel cluster: più scura è la sfumatura del nodo, più casi contiene. È possibile modificare il significato dell'ombreggiatura dei nodi in modo che rappresenti il supporto, all'interno di ogni cluster, per un attributo e uno stato.

È anche possibile rinominare i cluster per semplificare l'identificazione e l'uso dei cluster di destinazione. Per questa esercitazione si rinomina il cluster con la percentuale più elevata di clienti dell'area Pacifico e il cluster con la maggior parte dei casi nel complesso.

Annotazioni

I casi assegnati a cluster specifici possono cambiare quando si rielabora il modello, a seconda dei dati e dei parametri del modello. Inoltre, se si rinominano i cluster, i nomi andranno persi durante la rielaborazione del modello di data mining.

Per modificare l'attributo usato per evidenziare i cluster

  1. Nell'elenco Variabile ombreggiatura selezionare Modello.

  2. Selezionare Berretto da ciclismo nell'elenco Stato.

    Il diagramma viene aggiornato per mostrare la concentrazione del prodotto selezionato in ognuno dei cluster. Il cluster con l'ombreggiatura più scura contiene la densità più alta dei cappelli da ciclismo. È possibile modificare la variabile di ombreggiatura in modo da usare qualsiasi stato di qualsiasi colonna di input.

  3. Nell'elenco Variabile ombreggiatura selezionare Popolamento.

    Quando modifichi la variabile di ombreggiatura in popolazione, il diagramma viene aggiornato per confrontare i cluster in base alle dimensioni. Il cluster con l'ombreggiatura più scura contiene più case rispetto agli altri cluster.

Per rinominare i nodi nel modello

  1. Modificare Variabile ombreggiatura a Region, e impostare Stato su pacifico.

  2. Evidenziare il nodo più scuro nel grafico.

  3. Fare clic con il pulsante destro del mouse su questo cluster e scegliere Rinomina cluster.

  4. Digitare il nomePacific Cluster.

  5. Modificare il valore di Variabile ombreggiatura in Popolamento.

  6. Nel grafico aggiornato individuare il cluster più scuro, che deve essere il cluster più grande. Se non è possibile determinare dall'ombreggiatura quale cluster sia più grande, posizionare il mouse sopra ogni cluster e visualizzare la didascalia, quindi scegliere il cluster che contiene la maggior parte dei casi.

  7. Fare clic con il pulsante destro del mouse su questo cluster e scegliere Rinomina cluster. Digitare il nuovo nome, Largest Cluster.

È possibile eseguire il drill-through dal nodo che rappresenta il cluster per visualizzare i dettagli dei casi presenti in ogni cluster. Ciò può essere utile se si desidera intervenire sui risultati dell'analisi, ad esempio l'invio di messaggi di posta elettronica a un cliente. È anche possibile esplorare gli altri attributi dei case inclusi nella struttura, ma non usati nel modello, ad esempio Region e IncomeGroup. Per ulteriori informazioni sul drill-through dai modelli di data mining ai casi sottostanti, vedere Query Drillthrough (Data Mining).

Per approfondire i dettagli dal diagramma del cluster

  1. Fare clic con il pulsante destro del mouse su Pacific Cluster, selezionare Drill-through e quindi selezionare Colonne modello e struttura.

    Verrà visualizzata la finestra di dialogo Drill-through . Le colonne non utilizzate nel modello, ma disponibili per l'esecuzione di query sono precedute da Structure.

    È possibile notare che questo cluster contiene principalmente i clienti dell'area Pacifico, con solo alcuni clienti di altre aree.

  2. Fare clic sul segno più nella colonna nidificata "Elementi di linea della sequenza associata" per visualizzare la sequenza di elementi in un determinato ordine cliente.

  3. Chiudere la finestra di dialogo Drill-through .

    Annotazioni

    Il pulsante Riproduci consente di rieseguire una query sui dati; Tuttavia, la rieseguizione della query non modifica i dati visualizzati, a meno che il modello non sia stato aggiornato dinamicamente in background da un altro processo.

Torna all'inizio

Scheda Profili Cluster

Nella scheda Profili cluster vengono visualizzate le sequenze presenti in ogni cluster. I cluster sono elencati in singole colonne a destra della colonna Stati .

Nel visualizzatore la riga Modello descrive la distribuzione complessiva degli elementi in un cluster e la riga Model.samples contiene sequenze degli elementi. Ogni riga delle sequenze di colore in ogni cella della riga Model.samples rappresenta il comportamento di un utente selezionato in modo casuale nel cluster.

Ogni colore in una singola sequenza istogramma rappresenta un modello di prodotto. La legenda di estrazione mostra le sequenze di prodotti utilizzando sia la codifica a colori che i nomi dei modelli dei prodotti. Se sono state aggiunte altre colonne al modello per il clustering, ad esempio Region o Income Group, il visualizzatore conterrà una riga aggiuntiva per ogni colonna che mostra la distribuzione di questi valori all'interno di ogni cluster.

Per visualizzare le sequenze più comuni in un cluster

  1. Fare clic con il pulsante destro del mouse sulla riga Modello nella colonna per il cluster Largest Clustere selezionare Mostra legenda.

    La colonna Colore contiene una barra ombreggiata che indica la frequenza degli elementi trovati nelle sequenze. Ogni elemento è rappresentato da un colore diverso. Nella colonna Significato sono elencati i nomi dei modelli di prodotto per ogni colore. La colonna Distribuzione indica la percentuale di case che contengono questo elemento in una sequenza.

  2. Chiudi Mining Legend.

  3. Fare clic con il pulsante destro del mouse sulla riga Model.samples nella colonna con l'intestazione Popolamento e selezionare Mostra legenda.

  4. Analizzare l'elenco delle sequenze nel modello complessivo.

    La legenda mineraria elenca prima le sequenze più comuni, in modo da poter vedere che Mountain Tire Tube è il primo elemento in molte sequenze. Questo significa che un cliente è molto probabile mettere il Mountain Tire Tube nel carrello acquisti per primo.

Per eseguire un'analisi dettagliata dei casi dal visualizzatore di cluster

  1. Scorrere verso il basso nel riquadro Attributo fino a trovare la riga per l'attributo Region .

    La riga contiene un istogramma per ogni cluster nel modello, più un istogramma aggiuntivo per Population, ovvero l'intero set di case usato nel modello. Un istogramma è una barra con colori diversi, in cui ogni colore rappresenta un attributo e la dimensione della sezione colorata per tale attributo rappresenta la percentuale di case con tale attributo.

  2. Confrontare gli istogrammi per i cluster rinominati Pacific Cluster e Largest Cluster. Ogni cluster viene visualizzato in una colonna diversa.

    Entrambi sembrano colori a tinta unita, ma i colori sono diversi.

  3. Nella riga Region, posiziona il mouse sull'istogramma colorato per Largest Cluster.

    Il ToolTip visualizza i valori che mostrano le percentuali effettive dei casi di ogni regione.

  4. Fare clic con il pulsante destro del mouse sull'istogramma colorato nella Region riga per Pacific Cluster, selezionare Drill-through e quindi selezionare Solo colonne modello.

  5. Spostare la barra di scorrimento per esaminare tutti i clienti in questo cluster.

    Anche in questo caso, approfondendo i dettagli è possibile vedere che il cluster contiene principalmente ordini provenienti dall'area del Pacifico, ma anche da qualche area del Nord America e dell'Europa.

  6. Chiudere la finestra di dialogo Drill-through .

Torna all'inizio

Scheda Caratteristiche Cluster

La scheda Caratteristiche cluster riepiloga le transizioni tra gli stati in un cluster visualizzando barre che rappresentano visivamente l'importanza del valore dell'attributo per il cluster selezionato. La colonna Variabili indica il modello che risulta importante per il cluster o il popolamento selezionato: un particolare valore o la relazione tra valori, noti come transizione. La colonna Valori fornisce altri dettagli sul valore o sulla transizione e la colonna Probabilità rappresenta visivamente il peso di questo attributo o transizione.

Per visualizzare gli attributi importanti per un cluster

  1. Nell'elenco a discesa Cluster selezionare Pacific Cluster.

    L'elenco viene aggiornato per visualizzare le caratteristiche del cluster rinominato Pacific Cluster. In questo cluster la caratteristica più importante è Region.

  2. Sospendere il mouse sulla barra ombreggiata nella riga per Region.

    La probabilità che il valore sia Pacifico è molto elevato. Per altre informazioni su come interpretare questi valori, vedere Documentazione tecnica sull'algoritmo Microsoft Sequence Clustering.

  3. Esaminare l'elenco delle caratteristiche per il cluster fino a trovare la prima riga di transizione.

  4. Una riga di transizione contiene il testo Transition nella colonna Variables e alcune combinazioni di valori di attributo sequenziali nella colonna Valore . La sequenza può anche contenere punti iniziali e valori mancanti.

    Si supponga, ad esempio, che la transizione abbia il valore [Start] -> Road Tire Tube. Ciò significa che i clienti in questo cluster spesso mettono il Road Tire Tube nel carrello acquisti per primi. Ciò potrebbe indicare che il prodotto è un articolo popolare che i clienti cercano prima, o potrebbe indicare solo che il prodotto è facile da trovare nel sito di acquisto.

  5. Scorrere l'elenco fino a trovare la prima transizione che non contiene [Start] o mancante .

    Supponiamo, ad esempio, di trovare la transizione Touring Tire, Touring Tire Tube. Ciò significa che i clienti in questo cluster hanno acquistato frequentemente questi articoli insieme, esattamente in questo ordine.

  6. Posizionare il mouse sulla barra ombreggiata per questa transizione.

    La probabilità di questa transizione viene visualizzata come percentuale.

  7. Nell'elenco a discesa Cluster selezionare Population (All).

    L'elenco degli attributi viene aggiornato per mostrare le caratteristiche di tutti gli ordini usati per creare il modello. In questo modello di data mining, la caratteristica più importante per distinguere i cluster è Region, con un valore di America del Nord.

Dopo aver esaminato queste attività, ci si rende conto di due cose. Il primo è che sono necessari molti dati per ottenere un numero significativo di combinazioni. Ad esempio, le sequenze con le probabilità più elevate includono uno stato [Start] o [Missing].

Il secondo è che esiste un forte effetto di clustering sugli attributi per Region, che rende più difficile visualizzare i gruppi di sequenze. Pertanto, si decide di creare un altro modello che usa solo sequenze e non include le colonne per l'area o il reddito.

Torna all'inizio

Scheda Discriminazione cluster

La scheda Discriminazione cluster consente di confrontare due cluster per determinare quali attributi distinguono un particolare cluster da un altro cluster. La scheda contiene quattro colonne: Variabili, Valori, Cluster 1 e Cluster 2. È possibile scegliere qualsiasi cluster da usare come Cluster 1 e Cluster 2.

La colonna Variables indica il nome dell'attributo, che può essere un nome di colonna o una combinazione di nome di colonna con la parola transition. La colonna Valori mostra il valore esatto dell'attributo o della transizione. Le barre ombreggiate nelle colonne per Cluster 1 e Cluster 2 indicano il livello di attendibilità dell'attributo nei cluster confrontati. Più lunga è la barra, più è probabile che il cluster includa i case con tale attributo.

Per confrontare due cluster tramite la scheda Discriminazione dei cluster

  1. Nella scheda Discriminazione cluster, per Cluster 1, selezionare Pacific Cluster.

    Per impostazione predefinita, la selezione per Il cluster 2 cambia in Complemento del cluster Pacifico.

    L'attributo principale che distingue Pacific Cluster da tutti gli altri casi è l'area. Region è un attributo così forte per il clustering che oscura altri attributi. Per evitare questo effetto, provare a confrontare tra loro diversi cluster più piccoli. In questo caso, l'elenco degli attributi cambia e può includere più transizioni tra modelli.

  2. Individuare una riga di transizione e sospendere il mouse sulla barra ombreggiata.

    Gli elementi nella colonna Valori possono includere sia stati che transizioni. L'ombreggiatura per ogni elemento indica il punteggio di discriminazione. Per ulteriori informazioni sul significato dei vari punteggi, consulta Contenuto del modello di mining per i modelli di clustering di sequenza (Servizi di analisi - Data Mining).

Torna all'inizio

Scheda Transizioni di stato

Nella scheda Transizioni di stato è possibile selezionare un cluster ed esaminarne le transizioni di stato. Se si seleziona Population (All) nell'elenco a discesa cluster, il diagramma mostra la distribuzione degli stati per l'intero modello di mining.

Ogni nodo nel grafico rappresenta uno stato, o un valore possibile, delle sequenze che si sta tentando di analizzare. Il colore di sfondo dei nodi rappresenta la frequenza di tale stato. Le linee connettono certi stati, indicando una transizione tra gli stati. È possibile spostare il dispositivo di scorrimento verso l'alto o verso il basso per modificare la soglia di probabilità per le transizioni. I numeri sono associati ad alcuni nodi, che indicano la probabilità di tale stato.

Per esplorare le relazioni nella scheda Transizione stato

  1. Nella scheda Transizioni di stato del visualizzatore del modello di data mining, selezionare Pacific Cluster dall'elenco di cluster. Assicurarsi che l'opzione Mostra etichette edge sia selezionata.

    Il grafico viene aggiornato per visualizzare le transizioni più comuni in questo cluster.

  2. Fare clic su qualsiasi nodo connesso da una riga a un altro nodo.

    Il grafico viene aggiornato ed evidenzia i nodi correlati. Il valore numerico accanto alla riga indica la probabilità della transizione.

  3. Sposta il cursore verso l'alto fino a Tutti i collegamenti per aumentare il numero di transizioni incluse nel grafico.

  4. Selezionare Popolamento (tutti) da Cluster.

    Si noti che quando si carica un cluster diverso, il grafico viene reimpostato sulle impostazioni di visualizzazione predefinite, quindi il controllo dispositivo di scorrimento viene reimpostato sulla posizione centrale.

  5. Fare clic sul nodo più scuro nel grafico, che dovrebbe essere Sport-100.

    Si noti che non ci sono linee che collegano questo prodotto ad altri prodotti.

  6. Sposta il cursore di un passo verso l'alto, così da aumentare il numero di transizioni incluse nel grafico. Non spingerti ancora fino a Tutti i collegamenti.

    Il grafico viene aggiornato aggiungendo diverse altre transizioni al grafico, ma nessuna che includa il modello Sport-100.

  7. Spostare la barra di scorrimento fino a Tutti i collegamenti. Fare clic sul nodo Sport-100 se non è già selezionato.

    Il grafico viene aggiornato per mostrare molte transizioni che includono il prodotto Sport-100. La direzione della freccia sulla linea di connessione indica se l'elemento Sport-100 è stato selezionato come primo elemento o il secondo elemento della coppia.

  8. Facendo clic sul nodo per Touring Tire e poi spostando la barra di scorrimento verso il basso fino alla posizione centrale.

    In un primo momento, ci sono molte linee di transizione che collegano Touring Tire ad altri prodotti, ma quando si alza la soglia di probabilità, le transizioni meno probabili vengono eliminate dal grafico, lasciando solo la transizione, Touring Tire > Touring Tire Tube. Questa transizione significa che se un cliente inserisce un Touring Tire nel carrello acquisti, c'è una forte probabilità che il cliente inseporrà successivamente un Touring Tire Tube nel carrello.

Torna all'inizio

Visualizzatore albero del contenuto generico

Questo visualizzatore può essere usato per tutti i modelli, indipendentemente dall'algoritmo o dal tipo di modello. MicrosoftGeneric Content Tree Viewer è disponibile nell'elenco a discesa Visualizzatore.

Un albero del contenuto è una rappresentazione di qualsiasi modello di data mining come una serie di nodi, in cui ogni nodo rappresenta le informazioni apprese sui dati di training. Il nodo può contenere un modello, un set di regole, un cluster o la definizione di un intervallo di date che condividono alcuni attributi. Il contenuto esatto del nodo varia a seconda dell'algoritmo e dell'attributo stimabile, ma la rappresentazione generale del contenuto è la stessa.

È possibile espandere ogni nodo per visualizzare livelli crescenti di dettaglio e copiare il contenuto di qualsiasi nodo negli Appunti. Per altre informazioni, vedere Esplorare un modello usando microsoft Generic Content Tree Viewer.

Per visualizzare i dettagli di un modello di clustering di sequenze tramite il Visualizzatore della struttura del contenuto generico

  1. Nella scheda Visualizzatore modelli di data mining fare clic sull'elenco Visualizzatore e selezionare Visualizzatore struttura generica dei contenuti Microsoft.

  2. Nel riquadro Node Caption (Didascalia nodo ) fare clic su Pacific Cluster (1).

    Il nome di questo nodo contiene sia il nome descrittivo che hai assegnato al cluster sia l'ID del nodo sottostante. È possibile usare gli ID nodo per eseguire il drill-down in dettagli aggiuntivi nel modello.

  3. Espandi il primo nodo figlio denominato Livello sequenza per il cluster 1.

    Il nodo a livello di sequenza per un cluster contiene informazioni dettagliate sugli stati e le transizioni inclusi nel cluster. È possibile usare questi dettagli, disponibili nella colonna NODE_DISTRIBUTION, per esplorare le sequenze e gli stati per ogni cluster o per il modello nel complesso.

  4. Continuare a espandere i nodi e visualizzare i dettagli nel riquadro visualizzatore HTML.

Per ulteriori informazioni sul contenuto del modello di mining e su come utilizzare i dettagli nel visualizzatore, vedere Contenuto del modello di mining per modelli di clustering sequenziale (Analysis Services - Data Mining).

Torna all'inizio

Attività successiva nella lezione

Creazione di un modello di sequence clustering correlato (esercitazione intermedia sul data mining)

Vedere anche

Algoritmo di Clusterizzazione Sequenziale di Microsoft
Esempi di query del modello sequence clustering