Condividi tramite


Esplorazione del modello Sequence Clustering (Esercitazione intermedia sul data mining)

Dopo aver creato il modello Sequence Clustering with Region, è possibile esaminarlo utilizzando il Visualizzatore Microsoft Sequence Clustering disponibile nella scheda Visualizzatore modello di data mining di Progettazione modelli di data mining. Il Visualizzatore Microsoft Sequence Clustering include cinque schede: Diagramma dei cluster, Profili cluster, Caratteristiche cluster, Analisi discriminantetra cluster e Transizioni di stato. Per ulteriori informazioni sull'utilizzo del visualizzatore, vedere Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Sequence Clustering.

  • Scheda Diagramma dei cluster

  • Scheda Profili cluster

  • Scheda Caratteristiche cluster

  • Scheda Analisi discriminante tra cluster

  • Scheda Transizioni di stato

  • Generic Content Tree Viewer

Scheda Diagramma dei cluster

Nella scheda Diagramma dei cluster vengono visualizzati in formato grafico i cluster individuati dall'algoritmo nel database. Il layout del diagramma rappresenta la relazione tra i cluster, con i cluster simili raggruppati. Per impostazione predefinita, l'ombreggiatura di ogni nodo rappresenta la densità di tutti i case nel cluster: quanto più scura appare l'ombreggiatura del nodo, maggiore sarà il numero di case contenuti. È possibile modificare il significato dell'ombreggiatura dei nodi in modo da rappresentare il supporto, all'interno di ogni cluster, di un attributo e uno stato.

È inoltre possibile rinominare i cluster per facilitare l'identificazione e l'utilizzo dei cluster di destinazione. In questa esercitazione verranno rinominati il cluster con la percentuale più elevata di clienti dell'area del Pacifico e il cluster che contiene il maggior numero di case.

[!NOTA]

I case assegnati a cluster specifici potrebbero cambiare quando si rielabora il modello, a seconda dei dati e dei parametri del modello stesso. Inoltre, se i cluster vengono rinominati, i nomi andranno persi quando si rielabora il modello di data mining.

Per cambiare l'attributo utilizzato per evidenziare i cluster

  1. Nell'elenco Variabile ombreggiatura selezionare Modello.

  2. Selezionare Cycling Cap nell'elenco Stato.

    Il diagramma verrà aggiornato per visualizzare la concentrazione del prodotto selezionato in ognuno dei cluster. Il cluster caratterizzato dall'ombreggiatura più scura contiene la densità maggiore di berretti da ciclista (Cycling Cap). È possibile modificare la variabile ombreggiatura per utilizzare qualsiasi stato di qualsiasi colonna di input.

  3. Nell'elenco Variabile ombreggiatura selezionare Popolazione.

    Impostando la variabile ombreggiatura su Popolazione, il diagramma viene aggiornato per confrontare i cluster in base alla dimensione. Il cluster con l'ombreggiatura più scura contiene più case rispetto agli altri cluster.

Per rinominare i nodi del modello

  1. Impostare Variabile ombreggiatura su Regione Stato su Pacific.

  2. Evidenziare il nodo più scuro del grafico.

  3. Fare clic con il pulsante destro del mouse sul cluster e scegliere Rinomina cluster.

  4. Digitare il nomeCluster Pacifico**.**

  5. Impostare il valore di Variabile ombreggiatura su Popolazione.

  6. Nel grafico aggiornato individuare il cluster più scuro, che dovrebbe corrispondere al cluster più grande. Se non si è in grado di individuare il cluster più grande in base all'ombreggiatura, posizionare il mouse su ogni cluster e visualizzare la descrizione comando, quindi scegliere il cluster che contiene il maggior numero di case.

  7. Fare clic con il pulsante destro del mouse sul cluster e scegliere Rinomina cluster. Digitare il nuovo nome, ovvero Cluster più grande.

È possibile eseguire il drill-through dal nodo che rappresenta il cluster per visualizzare i dettagli dei case contenuti in ogni cluster. Questa operazione può essere utile se si desidera intraprendere determinate azioni sulla base dei risultati dell'analisi, ad esempio inviare un messaggio di posta elettronica a un cliente. È inoltre possibile esplorare gli altri attributi dei case inclusi nella struttura ma non utilizzati nel modello, ad esempio Region e IncomeGroup. Per ulteriori informazioni sul drill-through dai modelli di data mining ai case sottostanti, vedere Utilizzo del drill-through sui modelli di data mining e strutture di data mining (Analysis Services - Data mining).

Per eseguire il drill-through nei dettagli dal diagramma dei cluster

  1. Fare clic con il pulsante destro del mouse su Cluster Pacifico, scegliere Drill-through, quindi Colonne struttura e modello.

    Verrà visualizzata la finestra di dialogo Drill-through. Le colonne non utilizzate nel modello ma disponibili per l'esecuzione di query sono identificate dal prefisso Struttura.

    È possibile notare che questo cluster contiene prevalentemente clienti dell'area del Pacifico e solo alcuni clienti residenti in altre aree geografiche.

  2. Fare clic sul segno più nella colonna nidificata v Assoc Seq Line Items per visualizzare la sequenza di articoli in un determinato ordine cliente.

  3. Chiudere la finestra di dialogo Drill-through.

    [!NOTA]

    Il pulsante Esegui consente di ripetere una query sui dati. Questa operazione non modifica tuttavia i dati visualizzati, a meno che il modello non sia stato aggiornato dinamicamente in background da un altro processo.

Torna all'inizio

Scheda Profili cluster

Nella scheda Profili cluster vengono visualizzate le sequenze esistenti in ogni cluster. I cluster vengono elencati in singole colonne alla destra della colonna Stati.

Nel visualizzatore la riga Model.samples contiene le sequenze di elementi e la riga Model descrive la distribuzione complessiva degli elementi in un cluster. Ogni riga delle sequenze di colore in ogni cella della riga Model.samples rappresenta il comportamento di un utente selezionato in modo casuale nel cluster.

Ogni colore in ogni singolo istogramma di sequenza rappresenta un modello di prodotto. In Legenda data mining vengono indicate le sequenze di prodotti utilizzando la codifica con colori e i nomi dei modelli dei prodotti. Se sono state aggiunte altre colonne al modello per il clustering, ad esempio Region o IncomeGroup, il visualizzatore conterrà una riga aggiuntiva per ogni colonna, in cui viene visualizzata la distribuzione di questi valori all'interno di ogni cluster.

Per visualizzare le sequenze più comuni in un cluster

  1. Fare clic con il pulsante destro del mouse sulla riga Modello nella colonna relativa al cluster Cluster più grande, quindi scegliere Mostra legenda.

    La colonna Colore contiene una barra ombreggiata che indica la frequenza degli articoli individuati nelle sequenze. Ogni articolo è rappresentato da un colore diverso. La colonna Meaning elenca i nomi dei modelli dei prodotti per ciascun colore. Nella colonna Distribuzione viene indicata la percentuale di case che contengono questo articolo in una sequenza.

  2. Chiudere la finestra di dialogo Legenda data mining.

  3. Fare clic con il pulsante destro del mouse sulla riga Model.samples nella colonna con intestazione Popolazione, quindi scegliere Mostra legenda.

  4. Analizzare l'elenco delle sequenze nel modello generale.

    In Legenda data mining sono elencate per prime le sequenze più comuni, pertanto è possibile notare che Mountain Tire Tube è il primo articolo in molte sequenze. Ciò indica che è molto probabile che un cliente includa per primo tra gli acquisti l'articolo Mountain Tire Tube.

Per eseguire il drill-through nei case dal visualizzatore cluster

  1. Scorrere il riquadro attributi verso il basso fino a individuare la riga dell'attributo Region.

    La riga contiene un istogramma per ogni cluster del modello, oltre a un istogramma aggiuntivo per Popolazione, a indicare l'intero case set utilizzato nel modello. Un istogramma è una barra contenente diversi colori, ognuno dei quali rappresenta un attributo, mentre la dimensione della sezione colorata relativa all'attributo rappresenta la percentuale di case caratterizzati da tale attributo.

  2. Confrontare gli istogrammi dei cluster rinominati, ovvero Cluster Pacifico e Cluster più grande. Ogni cluster viene visualizzato in una colonna diversa.

    Entrambi sono identificati da un colore in tinta unita, ma i colori sono diversi.

  3. Nella riga Region posizionare il mouse sull'istogramma colorato relativo a Cluster più grande.

    I valori visualizzati nella descrizione comando indicano le percentuali effettive dei case di ogni area.

  4. Fare clic con il pulsante destro del mouse sull'istogramma colorato nella riga Region relativa a Cluster Pacifico, scegliere Drill-through, quindi Solo colonne modello.

  5. Spostare la barra di scorrimento per rivedere tutti i clienti contenuti in questo cluster.

    Eseguendo il drill-through nei dettagli è possibile notare anche questa volta che il cluster contiene prevalentemente ordini provenienti dall'area del Pacifico, oltre ad alcuni ordini provenienti dal Nord America e dall'Europa.

  6. Chiudere la finestra di dialogo Drill-through.

Torna all'inizio

Scheda Caratteristiche cluster

Nella scheda Caratteristiche cluster vengono riepilogate le transizioni tra gli stati in un cluster tramite la visualizzazione di barre che rappresentano graficamente l'importanza del valore dell'attributo per il cluster selezionato. Nella colonna Variabili viene visualizzata la variabile rilevata dal modello come elemento importante per il cluster o la popolazione selezionata, ovvero un particolare valore o la relazione tra valori, nota come transizione. Nella colonna Valori sono disponibili maggiori dettagli sul valore o la transizione, mentre la colonna Probabilità rappresenta graficamente il peso dell'attributo o della transizione.

Per visualizzare gli attributi importanti per un cluster

  1. Nell'elenco a discesa Cluster selezionare Cluster Pacifico.

    L'elenco verrà aggiornato per visualizzare le caratteristiche del cluster rinominato Cluster Pacifico. In questo cluster la caratteristica più importante è Region.

  2. Posizionare il mouse sulla barra ombreggiata nella riga relativa a Region.

    La probabilità che il valore corrisponda a Pacific è molto elevata. Per ulteriori informazioni su come interpretare questi valori, vedere Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering.

  3. Esaminare l'elenco delle caratteristiche del cluster fino a individuare la prima riga di transizione.

  4. Una riga di transizione contiene il testo Transizione nella colonna Variabili e una combinazione di valori di attributi sequenziali nella colonna Valore. La sequenza può inoltre contenere punti iniziali e valori mancanti.

    Si supponga ad esempio che la transizione includa il valore [Avvio] -> Road Tire Tube. Ciò significa che i clienti contenuti in questo cluster includono frequentemente l'articolo Road Tire Tube per primo tra gli acquisti. Questo comportamento potrebbe indicare che il prodotto è un articolo popolare molto ricercato dai clienti oppure semplicemente che il prodotto è facile da reperire sul sito riservato agli acquisti.

  5. Scorrere l'elenco fino a individuare la prima transizione che non include il prefisso [Avvio] o mancante.

    Si supponga ad esempio di individuare la transizione Touring Tire, Touring Tire Tube. Ciò significa che i clienti inclusi in questo cluster hanno frequentemente acquistato questi articoli in combinazione, esattamente nell'ordine indicato.

  6. Posizionare il mouse sulla barra ombreggiata relativa a questa transizione.

    La probabilità della transizione verrà visualizzata come percentuale.

  7. Nell'elenco a discesa Cluster selezionare Popolazione (tutto).

    L'elenco degli attributi verrà aggiornato per visualizzare le caratteristiche di tutti gli ordini utilizzati per creare il modello. In questo modello di data mining la più importante caratteristica di distinzione tra i cluster è Region con valore North America.

Dall'analisi di queste attività emergono due aspetti. In primo luogo, per ottenere un numero significativo di combinazioni è necessario disporre di una quantità elevata di dati. Ad esempio, è probabile che le sequenze con le probabilità più elevate includano uno stato [Avvio] o mancante.

In secondo luogo, il forte impatto del clustering sugli attributi di Region rende più difficile l'identificazione dei gruppi delle sequenze. Si decide pertanto di creare un altro modello che utilizza solo le sequenze e non include le colonne relative a area o reddito.

Torna all'inizio

Scheda Analisi discriminante tra cluster

La scheda Analisi discriminante tra cluster consente di confrontare due cluster per determinare gli attributi che distinguono un particolare cluster da un altro. Questa scheda contiene quattro colonne: Variabili, Valori, Cluster 1 e Cluster 2. È possibile scegliere qualsiasi cluster da utilizzare come Cluster 1 e Cluster 2.

Nella colonna Variabili viene visualizzato il nome dell'attributo, che può essere un nome di colonna o una combinazione di un nome di colonna e della parola transizione. Nella colonna Valori viene visualizzato il valore esatto dell'attributo o della transizione. Le barre ombreggiate nelle colonne relative a Cluster 1 e Cluster 2 indicano l'importanza dell'attributo nei cluster sottoposti a confronto. Più lunga è la barra, maggiore è la probabilità che il cluster includa case con tale attributo.

Per confrontare due cluster tramite la scheda Analisi discriminante tra cluster

  1. Nella scheda Analisi discriminante tra cluster per Cluster 1 selezionare Cluster Pacifico.

    Per impostazione predefinita, l'opzione selezionata in Cluster 2 viene modificata in **Complemento di **ClusterPacifico.

    L'attributo principale che distingue Cluster Pacifico da tutti gli altri case è Region. L'influenza dell'attributo Region sul clustering nasconde gli altri attributi. Per evitare questo effetto, provare a eseguire il confronto tra alcuni dei cluster più piccoli. Questa operazione modifica l'elenco degli attributi, che potrebbe ora includere più transizioni tra modelli.

  2. Individuare una riga di transizione e posizionare il mouse sulla barra ombreggiata.

    Gli elementi nella colonna Valori possono includere stati e transizioni. L'ombreggiatura di ogni elemento indica il punteggio dell'analisi discriminante. Per ulteriori informazioni sul significato dei diversi punteggi, vedere Contenuto dei modelli di data mining per i modelli Sequence Clustering (Analysis Services - Data mining).

Torna all'inizio

Scheda Transizioni di stato

Nella scheda Transizioni di stato è possibile selezionare un cluster ed esplorarne le transizioni di stato. Se si seleziona Popolazione (Tutto) dall'elenco a discesa del cluster, nel diagramma viene visualizzata la distribuzione degli stati per l'intero modello di data mining.

Ogni nodo del grafico rappresenta uno stato o un possibile valore delle sequenze che si sta tentando di analizzare. Il colore di sfondo dei nodi rappresenta la frequenza di tale stato. Alcuni stati sono collegati da linee che indicano la presenza di una transizione tra tali stati. È possibile spostare il dispositivo di scorrimento verso l'alto o verso il basso per modificare la soglia di probabilità delle transizioni. Ad alcuni nodi sono associati numeri che indicano la probabilità dello stato.

Per esplorare le relazioni nella scheda Transizioni di stato

  1. Nella scheda Transizioni di stato del Visualizzatore modello di data mining selezionare Cluster Pacifico dall'elenco di cluster. Assicurarsi che l'opzione Mostra etichette sui bordi sia selezionata.

    Il grafico verrà aggiornato per visualizzare le transizioni più comuni in questo cluster.

  2. Fare clic su un nodo collegato da una linea a un altro nodo.

    Il grafico verrà aggiornato per evidenziare i nodi correlati. Il valore numerico accanto alla linea indica la probabilità della transizione.

  3. Spostare il dispositivo di scorrimento verso l'alto fino a Tutti i collegamenti, per aumentare il numero di transizioni incluse nel grafico.

  4. Selezionare Popolazione (tutto) dall'elenco Cluster.

    Si noti che quando si carica un cluster diverso, vengono ripristinate le impostazioni di visualizzazione predefinite del grafico, pertanto il dispositivo di scorrimento viene ricollocato in posizione centrale.

  5. Fare clic sul nodo più scuro del grafico, che dovrebbe corrispondere a Sport-100.

    Si noti che questo prodotto non è collegato da alcuna linea ad altri prodotti.

  6. Spostare il dispositivo di scorrimento verso l'alto di uno spazio, per aumentare il numero di transizioni incluse nel grafico. Per il momento non spostarsi fino a Tutti i collegamenti.

    Il grafico verrà aggiornato con l'aggiunta di diverse transizioni, nessuna delle quali include tuttavia il modello Sport-100.

  7. Spostare il dispositivo di scorrimento fino a Tutti i collegamenti. Fare clic sul nodo Sport-100, se non è già selezionato.

    Il grafico verrà aggiornato con l'aggiunta di numerose transizioni che includono il prodotto Sport-100. La direzione della freccia della linea di connessione indica se l'articolo Sport-100 è stato selezionato come primo o secondo articolo nella coppia.

  8. Fare clic sul nodo relativo a Touring Tire e riposizionare il dispositivo di scorrimento al centro.

    In un primo momento sono presenti numerose linee di transizione che collegano Touring Tire agli altri prodotti, ma alzando la soglia di probabilità le transizioni meno probabili vengono eliminate dal grafico, lasciando solo la transizione Touring Tire > Touring Tire Tube. Questa transizione indica che se un cliente include un articolo Touring Tire tra gli acquisti, esiste una forte probabilità che il cliente inserisca successivamente un articolo Touring Tire Tube.

Torna all'inizio

Generic Content Tree Viewer

Questo visualizzatore può essere utilizzato per tutti i modelli, indipendentemente dall'algoritmo o dal tipo di modello. MicrosoftGeneric Content Tree Viewer è disponibile nell'elenco a discesa Visualizzatore.

Un albero dei contenuti è una rappresentazione di un modello di data mining sotto forma di una serie di nodi, in cui ogni nodo rappresenta le informazioni relative ai dati di training. Il nodo può contenere un modello, un set di regole, un cluster o la definizione di un intervallo di date che condividono alcuni attributi. Il contenuto esatto del nodo differisce a seconda dell'algoritmo e dell'attributo stimabile, ma la rappresentazione generale del contenuto è la stessa.

È possibile espandere ogni nodo per aumentare il livello di dettaglio e copiare il contenuto di qualsiasi nodo negli Appunti. Per ulteriori informazioni, vedere Visualizzazione dei dettagli di un modello con Microsoft Generic Content Tree Viewer.

Per visualizzare i dettagli di un modello Sequence Clustering tramite Generic Content Tree Viewer

  1. Nella scheda Visualizzatore modello di data mining selezionare Microsoft Generic Content Tree Viewer dall'elenco a discesa Visualizzatore.

  2. Nel riquadro Didascalia nodo fare clic su Cluster Pacifico (1).

    Il nome di questo nodo è composto dal nome descrittivo assegnato al cluster e dall'ID nodo sottostante. È possibile utilizzare gli ID nodo per eseguire il drill-down in ulteriori dettagli relativi al modello.

  3. Espandere il primo nodo figlio, denominato Livello sequenza per cluster 1.

    Il nodo del livello di sequenza relativo a un cluster contiene dettagli sugli stati e le transizioni inclusi in tale cluster. È possibile utilizzare questi dettagli, disponibili nella colonna NODE_DISTRIBUTION, per esplorare le sequenze e gli stati di ogni cluster o dell'intero modello.

  4. Continuare a espandere i nodi e a visualizzare i dettagli nel visualizzatore HTML.

Per ulteriori informazioni sul contenuto del modello di data mining e su come utilizzare i dettagli riportati nel visualizzatore, vedere Contenuto dei modelli di data mining per i modelli Sequence Clustering (Analysis Services - Data mining).

Torna all'inizio