Condividi tramite


Contenuto del modello di data mining per i modelli di clustering di sequenze (Analysis Services - Data mining)

In questo argomento viene descritto il contenuto del modello di data mining specifico per i modelli che usano l'algoritmo Microsoft Sequence Clustering. Per una spiegazione della terminologia generale e statistica relativa al contenuto del modello di mining, applicabile a tutti i tipi di modello, vedere Contenuto del Modello di Mining (Analysis Services - Data Mining).

Comprendere la struttura di un modello di clusterizzazione delle sequenze

Un modello sequence clustering ha un singolo nodo padre (NODE_TYPE = 1) che rappresenta il modello e i relativi metadati. Il nodo padre, etichettato (All), ha un nodo di sequenza correlato (NODE_TYPE = 13) che elenca tutte le transizioni rilevate nei dati di training.

Struttura del modello di raggruppamento di sequenze Struttura

L'algoritmo crea anche un numero di cluster, in base alle transizioni trovate nei dati e a qualsiasi altro attributo di input incluso durante la creazione del modello, ad esempio i dati demografici dei clienti e così via. Ogni cluster (NODE_TYPE = 5) contiene il proprio nodo di sequenza (NODE_TYPE = 13) che elenca solo le transizioni usate per generare tale cluster specifico. Dal nodo della sequenza è possibile eseguire il drill-down per visualizzare i dettagli delle singole transizioni di stato (NODE_TYPE = 14).

Per una spiegazione delle transizioni di sequenza e stato, con esempi, vedere Algoritmo Microsoft Sequence Clustering.

Contenuto del modello per un modello di raggruppamento sequenziale

In questa sezione vengono fornite informazioni aggiuntive sulle colonne nel contenuto del modello di data mining con particolare rilevanza per il clustering di sequenza.

Catalogo dei Modelli
Nome del database in cui è archiviato il modello.

MODEL_NAME
Nome del modello.

ATTRIBUTE_NAME
Sempre vuoto.

NOME_DEL_NODO
Il nome del nodo. Attualmente lo stesso valore di NODE_UNIQUE_NAME.

NOME_UNICO_NODO
Nome univoco del nodo.

TIPO_DI_NODO
Un modello sequence clustering restituisce i tipi di nodo seguenti:

ID del tipo di nodo Descrizione
1 (modello) Nodo radice per il modello
5 (gruppo) Contiene un conteggio delle transizioni nel cluster, un elenco degli attributi e le statistiche che descrivono i valori nel cluster.
13 (sequenza) Contiene un elenco di transizioni incluse nel cluster.
14 (transizione) Descrive una sequenza di eventi come tabella in cui la prima riga contiene lo stato iniziale e tutte le altre righe contengono stati successivi, insieme alle statistiche di supporto e probabilità.

NODE_GUID
Vuoto.

NODE_CAPTION
Etichetta o didascalia associata al nodo a scopo di visualizzazione.

È possibile rinominare le didascalie del cluster durante l'uso del modello; Tuttavia, il nuovo nome non viene salvato in modo permanente se si chiude il modello.

CARDINALITÀ_BAMBINI
Una stima del numero di figli che il nodo ha.

Radice del modello Il valore di cardinalità è uguale al numero di cluster più uno. Per altre informazioni, vedere Cardinalità.

Nodi del cluster La cardinalità è sempre 1, perché ogni cluster ha un singolo nodo figlio, che contiene l'elenco di sequenze nel cluster.

Nodi di sequenza Cardinalità indica il numero di transizioni incluse nel cluster. Ad esempio, la cardinalità del nodo della sequenza per la radice del modello indica quante transizioni sono state trovate nell'intero modello.

PARENT_NOME_UNICO
Nome univoco del genitore del nodo.

Null viene restituito per tutti i nodi a livello radice.

DESCRIZIONE_NODO
Uguale alla didascalia del nodo.

REGOLA_NODO
Sempre vuoto.

REGOLA_MARGINALE
Sempre vuoto.

PROBABILITÀ_NODO
Radice del modello Sempre 0.

Nodi del cluster Probabilità regolata del cluster nel modello. Le probabilità adattate non sommano a 1, perché il metodo di clustering usato nel clustering di sequenza consente una appartenenza parziale in più cluster.

Nodi di sequenza Sempre 0.

Nodi di transizione Sempre 0.

PROBABILITÀ MARGINALE
Radice del modello Sempre 0.

Nodi del cluster Stesso valore di NODE_PROBABILITY.

Nodi di sequenza Sempre 0.

Nodi di transizione Sempre 0.

Distribuzione_Nodo
Tabella contenente probabilità e altre informazioni. Per altre informazioni, vedere NODE_DISTRIBUTION Table.

NODE_SUPPORT
Numero di transizioni che supportano questo nodo. Pertanto, se sono presenti 30 esempi di sequenza "Product A seguito dal Prodotto B" nei dati di training, il supporto totale è 30.

Radice del modello Numero totale di transizioni nel modello.

Nodi del cluster Supporto grezzo per il cluster, ovvero il numero di casi di training che contribuiscono a questo cluster.

Nodi di sequenza Sempre 0.

Nodi di transizione Percentuale di casi nel cluster che rappresentano una transizione specifica. Può essere 0 o può avere un valore positivo. Il calcolo viene effettuato prendendo il supporto grezzo per il nodo del cluster e moltiplicandolo per la probabilità del cluster.

Da questo valore è possibile indicare il numero di casi di training che hanno contribuito alla transizione.

MSOLAP_MODEL_COLUMN
Non applicabile.

MSOLAP_NODE_SCORE
Non applicabile.

MSOLAP_NODE_SHORT_CAPTION
Uguale a NODE_DESCRIPTION.

Informazioni su sequenze, stati e transizioni

Un modello sequence clustering ha una struttura univoca che combina due tipi di oggetti con tipi molto diversi di informazioni: il primo sono cluster e il secondo sono transizioni di stato.

I cluster creati da sequence clustering sono simili ai cluster creati dall'algoritmo Microsoft Clustering. Ogni cluster ha un profilo e caratteristiche. Tuttavia, nel clustering di sequenza, ogni cluster contiene anche un singolo nodo figlio che elenca le sequenze in tale cluster. Ogni nodo della sequenza contiene più nodi figlio che descrivono in dettaglio le transizioni di stato, con probabilità.

Esistono quasi sempre più sequenze nel modello di quanto sia possibile trovare in qualsiasi caso singolo, perché le sequenze possono essere concatenate. Microsoft Analysis Services archivia i puntatori da uno stato all'altro in modo da poter contare il numero di volte in cui viene eseguita ogni transizione. È anche possibile trovare informazioni sul numero di volte in cui si è verificata la sequenza e misurare la probabilità di verificarsi rispetto all'intero set di stati osservati.

Nella tabella seguente viene riepilogato il modo in cui le informazioni vengono archiviate nel modello e il modo in cui i nodi sono correlati.

nodo Ha nodo figlio tabella NODE_DISTRIBUTION
Radice del modello Più nodi del cluster

Nodo con sequenze per l'intero modello
Elenca tutti i prodotti nel modello, con supporto e probabilità.

Poiché il metodo di clustering consente l'appartenenza parziale in più cluster, il supporto e la probabilità possono avere valori frazionari. Invece di contare un singolo caso una sola volta, ogni caso può potenzialmente appartenere a più cluster. Pertanto, quando viene determinata l'appartenenza finale al cluster, il valore viene modificato in base alla probabilità di tale cluster.
Nodo di sequenza per il modello Più nodi di transizione Elenca tutti i prodotti nel modello, con supporto e probabilità.

Poiché il numero di sequenze è noto per il modello, a questo livello, i calcoli per il supporto e la probabilità sono semplici:

Supporto = conteggio dei casi

Probabilità = probabilità non elaborata di ogni sequenza nel modello. Tutte le probabilità devono sommare a 1.
Singoli nodi del cluster Nodo con sequenze solo per il cluster Elenca tutti i prodotti in un cluster, ma fornisce valori di supporto e probabilità solo per i prodotti che sono caratteristiche del cluster.

Il supporto rappresenta il valore di supporto aggiustato per ogni caso in questo cluster. I valori di probabilità sono probabilità regolata.
Nodi di sequenza per singoli cluster Più nodi con transizioni per le sequenze solo in tale cluster Esattamente le stesse informazioni dei singoli nodi del cluster.
Transizioni Nessun figlio Elenca le transizioni per il primo stato correlato.

Il supporto è un valore di supporto adattato, che indica i casi che partecipano a ciascuna transizione. La probabilità è la probabilità regolata, rappresentata come percentuale.

Tabella NODE_DISTRIBUTION

La tabella NODE_DISTRIBUTION fornisce informazioni dettagliate sulla probabilità e sul supporto per le transizioni e le sequenze per un cluster specifico.

Una riga viene sempre aggiunta alla tabella di transizione per rappresentare i valori possibili Missing . Per informazioni sul significato del Missing valore e sul modo in cui influisce sui calcoli, vedere Valori mancanti (Analysis Services - Data mining).

I calcoli per il supporto e la probabilità variano a seconda che il calcolo si applichi ai case di training o al modello finito. Questo perché il metodo di clustering predefinito, Expectation Maximization (EM), presuppone che qualsiasi caso possa appartenere a più cluster. Quando si calcola il supporto per i casi nel modello, è possibile usare conteggi grezzi e probabilità grezze. Tuttavia, le probabilità per qualsiasi sequenza specifica in un cluster devono essere ponderate in base alla somma di tutte le possibili combinazioni di sequenza e cluster.

Cardinalità

In un modello di clustering la cardinalità del nodo padre indica in genere il numero di cluster presenti nel modello. Tuttavia, un modello di clustering di sequenze ha due tipi di nodi al livello di cluster: un tipo di nodo contiene cluster e l'altro tipo di nodo contiene un elenco di sequenze per il modello nella sua interezza.

Pertanto, per apprendere il numero di cluster nel modello, è possibile accettare il valore di NODE_CARDINALITY per il nodo (Tutto) e sottrarrne uno. Ad esempio, se il modello ha creato 9 cluster, la cardinalità della radice del modello è 10. Questo perché il modello contiene 9 nodi del cluster, ognuno con il proprio nodo di sequenza, più un nodo di sequenza aggiuntivo etichettato cluster 10, che rappresenta le sequenze per il modello.

Guida alla struttura

Un esempio può aiutare a chiarire come vengono archiviate le informazioni e come interpretarlo. Ad esempio, è possibile trovare l'ordine più grande, ovvero la catena osservata più lunga nei dati AdventureWorksDW2012 sottostanti, usando la query seguente:

USE AdventureWorksDW2012  
SELECT DISTINCT OrderNumber, Count(*)  
FROM vAssocSeqLineItems  
GROUP BY OrderNumber  
ORDER BY Count(*) DESC  

Da questi risultati si scopre che i numeri di ordine "SO72656", "SO58845" e "SO70714" contengono le sequenze più grandi, con otto elementi ciascuno. Usando gli ID ordine, è possibile visualizzare i dettagli di un determinato ordine per vedere quali articoli sono stati acquistati e in quale ordine.

Numero Ordine NumeroLinea Modello
SO58845 1 Mountain-500
SO58845 2 LL Mountain Tire
SO58845 3 Mountain Tire Tube
SO58845 4 Set parafango - Montagna
SO58845 5 Portaborraccia da Montagna
SO58845 6 Bottiglia d'acqua
SO58845 7 Sport-100
SO58845 8 Long-Sleeve Logo Jersey

Tuttavia, alcuni clienti che acquistano Mountain-500 potrebbero acquistare prodotti diversi. È possibile visualizzare tutti i prodotti che seguono Mountain-500 visualizzando l'elenco di sequenze nel modello. Le procedure seguenti illustrano come visualizzare queste sequenze usando i due visualizzatori forniti in Analysis Services:

  1. In Esplora oggetti fare clic con il pulsante destro del mouse sul modello [Sequence Clustering] e scegliere Sfoglia.

  2. Nel visualizzatore Sequence Clustering fare clic sulla scheda Transizioni di stato .

  3. Nell'elenco a discesa Cluster verificare che l'opzione Population (All) sia selezionata.

  4. Sposta il cursore sulla sinistra del riquadro verso l'alto per visualizzare tutti i collegamenti.

  5. Nel diagramma individuare Mountain-500 e fare clic sul nodo nel diagramma.

  6. Le linee evidenziate puntano agli stati successivi (i prodotti acquistati dopo mountain-500) e i numeri indicano la probabilità. Confrontare questi elementi con i risultati nel visualizzatore contenuto del modello generico.

  1. In Esplora oggetti fare clic con il pulsante destro del mouse sul modello [Sequence Clustering] e scegliere Sfoglia.

  2. Nell'elenco a discesa del visualizzatore selezionare Microsoft Generic Content Tree Viewer.

  3. Nel riquadro Didascalia nodo fare clic sul nodo denominato Livello sequenza per il cluster 16.

  4. Nel riquadro Dettagli nodo, individuare la riga NODE_DISTRIBUTION e fare clic su un punto qualsiasi della tabella interna.

    La riga superiore è sempre per il valore mancante. Questa riga è lo stato di sequenza 0.

  5. Premere il tasto freccia giù o utilizzare le barre di scorrimento per andare verso il basso nella tabella nidificata fino a trovare la riga Mountain-500.

    Questa riga è lo stato della sequenza 20.

    Annotazioni

    È possibile ottenere il numero di riga per uno stato di sequenza specifico programmaticamente, ma se si sta solo navigando, potrebbe essere più semplice copiare la tabella nidificata in una cartella di lavoro di Excel.

  6. Ritornare al riquadro della didascalia del nodo ed espandere il nodo al Livello di sequenza per il cluster 16, se non è già stato espanso.

  7. Cerca tra i nodi figli per riga di transizione per lo stato della sequenza numero 20. Fare clic sul nodo di transizione.

  8. La tabella NODE_DISTRIBUTION annidata contiene i prodotti e le probabilità seguenti. Confrontarle con i risultati nella scheda Transizione stato del visualizzatore Sequence Clustering.

La tabella seguente mostra i risultati della tabella NODE_DISTRIBUTION, insieme ai valori di probabilità arrotondati visualizzati nel visualizzatore grafico.

Prodotto Supporto (tabella NODE_DISTRIBUTION) Tabella probabilità (NODE_DISTRIBUTION) Probabilità (dal grafico)
Mancante 48.447887 0.138028169 (non visualizzato)
Berretto ciclistico 10.876056 0.030985915 0,03
Set di Parafanghi - Da Montagna 80.087324 0.228169014 0,23
guanti Half-Finger 0.9887324 0,002816901 0.00
Pacchetto di idratazione 0.9887324 0.002816901 0.00
LL Mountain Tire 51.414085 0.146478873 0.15
Long-Sleeve Logo Jersey 2.9661972 0.008450704 0,01
Portaborraccia da Montagna 87.997183 0.250704225 0.25
Mountain Tire Tube 16.808451 0.047887324 0.05
Short-Sleeve Jersey classico 10.876056 0.030985915 0,03
Sport-100 20.76338 0.05915493 0.06
Bottiglia d'acqua 18.785915 0.053521127 0.25

Anche se inizialmente è stato selezionato dai dati di training il prodotto 'Mountain-500' seguito da 'LL Mountain Tire', si può notare che ci sono molte altre sequenze possibili. Per trovare informazioni dettagliate per qualsiasi cluster specifico, è necessario ripetere il processo di drill-down dall'elenco di sequenze nel cluster alle transizioni effettive per ogni stato o prodotto.

È possibile passare dalla sequenza elencata in un particolare cluster alla riga di transizione. Da tale riga di transizione è possibile determinare il prodotto successivo e tornare a tale prodotto nell'elenco di sequenze. Ripetendo questo processo per ogni primo e secondo stato è possibile lavorare attraverso lunghe catene di stati.

Uso delle informazioni sulla sequenza

Uno scenario comune per il clustering di sequenze consiste nel tenere traccia dei clic degli utenti in un sito Web. Ad esempio, se i dati provengono dai record degli acquisti dei clienti nel sito Web di e-commerce Adventure Works, il modello di clustering sequenza risultante può essere usato per dedurre il comportamento dell'utente, riprogettare il sito di e-commerce per risolvere i problemi di navigazione o promuovere le vendite.

Ad esempio, l'analisi potrebbe mostrare che gli utenti seguono sempre una particolare catena di prodotti, indipendentemente dai dati demografici. Inoltre, è possibile che gli utenti escino di frequente dal sito dopo aver fatto clic su un determinato prodotto. Dato che la ricerca, è possibile chiedere quali percorsi aggiuntivi è possibile fornire agli utenti che potrebbero indurre gli utenti a rimanere nel sito Web.

Se non si dispone di informazioni aggiuntive da usare per classificare gli utenti, è sufficiente usare le informazioni sulla sequenza per raccogliere dati sulla navigazione per comprendere meglio il comportamento complessivo. Tuttavia, se è possibile raccogliere informazioni sui clienti e associare tali informazioni al database dei clienti, è possibile combinare la potenza del clustering con la previsione sulle sequenze per fornire raccomandazioni personalizzate per l'utente o, ad esempio, in base al percorso di spostamento alla pagina corrente.

Un altro uso delle informazioni estese sullo stato e sulla transizione compilate da un modello sequence clustering consiste nel determinare quali possibili percorsi non vengono mai usati. Ad esempio, se si hanno molti visitatori che passano alle pagine 1-4, ma i visitatori non continuano mai a pagina 5, è possibile verificare se ci sono problemi che impediscono la navigazione alla pagina 5. A tale scopo, è possibile eseguire query sul contenuto del modello e confrontarlo con un elenco di percorsi possibili. I grafici che indicano tutti i percorsi di spostamento in un sito Web possono essere creati a livello di codice o usando un'ampia gamma di strumenti di analisi del sito.

Per informazioni su come ottenere l'elenco dei percorsi osservati eseguendo una query sul contenuto del modello e per visualizzare altri esempi di query in un modello di sequence clustering, vedere Esempi di query del modello sequence clustering.

Vedere anche

Contenuto del modello di Data Mining (Analysis Services - Data Mining)
Algoritmo di Clusterizzazione Sequenziale di Microsoft
Esempi di query del modello sequence clustering