Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
L'algoritmo Microsoft Sequence Clustering è un algoritmo di analisi sequenza fornito da Microsoft SQL Server Analysis Services. È possibile usare questo algoritmo per esplorare i dati che contengono eventi che possono essere collegati tramite percorsi o sequenze seguenti. L'algoritmo trova le sequenze più comuni raggruppando o raggruppando in cluster le sequenze identiche. Di seguito sono riportati alcuni esempi di dati che contengono sequenze che potrebbero essere usate per il data mining, per fornire informazioni dettagliate sui problemi comuni o sugli scenari aziendali:
Percorsi di clic che vengono creati quando gli utenti navigano o consultano un sito Web.
Registra gli eventi che precedono un evento imprevisto, ad esempio errori del disco rigido o deadlock del server.
Record delle transazioni che descrivono l'ordine in cui un cliente aggiunge elementi a un carrello acquisti presso un rivenditore online.
Record che seguono le interazioni dei clienti (o dei pazienti) nel tempo, per prevedere gli annullamenti del servizio o altri risultati scarsi.
Questo algoritmo è simile in molti modi all'algoritmo Microsoft Clustering. Tuttavia, invece di trovare cluster di case che contengono attributi simili, l'algoritmo Microsoft Sequence Clustering trova cluster di case che contengono percorsi simili in una sequenza.
Esempio
Il sito Web Adventure Works Cycles raccoglie informazioni sulle pagine visitate dagli utenti del sito e sull'ordine in cui vengono visitate le pagine. Poiché l'azienda fornisce l'ordinamento online, i clienti devono accedere al sito. Questo fornisce all'azienda informazioni di clic per ogni profilo cliente. Usando l'algoritmo Microsoft Sequence Clustering su questi dati, l'azienda può trovare gruppi, o cluster, di clienti con modelli o sequenze simili di clic. L'azienda può quindi usare questi cluster per analizzare il modo in cui gli utenti passano attraverso il sito Web, per identificare quali pagine sono più strettamente correlate alla vendita di un determinato prodotto e per stimare quali pagine sono più probabili visitare successivamente.
Funzionamento dell'algoritmo
L'algoritmo Microsoft Sequence Clustering è un algoritmo ibrido che combina tecniche di clustering con l'analisi della catena Markov per identificare i cluster e le relative sequenze. Uno dei tratti distintivi dell'algoritmo Microsoft Sequence Clustering è che usa i dati di sequenza. Questi dati rappresentano in genere una serie di eventi o transizioni tra gli stati in un set di dati, ad esempio una serie di acquisti di prodotti o clic Web per un determinato utente. L'algoritmo esamina tutte le probabilità di transizione e misura le differenze o le distanze tra tutte le possibili sequenze nel set di dati per determinare quali sequenze sono le migliori da usare come input per il clustering. Dopo aver creato l'elenco delle sequenze candidate, l'algoritmo usa le informazioni sulla sequenza come input per il metodo EM di clustering.
Per una descrizione dettagliata dell'implementazione, vedere Documentazione tecnica sull'algoritmo Microsoft Sequence Clustering.
Dati richiesti per i modelli di clustering delle sequenze
Quando si preparano i dati per l'uso per il training di un modello sequence clustering, è necessario comprendere i requisiti per l'algoritmo specifico, inclusa la quantità di dati necessari e il modo in cui vengono usati i dati.
I requisiti per un modello sequence clustering sono i seguenti:
Una singola colonna chiave Un modello sequence clustering richiede una chiave che identifica i record.
Colonna sequenza Per i dati di sequenza, il modello deve avere una tabella nidificata che contiene una colonna ID sequenza. L'ID sequenza può essere qualsiasi tipo di dati ordinabile. Ad esempio, è possibile usare un identificatore di pagina Web, un numero intero o una stringa di testo, purché la colonna identifichi gli eventi in una sequenza. Per ogni sequenza è consentito un solo identificatore di sequenza e in ogni modello è consentito un solo tipo di sequenza.
Attributi facoltativi non di sequenza L'algoritmo supporta l'aggiunta di altri attributi non correlati alla sequenziazione. Questi attributi possono includere colonne annidate.
Nell'esempio citato in precedenza del sito Web Adventure Works Cycles, ad esempio, un modello sequence clustering può includere informazioni sugli ordini come tabella dei casi, dati demografici sul cliente specifico per ogni ordine come attributi non di sequenza e una tabella nidificata contenente la sequenza in cui il cliente ha esplorato il sito o inserito elementi in un carrello acquisti come informazioni sulla sequenza.
Per informazioni più dettagliate sui tipi di contenuto e sui tipi di dati supportati per i modelli di sequence clustering, vedere la sezione Requisiti di Microsoft Sequence Clustering Algorithm Technical Reference( Informazioni tecniche sull'algoritmo Microsoft Sequence Clustering).
Visualizzazione di un modello di clustering di sequenze
Il modello di data mining creato da questo algoritmo contiene descrizioni delle sequenze più comuni nei dati. Per esplorare il modello, è possibile usare Microsoft Sequence Cluster Viewer. Quando si visualizza un modello sequence clustering, Analysis Services mostra i cluster che contengono più transizioni. È anche possibile visualizzare le statistiche pertinenti. Per altre informazioni, vedere Esplorare un modello usando microsoft Sequence Cluster Viewer.
Per altre informazioni dettagliate, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer. Il contenuto archiviato per il modello include la distribuzione di tutti i valori in ogni nodo, la probabilità di ogni cluster e i dettagli sulle transizioni. Per altre informazioni, vedere Contenuto del modello di data mining per i modelli di sequence clustering (Analysis Services - Data mining) .
Creazione di stime
Dopo aver eseguito il training del modello, i risultati vengono archiviati come set di modelli. È possibile usare le descrizioni delle sequenze più comuni nei dati per prevedere il passaggio successivo di una nuova sequenza. Tuttavia, poiché l'algoritmo include altre colonne, è possibile usare il modello risultante per identificare le relazioni tra i dati sequenziati e gli input non sequenziali. Ad esempio, se si aggiungono dati demografici al modello, è possibile eseguire stime per gruppi specifici di clienti. Le query di stima possono essere personalizzate per restituire un numero variabile di stime o per restituire statistiche descrittive.
Per informazioni su come creare query su un modello di data mining, vedere Query di data mining. Per esempi di come usare query con un modello sequence clustering, vedere Esempi di query del modello sequence clustering.
Osservazioni:
Non supporta l'uso di Predictive Model Markup Language (PMML) per creare modelli di data mining.
Supporta il drill-through.
Supporta l'uso di modelli di data mining OLAP e la creazione di dimensioni di data mining.
Vedere anche
Algoritmi di data mining (Analysis Services - Data mining)
Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
Esempi di query del modello sequence clustering
Esplorare un modello usando microsoft Sequence Cluster Viewer