Condividi tramite


Algoritmo di Clustering Microsoft

L'algoritmo Microsoft Clustering è un algoritmo di segmentazione fornito da Analysis Services. L'algoritmo usa tecniche iterative per raggruppare i casi in un set di dati in cluster che contengono caratteristiche simili. Questi raggruppamenti sono utili per esplorare i dati, identificare le anomalie nei dati e creare stime.

I modelli di clustering identificano le relazioni in un set di dati che potrebbe non derivare logicamente tramite osservazione casuale. Ad esempio, è possibile distinguere logicamente che le persone che si recano in bicicletta non vivono in genere a lunga distanza da dove lavorano. L'algoritmo, tuttavia, può trovare altre caratteristiche sui pendolari in bicicletta che non sono così ovvie. Nel diagramma seguente il cluster A rappresenta i dati sulle persone che tendono a guidare verso il lavoro, mentre il cluster B rappresenta i dati sulle persone che tendono a guidare biciclette per lavorare.

Modello di cluster di tendenze pendolari

L'algoritmo di clustering è diverso da altri algoritmi di data mining, ad esempio l'algoritmo Microsoft Decision Trees, in quanto non è necessario designare una colonna stimabile per poter creare un modello di clustering. L'algoritmo di clustering esegue il training del modello esclusivamente dalle relazioni presenti nei dati e dai cluster identificati dall'algoritmo.

Esempio

Si consideri un gruppo di persone che condividono informazioni demografiche simili e che acquistano prodotti simili dalla società Adventure Works. Questo gruppo di persone rappresenta un cluster di dati. In un database possono esistere diversi cluster di questo tipo. Osservando le colonne che costituiscono un cluster, è possibile vedere più chiaramente in che modo i record in un set di dati sono correlati l'uno all'altro.

Funzionamento dell'algoritmo

L'algoritmo Microsoft Clustering identifica innanzitutto le relazioni in un set di dati e genera una serie di cluster basati su tali relazioni. Un grafico a dispersione è un modo utile per rappresentare visivamente il modo in cui l'algoritmo raggruppa i dati, come illustrato nel diagramma seguente. Il grafico a dispersione rappresenta tutti i case nel set di dati e ogni caso è un punto nel grafico. I cluster raggruppano i punti sul grafico e illustrano le relazioni che l'algoritmo identifica.

Grafico a dispersione dei casi in un set di dati

Dopo la prima definizione dei cluster, l'algoritmo calcola l'integrità dei cluster che rappresentano i raggruppamenti dei punti e quindi tenta di ridefinire i raggruppamenti per creare cluster che rappresentino meglio i dati. L'algoritmo esegue l'iterazione di questo processo fino a quando non riesce a migliorare di più i risultati definendo i cluster.

È possibile personalizzare il funzionamento dell'algoritmo selezionando una tecnica di clustering, limitando il numero massimo di cluster o modificando la quantità di supporto necessaria per creare un cluster. Per altre informazioni, vedere Documentazione tecnica sull'algoritmo Microsoft Clustering.

Dati necessari per i modelli di clustering

Quando si preparano i dati da usare per il training di un modello di clustering, è necessario comprendere i requisiti per l'algoritmo specifico, inclusa la quantità di dati necessari e il modo in cui vengono usati i dati.

I requisiti per un modello di clustering sono i seguenti:

  • Una singola colonna chiave Ogni modello deve contenere una colonna numerica o di testo che identifica in modo univoco ogni record. Le chiavi composte non sono consentite.

  • Colonne di input Ogni modello deve contenere almeno una colonna di input contenente i valori usati per compilare i cluster. È possibile avere tutte le colonne di input desiderate, ma a seconda del numero di valori in ogni colonna, l'aggiunta di colonne aggiuntive può aumentare il tempo necessario per eseguire il training del modello.

  • Colonna stimabile facoltativa L'algoritmo non richiede una colonna stimabile per compilare il modello, ma è possibile aggiungere una colonna stimabile di quasi qualsiasi tipo di dati. I valori della colonna stimabile possono essere considerati come input per il modello di clustering oppure è possibile specificare che venga usato solo per la stima. Ad esempio, se si vuole stimare il reddito dei clienti raggruppando i dati demografici, ad esempio l'area geografica o l'età, è necessario specificare il reddito come PredictOnly e aggiungere tutte le altre colonne, ad esempio l'area o l'età, come input.

Per informazioni più dettagliate sui tipi di contenuto e sui tipi di dati supportati per i modelli di clustering, vedere la sezione Requisiti di Riferimento tecnico sull'algoritmo Microsoft Clustering.

Visualizzazione di un modello di clustering

Per esplorare il modello, è possibile usare Microsoft Cluster Viewer. Quando si visualizza un modello di clustering, Analysis Services mostra i cluster in un diagramma che illustra le relazioni tra i cluster e fornisce anche un profilo dettagliato di ogni cluster, un elenco degli attributi che distinguono ogni cluster dagli altri e le caratteristiche dell'intero set di dati di training. Per altre informazioni, vedere Esplorare un modello usando il Visualizzatore cluster Microsoft.

Per altre informazioni dettagliate, è possibile esplorare il modello in Microsoft Generic Content Tree Viewer. Il contenuto archiviato per il modello include la distribuzione per tutti i valori in ogni nodo, la probabilità di ogni cluster e altre informazioni. Per ulteriori informazioni, vedere Contenuto del modello di mining per i modelli di clustering (Analysis Services - Data Mining).

Creazione di stime

Dopo aver eseguito il training del modello, i risultati vengono archiviati come set di modelli, che è possibile esplorare o usare per eseguire stime.

È possibile creare query per restituire stime sull'inserimento di nuovi dati nei cluster individuati o per ottenere statistiche descrittive sui cluster.

Per informazioni su come creare query su un modello di data mining, vedere Query di data mining. Per esempi di come usare query con un modello di clustering, vedere Esempi di query del modello di clustering.

Osservazioni:

  • Supporta l'uso di Predictive Model Markup Language (PMML) per creare modelli di data mining.

  • Supporta il drill-through.

  • Supporta l'uso di modelli di data mining OLAP e la creazione di dimensioni di data mining.

Vedere anche

Algoritmi di data mining (Analysis Services - Data Mining)Riferimento tecnico dell'algoritmo di clustering di MicrosoftContenuto del modello per modelli di clustering (Analysis Services - Data Mining)Esempi di query del modello di clustering