Personalizzare struttura e modelli di data mining
Dopo avere selezionato un algoritmo adatto alle esigenze aziendali, è possibile personalizzare il modello di data mining nei modi seguenti per migliorarne potenzialmente i risultati.
Utilizzare colonne di dati diverse nel modello o modificare l'utilizzo, il tipo di contenuto o il metodo di discretizzazione delle colonne.
Creare filtri per il modello di data mining per limitare i dati utilizzati per il training del modello.
Modificare l'algoritmo utilizzato per analizzare dati.
Impostare i parametri dell'algoritmo per determinare soglie, divisioni dell'albero e altre condizioni importanti.
In questo argomento vengono descritte queste opzioni.
Modifica dei dati utilizzati dal modello
Le decisioni adottate in relazione alle colonne di dati da utilizzare nel modello e alle modalità di utilizzo e di elaborazione dei dati possono influire significativamente sui risultati dell'analisi. Negli argomenti seguenti vengono fornite informazioni che semplificano la comprensione di tali scelte.
Utilizzo della selezione delle funzionalità
Nella maggior parte degli algoritmi di data mining di Analysis Services viene utilizzato un processo denominato selezione delle funzionalità per selezionare solo gli attributi più utili da aggiungere a un modello. La riduzione del numero di colonne e di attributi può migliorare le prestazione e la qualità del modello. I metodi disponibili per la selezione delle funzionalità differiscono a seconda dell'algoritmo scelto.
Selezione delle caratteristica (Data mining).
Modifica dell'utilizzo
È possibile modificare le colonne incluse in un modello di data mining e la modalità di utilizzo di ciascuna colonna. Se non si ottengono i risultati previsti, è necessario esemplificare le colonne utilizzate come input e considerare se si tratta della scelta corretta e se è possibile migliorare la gestione dei dati, ad esempio:
Individuare variabili di categoria etichettate erroneamente come numeri.
Aggiungere categorie per comprimere il numero di attributi e semplificare l'individuazione delle correlazioni.
Modificare la modalità in cui i numeri sono suddivisi in contenitori, o discretizzati.
Rimuovere le colonne che dispongono di molti valori univoci o quelle che contengono in realtà dati di riferimento non utili per l'analisi, ad esempio indirizzi o secondi nomi.
Non è necessario rimuovere fisicamente le colonne dalla struttura di data mining, ma è sufficiente contrassegnarle come Ignora. La colonna viene rimossa dal modello di data mining, ma continuerà a essere utilizzata da altri modelli di data mining della struttura o come riferimento in una query drill-through.
Creazione di alias per le colonne del modello
Quando Analysis Services crea il modello di data mining, utilizza gli stessi nomi della colonna presenti nella struttura di data mining. È possibile aggiungere un alias a qualsiasi colonna nel modello di data mining. Ciò può facilitare la comprensione del contenuto o dell'utilizzo della colonna oppure rendere il nome più corto per semplificare la creazione delle query. Gli alias sono anche utili quando si desidera creare una copia di una colonna e assegnarle un nome descrittivo.
Per creare un alias modificare la proprietà Name della colonna del modello di data mining. In Analysis Services continua a essere utilizzato il nome originale come ID della colonna e il nuovo valore digitato come Nome diviene l'alias della colonna e viene visualizzato nella griglia tra parentesi accanto all'utilizzo della colonna.
Nell'illustrazione vengono mostrati i modelli correlati che dispongono di più copie di una colonna della struttura di data mining, tutti correlati a Income. Ogni copia della colonna della struttura è stata discretizzata in modo diverso. I modelli nel diagramma utilizzano ciascuno una colonna diversa dalla struttura di data mining. Tuttavia, per facilitare il confronto delle colonne attraverso i modelli, la colonna in ogni modello è stata rinominata come [Income].
Aggiunta di filtri
È possibile aggiungere un filtro a un modello di data mining. Un filtro è un set di condizioni di WHERE che limitano i dati nei case del modello ad alcuni subset. Il filtro viene utilizzato durante il training del modello e può essere utilizzata facoltativamente durante il test del modello o durante la creazione dei grafici di accuratezza.
L'aggiunta di filtri consente di riutilizzare le strutture di data mining, ma creare modelli basati su subset di dati molto diversi. In alternativa, è possibile utilizzare i filtri semplicemente per eliminare determinate righe e migliorare la qualità dell'analisi.
Per ulteriori informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).
Modifica dell'algoritmo
Anche se i nuovi modelli aggiunti a una struttura di data mining condividono lo stesso set di dati, è possibile ottenere risultati diversi utilizzando un algoritmo diverso (se supportato dai dati) o modificando i parametri per l'algoritmo. Inoltre, è possibile impostare i flag di modellazione.
La scelta dell'algoritmo determina il tipo di risultati ottenuto. Per informazioni generali sul funzionamento di un algoritmo specifico o gli scenari aziendali in cui l'utilizzo di un determinato algoritmo può rivelarsi utile, vedere Algoritmi di data mining (Analysis Services - Data mining).
Vedere l'argomento di riferimento tecnico relativo a ogni algoritmo per una descrizione dei requisiti e delle restrizioni, nonché per informazioni dettagliate sulle personalizzazioni supportate da ciascun algoritmo.
|
Personalizzazione dei parametri dell'algoritmo
Ogni algoritmo supporta parametri che è possibile utilizzare per personalizzare il comportamento dell'algoritmo e ottimizzare i risultati del modello. Per una descrizione di come utilizzare ciascun parametro, vedere gli argomenti seguenti:
L'argomento per ogni tipo di algoritmo include inoltre le funzioni di stima che possono essere utilizzate con i modelli basati sull'algoritmo specifico.