Condividi tramite


Personalizzare struttura e modelli di data mining

Dopo avere selezionato un algoritmo adatto alle esigenze aziendali, è possibile personalizzare il modello di data mining nei modi seguenti per migliorarne potenzialmente i risultati.

  • Utilizzare colonne di dati diverse nel modello o modificare l'utilizzo, il tipo di contenuto o il metodo di discretizzazione delle colonne.

  • Creare filtri per il modello di data mining per limitare i dati utilizzati per il training del modello.

  • Modificare l'algoritmo utilizzato per analizzare dati.

  • Impostare i parametri dell'algoritmo per determinare soglie, divisioni dell'albero e altre condizioni importanti.

In questo argomento vengono descritte queste opzioni.

Modifica dei dati utilizzati dal modello

Le decisioni adottate in relazione alle colonne di dati da utilizzare nel modello e alle modalità di utilizzo e di elaborazione dei dati possono influire significativamente sui risultati dell'analisi. Negli argomenti seguenti vengono fornite informazioni che semplificano la comprensione di tali scelte.

Utilizzo della selezione delle funzionalità

La maggior parte degli algoritmi di data mining in Analysis Services usa un processo denominato selezione delle funzionalità per selezionare solo gli attributi più utili per l'aggiunta a un modello. La riduzione del numero di colonne e di attributi può migliorare le prestazione e la qualità del modello. I metodi disponibili per la selezione delle funzionalità differiscono a seconda dell'algoritmo scelto.

Selezione delle caratteristiche (data mining) .

Modifica dell'utilizzo

È possibile modificare le colonne incluse in un modello di data mining e la modalità di utilizzo di ciascuna colonna. Se non si ottengono i risultati previsti, è necessario esemplificare le colonne utilizzate come input e considerare se si tratta della scelta corretta e se è possibile migliorare la gestione dei dati, ad esempio:

  • Individuare variabili di categoria etichettate erroneamente come numeri.

  • Aggiungere categorie per comprimere il numero di attributi e semplificare l'individuazione delle correlazioni.

  • Modificare la modalità in cui i numeri sono suddivisi in contenitori, o discretizzati.

  • Rimuovere le colonne che dispongono di molti valori univoci o quelle che contengono in realtà dati di riferimento non utili per l'analisi, ad esempio indirizzi o secondi nomi.

Non è necessario rimuovere fisicamente le colonne dalla struttura di data mining. è sufficiente contrassegnare la colonna come Ignora. La colonna viene rimossa dal modello di data mining, ma continuerà a essere utilizzata da altri modelli di data mining della struttura o come riferimento in una query drill-through.

Creazione di alias per le colonne del modello

Quando Analysis Services crea il modello di data mining, utilizza gli stessi nomi di colonna presenti nella struttura di data mining. È possibile aggiungere un alias a qualsiasi colonne del modello di data mining. Questo può facilitare la comprensione del contenuto o dell'utilizzo della colonna oppure rendere il nome più corto per semplificare la creazione delle query. Gli alias sono anche utili quando si desidera creare una copia di una colonna e assegnarle un nome descrittivo.

Per creare un alias modificare la proprietà Name della colonna del modello di data mining. Analysis Services continua a usare il nome originale come ID della colonna e il nuovo valore digitato Name diventa l'alias di colonna e viene visualizzato tra parentesi accanto all'utilizzo della colonna.

alias sulle colonne del modello di

Nell'illustrazione vengono mostrati i modelli correlati che dispongono di più copie di una colonna della struttura di data mining, tutti correlati a Income. Ogni copia della colonna della struttura è stata discretizzata in modo diverso. I modelli nel diagramma usano ciascuno una colonna diversa dalla struttura di data mining. Tuttavia, per facilitare il confronto delle colonne attraverso i modelli, la colonna in ogni modello è stata rinominata come [Income].

Aggiunta di filtri

È possibile aggiungere un filtro a un modello di data mining. Un filtro è un set di condizioni di WHERE che limitano i dati nei case del modello ad alcuni subset. Il filtro viene utilizzato durante il training del modello e può essere utilizzata facoltativamente durante il test del modello o durante la creazione dei grafici di accuratezza.

L'aggiunta di filtri consente di riutilizzare le strutture di data mining, ma creare modelli basati su subset di dati molto diversi. In alternativa, è possibile utilizzare i filtri semplicemente per eliminare determinate righe e migliorare la qualità dell'analisi.

Per altre informazioni, vedere Filtri per i modelli di data mining (Analysis Services - Data mining).

Modifica dell'algoritmo

Anche se i nuovi modelli aggiunti a una struttura di data mining condividono lo stesso set di dati, è possibile ottenere risultati diversi utilizzando un algoritmo diverso (se supportato dai dati) o modificando i parametri per l'algoritmo. Inoltre, è possibile impostare i flag di modellazione.

La scelta dell'algoritmo determina il tipo di risultati ottenuto. Per informazioni generali sul funzionamento di un algoritmo specifico o sugli scenari aziendali in cui si potrebbe trarre vantaggio dall'uso di un particolare algoritmo, vedere Algoritmi di data mining (Analysis Services - Data mining).For general information about how a specific algorithm, or the business scenarios where you would benefit from using a particular algorithm, see Data mining Algorithm (Analysis Services - Data mining).

Vedere l'argomento di riferimento tecnico relativo a ogni algoritmo per una descrizione dei requisiti e delle restrizioni, nonché per informazioni dettagliate sulle personalizzazioni supportate da ciascun algoritmo.

Algoritmo Microsoft Decision Trees Algoritmo Microsoft Time Series
Algoritmo Microsoft Clustering Microsoft Neural Network Algorithm
Algoritmo Microsoft Naive Bayes Algoritmo Microsoft Logistic Regression
Algoritmo Microsoft Association Rules Algoritmo Microsoft Linear Regression
Algoritmo Microsoft Sequence Clustering

Personalizzazione dei parametri dell'algoritmo

Ogni algoritmo supporta parametri che è possibile utilizzare per personalizzare il comportamento dell'algoritmo e ottimizzare i risultati del modello. Per una descrizione di come utilizzare ciascun parametro, vedere gli argomenti seguenti:

L'argomento per ogni tipo di algoritmo include inoltre le funzioni di stima che possono essere utilizzate con i modelli basati sull'algoritmo specifico.

Nome proprietà Si applica a
AUTO_DETECT_PERIODICITY Riferimento tecnico per l'algoritmo Microsoft Time Series
CLUSTER_COUNT Riferimento tecnico per l'algoritmo Microsoft Clustering

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
CLUSTER_SEED Riferimento tecnico per l'algoritmo Microsoft Clustering
CLUSTERING_METHOD Riferimento tecnico per l'algoritmo Microsoft Clustering
COMPLEXITY_PENALTY Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Time Series
FORCE_REGRESSOR Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Flag di modellazione (data mining)
FORECAST_METHOD Riferimento tecnico per l'algoritmo Microsoft Time Series
HIDDEN_NODE_RATIO Microsoft Neural Network Algorithm Technical Reference
HISTORIC_MODEL_COUNT Riferimento tecnico per l'algoritmo Microsoft Time Series
HISTORICAL_MODEL_GAP Riferimento tecnico per l'algoritmo Microsoft Time Series
HOLDOUT_PERCENTAGE Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Microsoft Neural Network Algorithm Technical Reference

Nota: questo parametro è diverso dal valore della percentuale di controllo che si applica a una struttura di data mining.
HOLDOUT_SEED Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Microsoft Neural Network Algorithm Technical Reference

Nota: questo parametro è diverso dal valore di inizializzazione di controllo che si applica a una struttura di data mining.
INSTABILITY_SENSITIVITY Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_INPUT_ATTRIBUTES Riferimento tecnico per l'algoritmo Microsoft Clustering

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

Microsoft Neural Network Algorithm Technical Reference

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression
MAXIMUM_ITEMSET_COUNT Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_ITEMSET_SIZE Riferimento tecnico per l'algoritmo Microsoft Association Rules
MAXIMUM_OUTPUT_ATTRIBUTES Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Linear Regression

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Riferimento tecnico per l'algoritmo Microsoft Naive Bayes

Microsoft Neural Network Algorithm Technical Reference
MAXIMUM_SEQUENCE_STATES Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SERIES_VALUE Riferimento tecnico per l'algoritmo Microsoft Time Series
MAXIMUM_STATES Riferimento tecnico per l'algoritmo Microsoft Clustering

Microsoft Neural Network Algorithm Technical Reference

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering
MAXIMUM_SUPPORT Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_IMPORTANCE Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_ITEMSET_SIZE Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_DEPENDENCY_PROBABILITY Riferimento tecnico per l'algoritmo Microsoft Naive Bayes
MINIMUM_PROBABILITY Riferimento tecnico per l'algoritmo Microsoft Association Rules
MINIMUM_SERIES_VALUE Riferimento tecnico per l'algoritmo Microsoft Time Series
MINIMUM_SUPPORT Riferimento tecnico per l'algoritmo Microsoft Association Rules

Riferimento tecnico per l'algoritmo Microsoft Clustering

Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees

Riferimento tecnico per l'algoritmo Microsoft Sequence Clustering

Riferimento tecnico per l'algoritmo Microsoft Time Series
MISSING_VALUE_SUBSTITUTION Riferimento tecnico per l'algoritmo Microsoft Time Series
MODELLING_CARDINALITY Riferimento tecnico per l'algoritmo Microsoft Clustering
PERIODICITY_HINT Riferimento tecnico per l'algoritmo Microsoft Time Series
PREDICTION_SMOOTHING Riferimento tecnico per l'algoritmo Microsoft Time Series
SAMPLE_SIZE Riferimento tecnico per l'algoritmo Microsoft Clustering

Riferimento tecnico per l'algoritmo Microsoft Logistic Regression

Microsoft Neural Network Algorithm Technical Reference
SCORE_METHOD Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
SPLIT_METHOD Guida di riferimento tecnico per l'algoritmo Microsoft Decision Trees
STOPPING_TOLERANCE Riferimento tecnico per l'algoritmo Microsoft Clustering

Vedere anche

Algoritmi di data mining (Analysis Services - Data mining)Architettura fisica (Analysis Services - Data mining)