Algoritmo Microsoft Linear Regression

Articolo
12/15/2008

L'algoritmo Microsoft Linear Regression è una variazione dell'algoritmoMicrosoft Decision Trees, in cui il parametro MINIMUM_LEAF_CASES è impostato su un valore superiore o uguale al numero totale di case del set di dati utilizzato dall'algoritmo per il training del modello di data mining. Mediante tale impostazione del parametro, l'algoritmo non creerà mai una divisione e, pertanto, esegue una regressione lineare.

Tale tipo di regressione consente di determinare una relazione tra due colonne continue. La relazione assume la forma di un'equazione relativa alla linea che rappresenta meglio una serie di dati. Ad esempio, la linea contenuta nel diagramma seguente è la migliore rappresentazione lineare possibile dei dati.

Retta di modellazione di un set di dati

L'equazione che rappresenta la linea nel diagramma corrisponde alla formula generale y = ax + b ed è nota come equazione di regressione. La variabile Y rappresenta la variabile di output, X rappresenta la variabile di input mentre a e b sono coefficienti modificabili. A ogni punto dati del diagramma corrisponde un errore associato alla relativa distanza dalla retta di regressione. I coefficienti a e b dell'equazione di regressione regolano l'angolo e la posizione della retta di regressione. È possibile ottenere l'equazione di regressione modificando i coefficienti a e b fino a quando la somma degli errori associati ai punti raggiunge il numero minimo.

Utilizzo dell'algoritmo

Il Visualizzatore Microsoft Decision Trees consente di esplorare un modello di data mining per la regressione lineare.

Un modello per la regressione lineare deve contenere una colonna chiave, le colonne di input e almeno una colonna stimabile.

L'algoritmo Microsoft Linear Regression supporta tipi di contenuto specifici delle colonne di input, tipi di contenuto specifici delle colonne stimabili e flag di modellazione, elencati nella tabella seguente.

Tipi di contenuto delle colonne di input	Continuous, Cyclical, Discrete, Discretized e Ordered
Tipi di contenuto delle colonne stimabili	Continuous, Cyclical e Ordered
Flag di modellazione	NOT NULL e REGRESSOR

Tutti gli algoritmi Microsoft supportano un set comune di funzioni. L'algoritmo Microsoft Linear Regression supporta tuttavia funzioni aggiuntive, elencate nella tabella seguente.

IsDescendant	PredictStdev
IsInNode	PredictSupport
PredictHistogram	PredictVariance
PredictNodeId

Per un elenco delle funzioni comuni a tutti gli algoritmi Microsoft, vedere Algoritmi di data mining. Per ulteriori informazioni sull'utilizzo di queste funzioni, vedere Guida di riferimento alle funzioni DMX (Data Mining Extensions).

L'algoritmo Microsoft Linear Regression supporta vari parametri che influiscono sulle prestazioni e sull'accuratezza del modello di data mining risultante. Nella tabella seguente viene descritto ogni parametro.

Parametro	Descrizione
MAXIMUM_INPUT_ATTRIBUTES	Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
MAXIMUM_OUTPUT_ATTRIBUTES	Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255.
FORCED_REGRESSOR	Forza l'algoritmo a utilizzare le colonne indicate come regressori, indipendentemente dall'importanza delle colonne calcolata dall'algoritmo.

MAXIMUM_INPUT_ATTRIBUTES

Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi.

Il valore predefinito è 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi.

Il valore predefinito è 255.

FORCED_REGRESSOR

Forza l'algoritmo a utilizzare le colonne indicate come regressori, indipendentemente dall'importanza delle colonne calcolata dall'algoritmo.

Vedere anche

Condividi tramite

Algoritmo Microsoft Linear Regression

Utilizzo dell'algoritmo

Vedere anche

Concetti

Altre risorse

Guida in linea e informazioni

Risorse aggiuntive