Condividi tramite


Algoritmo Microsoft Linear Regression

L'algoritmo Microsoft Linear Regression è una variazione dell'algoritmoMicrosoft Decision Trees, in cui il parametro MINIMUM_LEAF_CASES è impostato su un valore superiore o uguale al numero totale di case del set di dati utilizzato dall'algoritmo per il training del modello di data mining. Mediante tale impostazione del parametro, l'algoritmo non creerà mai una divisione e, pertanto, esegue una regressione lineare.

Tale tipo di regressione consente di determinare una relazione tra due colonne continue. La relazione assume la forma di un'equazione relativa alla linea che rappresenta meglio una serie di dati. Ad esempio, la linea contenuta nel diagramma seguente è la migliore rappresentazione lineare possibile dei dati.

Retta di modellazione di un set di dati

L'equazione che rappresenta la linea nel diagramma corrisponde alla formula generale y = ax + b ed è nota come equazione di regressione. La variabile Y rappresenta la variabile di output, X rappresenta la variabile di input mentre a e b sono coefficienti modificabili. A ogni punto dati del diagramma corrisponde un errore associato alla relativa distanza dalla retta di regressione. I coefficienti a e b dell'equazione di regressione regolano l'angolo e la posizione della retta di regressione. È possibile ottenere l'equazione di regressione modificando i coefficienti a e b fino a quando la somma degli errori associati ai punti raggiunge il numero minimo.

Utilizzo dell'algoritmo

Il Visualizzatore Microsoft Decision Trees consente di esplorare un modello di data mining per la regressione lineare.

Un modello per la regressione lineare deve contenere una colonna chiave, le colonne di input e almeno una colonna stimabile.

L'algoritmo Microsoft Linear Regression supporta tipi di contenuto specifici delle colonne di input, tipi di contenuto specifici delle colonne stimabili e flag di modellazione, elencati nella tabella seguente.

Tipi di contenuto delle colonne di input

Continuous, Cyclical, Discrete, Discretized e Ordered

Tipi di contenuto delle colonne stimabili

Continuous, Cyclical e Ordered

Flag di modellazione

NOT NULL e REGRESSOR

Tutti gli algoritmi Microsoft supportano un set comune di funzioni. L'algoritmo Microsoft Linear Regression supporta tuttavia funzioni aggiuntive, elencate nella tabella seguente.

IsDescendant

PredictStdev

IsInNode

PredictSupport

PredictHistogram

PredictVariance

PredictNodeId

   

Per un elenco delle funzioni comuni a tutti gli algoritmi Microsoft, vedere Algoritmi di data mining. Per ulteriori informazioni sull'utilizzo di queste funzioni, vedere Guida di riferimento alle funzioni DMX (Data Mining Extensions).

L'algoritmo Microsoft Linear Regression supporta vari parametri che influiscono sulle prestazioni e sull'accuratezza del modello di data mining risultante. Nella tabella seguente viene descritto ogni parametro.

Parametro Descrizione

MAXIMUM_INPUT_ATTRIBUTES

Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi.

Il valore predefinito è 255.

MAXIMUM_OUTPUT_ATTRIBUTES

Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi.

Il valore predefinito è 255.

FORCED_REGRESSOR

Forza l'algoritmo a utilizzare le colonne indicate come regressori, indipendentemente dall'importanza delle colonne calcolata dall'algoritmo.

Vedere anche

Concetti

Algoritmi di data mining
Creazione guidata modello di data mining
Funzionalità di selezione degli attributi nel data mining
Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Decision Trees

Altre risorse

CREATE MINING MODEL (DMX)

Guida in linea e informazioni

Assistenza su SQL Server 2005