Algoritmo Microsoft Linear Regression
L'algoritmo Microsoft Linear Regression è una variazione dell'algoritmoMicrosoft Decision Trees, in cui il parametro MINIMUM_LEAF_CASES è impostato su un valore superiore o uguale al numero totale di case del set di dati utilizzato dall'algoritmo per il training del modello di data mining. Mediante tale impostazione del parametro, l'algoritmo non creerà mai una divisione e, pertanto, esegue una regressione lineare.
Tale tipo di regressione consente di determinare una relazione tra due colonne continue. La relazione assume la forma di un'equazione relativa alla linea che rappresenta meglio una serie di dati. Ad esempio, la linea contenuta nel diagramma seguente è la migliore rappresentazione lineare possibile dei dati.
L'equazione che rappresenta la linea nel diagramma corrisponde alla formula generale y = ax + b ed è nota come equazione di regressione. La variabile Y rappresenta la variabile di output, X rappresenta la variabile di input mentre a e b sono coefficienti modificabili. A ogni punto dati del diagramma corrisponde un errore associato alla relativa distanza dalla retta di regressione. I coefficienti a e b dell'equazione di regressione regolano l'angolo e la posizione della retta di regressione. È possibile ottenere l'equazione di regressione modificando i coefficienti a e b fino a quando la somma degli errori associati ai punti raggiunge il numero minimo.
Utilizzo dell'algoritmo
Il Visualizzatore Microsoft Decision Trees consente di esplorare un modello di data mining per la regressione lineare.
Un modello per la regressione lineare deve contenere una colonna chiave, le colonne di input e almeno una colonna stimabile.
L'algoritmo Microsoft Linear Regression supporta tipi di contenuto specifici delle colonne di input, tipi di contenuto specifici delle colonne stimabili e flag di modellazione, elencati nella tabella seguente.
Tipi di contenuto delle colonne di input |
Continuous, Cyclical, Discrete, Discretized e Ordered |
Tipi di contenuto delle colonne stimabili |
Continuous, Cyclical e Ordered |
Flag di modellazione |
NOT NULL e REGRESSOR |
Tutti gli algoritmi Microsoft supportano un set comune di funzioni. L'algoritmo Microsoft Linear Regression supporta tuttavia funzioni aggiuntive, elencate nella tabella seguente.
|
Per un elenco delle funzioni comuni a tutti gli algoritmi Microsoft, vedere Algoritmi di data mining. Per ulteriori informazioni sull'utilizzo di queste funzioni, vedere Guida di riferimento alle funzioni DMX (Data Mining Extensions).
L'algoritmo Microsoft Linear Regression supporta vari parametri che influiscono sulle prestazioni e sull'accuratezza del modello di data mining risultante. Nella tabella seguente viene descritto ogni parametro.
Parametro | Descrizione |
---|---|
MAXIMUM_INPUT_ATTRIBUTES |
Definisce il numero di attributi di input che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255. |
MAXIMUM_OUTPUT_ATTRIBUTES |
Definisce il numero di attributi di output che l'algoritmo è in grado di gestire prima di richiamare la funzionalità di selezione degli attributi. Impostare questo valore su 0 per disattivare la funzionalità di selezione degli attributi. Il valore predefinito è 255. |
FORCED_REGRESSOR |
Forza l'algoritmo a utilizzare le colonne indicate come regressori, indipendentemente dall'importanza delle colonne calcolata dall'algoritmo. |
Vedere anche
Concetti
Algoritmi di data mining
Creazione guidata modello di data mining
Funzionalità di selezione degli attributi nel data mining
Visualizzazione di un modello di data mining con il Visualizzatore Microsoft Decision Trees