Condividi tramite


Riferimento tecnico sull'algoritmo di regressione lineare di Microsoft

L'algoritmo Microsoft Linear Regression è una versione speciale dell'algoritmo Microsoft Decision Trees ottimizzato per la modellazione di coppie di attributi continui. In questo argomento viene illustrata l'implementazione dell'algoritmo, viene descritto come personalizzare il comportamento dell'algoritmo e vengono forniti collegamenti ad altre informazioni sull'esecuzione di query sui modelli.

Implementazione dell'algoritmo di regressione lineare

L'algoritmo Microsoft Decision Trees può essere usato per molte attività: regressione lineare, classificazione o analisi dell'associazione. Per implementare questo algoritmo allo scopo della regressione lineare, i parametri dell'algoritmo vengono controllati per limitare la crescita dell'albero e mantenere tutti i dati nel modello in un singolo nodo. In altre parole, anche se la regressione lineare è basata su un albero delle decisioni, l'albero contiene solo una singola radice e nessun ramo: tutti i dati si trovano nel nodo radice.

A tale scopo, il parametro MINIMUM_LEAF_CASES dell'algoritmo è impostato su maggiore o uguale al numero totale di case utilizzati dall'algoritmo per eseguire il training del modello di data mining. Con il set di parametri in questo modo, l'algoritmo non creerà mai una divisione e quindi esegue una regressione lineare.

L'equazione che rappresenta la retta di regressione assume la forma generale di y = ax + b ed è nota come equazione di regressione. La variabile Y rappresenta la variabile di output, X rappresenta la variabile di input e a e b sono coefficienti regolabili. È possibile recuperare coefficienti, intercettazioni e altre informazioni sulla formula di regressione eseguendo una query sul modello di data mining completato. Per altre informazioni, vedere Esempi di query del modello di regressione lineare.

Metodi di assegnazione dei punteggi e selezione delle funzionalità

Tutti gli algoritmi di data mining di Analysis Services usano automaticamente la selezione delle funzionalità per migliorare l'analisi e ridurre il carico di elaborazione. Il metodo usato per la selezione delle caratteristiche nella regressione lineare è il punteggio di interesse, perché il modello supporta solo colonne continue. Per riferimento, nella tabella seguente viene illustrata la differenza nella selezione delle funzionalità per l'algoritmo Linear Regression e l'algoritmo Decision Trees.

Algoritmo Metodo di analisi Commenti
Linear Regression (Regressione lineare) Punteggio di interesse Predefinito

Altri metodi di selezione delle funzionalità disponibili con l'algoritmo Decision Trees si applicano solo alle variabili discrete e pertanto non sono applicabili ai modelli di regressione lineare.
Alberi delle decisioni Punteggio di interesse

Entropia di Shannon

Bayesian con K2 Prior

Bayesian Dirichlet con precedente uniforme (impostazione predefinita)
Se le colonne contengono valori continui non binari, il punteggio di interesse viene usato per tutte le colonne per garantire la coerenza. In caso contrario, viene utilizzato il metodo predefinito o specificato.

I parametri dell'algoritmo che controllano la selezione delle funzionalità per un modello di albero delle decisioni sono MAXIMUM_INPUT_ATTRIBUTES e MAXIMUM_OUTPUT.

Personalizzazione dell'algoritmo di regressione lineare

L'algoritmo Microsoft Linear Regression supporta parametri che influiscono sul comportamento, sulle prestazioni e sull'accuratezza del modello di data mining risultante. È anche possibile impostare flag di modellazione nelle colonne del modello di data mining o nelle colonne della struttura di data mining per controllare la modalità di elaborazione dei dati.

Impostazione dei parametri dell'algoritmo

Nella tabella seguente sono elencati i parametri forniti per l'algoritmo Microsoft Linear Regression.

Parametro Descrizione
MAXIMUM_INPUT_ATTRIBUTES Definisce il numero di attributi di input che l'algoritmo può gestire prima di richiamare la selezione delle funzionalità. Impostare questo valore su 0 per disattivare la selezione delle funzionalità.

Il valore predefinito è 255.
MAXIMUM_OUTPUT_ATTRIBUTES Definisce il numero di attributi di output che l'algoritmo può gestire prima di richiamare la selezione delle funzionalità. Impostare questo valore su 0 per disattivare la selezione delle funzionalità.

Il valore predefinito è 255.
FORCE_REGRESSOR Forza l'algoritmo a usare le colonne indicate come regreditori, indipendentemente dall'importanza delle colonne calcolate dall'algoritmo.

Bandiere di modellazione

L'algoritmo Microsoft Linear Regression supporta i flag di modellazione seguenti. Quando si crea la struttura di data mining o il modello di data mining, si definiscono indicatori di modellazione per specificare il modo in cui vengono gestiti i valori in ogni colonna durante l'analisi. Per ulteriori informazioni, vedere Indicatori di modellazione (Data Mining).

Indicatore di modellazione Descrizione
NON NULLO Indica che la colonna non può contenere un valore Null. Se Analysis Services rileva un valore Null durante il training del modello, verrà generato un errore.

Si applica alle colonne della struttura di mining.
REGRESSORE Indica che la colonna contiene valori numerici continui che devono essere considerati come variabili indipendenti potenziali durante l'analisi.

Nota: contrassegnare una colonna come regressore non garantisce che la colonna venga usata come regressore nel modello finale.

Applicabile alle colonne del modello di mining.

Regreditori nei modelli di regressione lineare

I modelli di regressione lineare sono basati sull'algoritmo Microsoft Decision Trees. Tuttavia, anche se non si usa l'algoritmo Microsoft Linear Regression, qualsiasi modello di albero delle decisioni può contenere un albero o nodi che rappresentano una regressione su un attributo continuo.

Non è necessario specificare che una colonna continua rappresenta un regressore. L'algoritmo Microsoft Decision Trees partizionerà il set di dati in aree con modelli significativi anche se non si imposta il flag REGRESSOR nella colonna. La differenza è che quando si imposta il flag di modellazione, l'algoritmo tenterà di trovare equazioni di regressione del formato a*C1 + b*C2 + ... per adattare i modelli nei nodi dell'albero. La somma dei residui viene calcolata e, se la deviazione è troppo grande, viene forzata una divisione nell'albero.

Ad esempio, se si stima il comportamento di acquisto dei clienti usando Income come attributo e si imposta il flag di modellazione REGRESSOR nella colonna, l'algoritmo tenterà innanzitutto di adattare i valori Income usando una formula di regressione standard. Se la deviazione è troppo grande, la formula di regressione viene abbandonata e l'albero verrà suddiviso su un altro attributo. L'algoritmo dell'albero delle decisioni tenterebbe quindi di adattare un regressore per il reddito in ognuno dei rami dopo la divisione.

È possibile usare il parametro FORCED_REGRESSOR per garantire che l'algoritmo userà un particolare regressore. Questo parametro può essere usato con gli algoritmi Microsoft Decision Trees e Microsoft Linear Regression.

Requisiti

Un modello di regressione lineare deve contenere una colonna chiave, colonne di input e almeno una colonna stimabile.

Colonne di input e prevedibili

L'algoritmo Microsoft Linear Regression supporta le colonne di input e le colonne stimabili specifiche elencate nella tabella seguente. Per altre informazioni sui tipi di contenuto usati in un modello di data mining, vedere Tipi di contenuto (data mining).

colonna Tipi di contenuto
Attributo di input Continuo, Ciclico, Chiave, Tavola e Ordinato
Attributo prevedibile Continuo, Ciclico e Ordinato

Annotazioni

Cyclical i tipi di contenuto e Ordered sono supportati, ma l'algoritmo li considera come valori discreti e non esegue un'elaborazione speciale.

Vedere anche

Algoritmo di regressione lineare Microsoft
Esempi di query del modello di regressione lineare
Contenuto del modello di data mining per i modelli di regressione lineare (Analysis Services - Data mining)