Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
In questo argomento viene descritto il contenuto del modello di data mining specifico per i modelli che usano l'algoritmo Microsoft Linear Regression. Per una spiegazione generale del contenuto dei modelli di mining per tutti i tipi di modelli, vedere Contenuto del modello di Data Mining (Analysis Services - Data Mining).
Informazioni sulla struttura di un modello di regressione lineare
Un modello di regressione lineare ha una struttura estremamente semplice. Ogni modello ha un singolo nodo padre che rappresenta il modello e i relativi metadati e un nodo della struttura ad albero di regressione (NODE_TYPE = 25) che contiene la formula di regressione per ogni attributo stimabile.
I modelli di regressione lineare usano lo stesso algoritmo di Microsoft Decision Trees, ma vengono usati parametri diversi per vincolare l'albero e solo gli attributi continui vengono accettati come input. Tuttavia, poiché i modelli di regressione lineare sono basati sull'algoritmo Microsoft Decision Trees, i modelli di regressione lineare vengono visualizzati usando Microsoft Decision Tree Viewer. Per informazioni, vedere Browse a Model Using the Microsoft Tree Viewer.
Nella sezione successiva viene illustrato come interpretare le informazioni nel nodo della formula di regressione. Queste informazioni si applicano non solo ai modelli di regressione lineare, ma anche ai modelli di albero delle decisioni che contengono regressioni in una parte dell'albero.
Contenuto del modello per un modello di regressione lineare
In questa sezione vengono forniti dettagli ed esempi solo per le colonne nel contenuto del modello di data mining con particolare rilevanza per la regressione lineare.
Per informazioni sulle colonne per utilizzo generico nel set di righe dello schema, vedere Contenuto del modello di data mining (Analysis Services - Data mining).
MODEL_CATALOG
Nome del database in cui è archiviato il modello.
MODEL_NAME
Nome del modello.
ATTRIBUTE_NAME
Nodo radice: Vuoto
Nodo di regressione: Nome dell'attributo stimabile.
NOME_DEL_NODO
Sempre uguale a NODE_UNIQUE_NAME.
NODE_UNIQUE_NAME
Identificatore univoco per il nodo all'interno del modello. Questo valore non può essere modificato.
TIPO_DI_NODO
Un modello di regressione lineare restituisce i tipi di nodo seguenti:
| ID del tipo di nodo | TIPO | Descrizione |
|---|---|---|
| 25 | Radice dell'albero di regressione | Contiene la formula che descrive la relazione tra la variabile di input e di output. |
NODE_CAPTION
Etichetta o didascalia associata al nodo. Questa proprietà è principalmente a scopo di visualizzazione.
Nodo radice: Vuoto
Nodo di regressione: Tutto.
CARDINALITÀ_BAMBINI
Una stima del numero di figli che il nodo ha.
Nodo radice: Indica il numero di nodi di regressione. Viene creato un nodo di regressione per ogni attributo stimabile nel modello.
Nodo di regressione: Sempre 0.
PARENT_UNIQUE_NAME
Nome univoco del genitore del nodo. Null viene restituito per tutti i nodi a livello radice.
DESCRIZIONE_NODO
Descrizione del nodo.
Nodo radice: Vuoto
Nodo di regressione: Tutto.
NODE_RULE
Non usato per i modelli di regressione lineare.
REGOLA_MARGINALE
Non usato per i modelli di regressione lineare.
PROBABILITÀ_NODO
Probabilità associata a questo nodo.
Nodo radice: 0
Nodo di regressione: 1
PROBABILITÀ MARGINALE
Probabilità di raggiungere il nodo dal nodo padre.
Nodo radice: 0
Nodo di regressione: 1
Distribuzione_Nodo
Una tabella nidificata che fornisce statistiche sui valori nel nodo.
Nodo radice: 0
Nodo di regressione: Tabella contenente gli elementi utilizzati per compilare la formula di regressione. Un nodo di regressione contiene i tipi di valore seguenti:
| VALUETYPE |
|---|
| 1 (mancante) |
| 3 (continuo) |
| 7 (coefficiente) |
| 8 (guadagno punteggio) |
| 9 (Statistiche) |
| 11 (Intercetta) |
NODE_SUPPORT
Numero di casi che supportano questo nodo.
Nodo radice: 0
Nodo di regressione: Conteggio degli esempi di addestramento.
MSOLAP_MODEL_COLUMN
Nome dell'attributo stimabile.
MSOLAP_NODE_SCORE
Uguale a NODE_PROBABILITY
MSOLAP_NODE_SHORT_CAPTION
Etichetta usata a scopo di visualizzazione.
Osservazioni:
Quando si crea un modello usando l'algoritmo Microsoft Linear Regression, il motore di data mining crea un'istanza speciale di un modello di albero delle decisioni e fornisce parametri che vincolano l'albero per contenere tutti i dati di training in un singolo nodo. Tutti gli input continui vengono contrassegnati e valutati come potenziali regreditori, ma solo i regreditori che soddisfano i dati vengono conservati come regreditori nel modello finale. L'analisi produce una singola formula di regressione per ogni regressore o nessuna formula di regressione.
È possibile visualizzare la formula di regressione completa nella Legenda di Data Mining facendo clic sul nodo (Tutti) nel Microsoft Tree Viewer.
Inoltre, quando si crea un modello di albero delle decisioni che include un attributo stimabile continuo, a volte l'albero include nodi di regressione che condividono le proprietà dei nodi dell'albero di regressione.
Distribuzione dei nodi per attributi continui
La maggior parte delle informazioni importanti in un nodo di regressione è contenuta nella tabella NODE_DISTRIBUTION. Nell'esempio seguente viene illustrato il layout della tabella NODE_DISTRIBUTION. In questo esempio è stata usata la struttura di data mining Targeted Mailing per creare un modello di regressione lineare che stima il reddito dei clienti in base all'età. Il modello è solo ai fini dell'illustrazione, perché può essere compilato facilmente usando i dati di esempio e la struttura di data mining AdventureWorks2012 esistenti.
| ATTRIBUTE_NAME | ATTRIBUTE_VALUE | APPOGGIARE | PROBABILITÀ | VARIANZA | TIPOVALORE |
|---|---|---|---|---|---|
| Reddito annuale | Mancante | 0 | 0.000457142857142857 | 0 | 1 |
| Reddito annuale | 57220.8876687257 | 17484 | 0.999542857142857 | 1041275619.52776 | 3 |
| Età | 471.687717702463 | 0 | 0 | 126.969442359327 | 7 |
| Età | 234,680 904 692 439 | 0 | 0 | 0 | 8 |
| Età | 45.4269617936399 | 0 | 0 | 126.969442359327 | 9 |
| 35793.5477381267 | 0 | 0 | 1012968919.28372 | 11 |
La tabella NODE_DISTRIBUTION contiene più righe, ognuna raggruppata da una variabile. Le prime due righe sono sempre tipi valore 1 e 3 e descrivono l'attributo di destinazione. Le righe successive forniscono informazioni dettagliate sulla formula per un particolare regressore. Un regressore è una variabile di input con una relazione lineare con la variabile di output. È possibile avere più regreditori e ogni regressore avrà una riga separata per il coefficiente (VALUETYPE = 7), il guadagno del punteggio (VALUETYPE = 8) e le statistiche (VALUETYPE = 9). Infine, la tabella contiene una riga contenente l'intercetta dell'equazione (VALUETYPE = 11).
Elementi della formula di regressione
La tabella NODE_DISTRIBUTION annidata contiene ogni elemento della formula di regressione in una riga separata. Le prime due righe di dati nei risultati di esempio contengono informazioni sull'attributo stimabile , Yearly Income, che modella la variabile dipendente. La colonna SUPPORT mostra il numero di case a supporto dei due stati di questo attributo: è disponibile un valore Yearly Income o il valore Yearly Income mancante.
La colonna VARIANCE indica la varianza calcolata dell'attributo stimabile. La varianza è una misura della dispersione dei valori in un campione, in base a una distribuzione prevista. La varianza qui viene calcolata prendendo la media della deviazione quadrata dalla media. La radice quadrata della varianza è nota anche come deviazione standard. Analysis Services non fornisce la deviazione standard, ma è possibile calcolarla facilmente.
Per ogni regressore, vengono restituite tre righe. Contengono le statistiche del coefficiente, del punteggio e del regressore.
Infine, la tabella contiene una riga che fornisce l'intercetta per l'equazione.
Coefficiente
Per ogni regressore viene calcolato un coefficiente (VALUETYPE = 7). Il coefficiente stesso viene visualizzato nella colonna ATTRIBUTE_VALUE, mentre la colonna VARIANCE indica la varianza per il coefficiente. I coefficienti vengono calcolati in modo da massimizzare la linearità.
Incremento del punteggio
Il punteggio di guadagno (VALUETYPE = 8) per ogni regressore rappresenta il punteggio di interesse dell'attributo. È possibile usare questo valore per stimare l'utilità di più regreditori.
Statistiche
La statistica regressore (VALUETYPE = 9) è la media per l'attributo per i casi con un valore. La colonna ATTRIBUTE_VALUE contiene la media stessa, mentre la colonna VARIANCE contiene la somma delle deviazioni dalla media.
Intercettare
In genere, in un'equazione di regressione, l'intercetta (VALUETYPE = 11) o il residuo indica il valore dell'attributo prevedibile, nel punto in cui l'attributo di input è 0. In molti casi, questo potrebbe non accadere e potrebbe portare a risultati controintuitivi.
Ad esempio, in un modello che stima il reddito in base all'età, è inutile imparare il reddito all'età di 0 anni. Nella vita reale, in genere è più utile conoscere il comportamento della linea rispetto ai valori medi. Di conseguenza, SQL Server Analysis Services modifica l'intercetta per esprimere ogni regressore in una relazione con la media.
Questa regolazione è difficile da visualizzare nel contenuto del modello di data mining, ma è evidente se si visualizza l'equazione completata nella legenda di data mining del Visualizzatore Microsoft Tree. La formula di regressione viene spostata dal punto 0 al punto che rappresenta la media. Viene visualizzata una visualizzazione più intuitiva in base ai dati correnti.
Pertanto, supponendo che l'età media sia circa 45, l'intercetta (VALUETYPE = 11) per la formula di regressione indica il reddito medio.
Vedere anche
Contenuto del modello di Data Mining (Analysis Services - Data Mining)
Algoritmo di regressione lineare Microsoft
Riferimento tecnico per l'algoritmo Microsoft Linear Regression
Esempi di query del modello di regressione lineare