Condividi tramite


Esempi di query del modello di regressione lineare

Quando si crea una query su un modello di data mining, è possibile creare una query sul contenuto, che fornisce informazioni dettagliate sui modelli individuati nell'analisi oppure è possibile creare una query di stima, che usa i modelli nel modello per eseguire stime per i nuovi dati. Ad esempio, una query di contenuto potrebbe fornire dettagli aggiuntivi sulla formula di regressione, mentre una query di previsione potrebbe indicare se un nuovo punto di dati si adatta al modello. È anche possibile recuperare i metadati relativi al modello usando una query.

Questa sezione illustra come creare query per i modelli basati sull'algoritmo Microsoft Linear Regression.

Annotazioni

Poiché la regressione lineare si basa su un caso speciale dell'algoritmo Microsoft Decision Trees, esistono molte analogie e alcuni modelli di albero delle decisioni che usano attributi stimabili continui possono contenere formule di regressione. Per altre informazioni, vedere Microsoft Decision Trees Algorithm Technical Reference.

Query sul contenuto

Utilizzo del set di righe dello schema di data mining per determinare i parametri usati per un modello

Uso di DMX per restituire la formula di regressione per il modello

Ritorno del solo coefficiente per il modello

Query di previsione

Prevedere il reddito tramite una query singola

Uso delle funzioni di stima con un modello di regressione

Ricerca di informazioni sul modello di regressione lineare

La struttura di un modello di regressione lineare è estremamente semplice: il modello di data mining rappresenta i dati come nodo singolo, che definisce la formula di regressione. Per altre informazioni, vedere Contenuto del modello di data mining per i modelli di regressione logistica (Analysis Services - Data mining).

Torna all'inizio

Esempio di query 1: Utilizzo del set di righe dello schema di data mining per determinare i parametri usati per un modello

Eseguendo una query sul set di righe dello schema di data mining, è possibile trovare i metadati relativi al modello. Ciò può includere quando il modello è stato creato, quando il modello è stato elaborato per l'ultima volta, il nome della struttura di data mining su cui si basa il modello e il nome della colonna designata come attributo stimabile. È anche possibile restituire i parametri usati al momento della creazione del modello.

SELECT MINING_PARAMETERS   
FROM $system.DMSCHEMA_MINING_MODELS  
WHERE MODEL_NAME = 'TM_PredictIncome'  

Risultati di esempio:

PARAMETRI_MINERARI
COMPLEXITY_PENALTY=0.9,

MAXIMUM_INPUT_ATTRIBUTES=255,

MAXIMUM_OUTPUT_ATTRIBUTES=255,

MINIMUM_SUPPORT=10,

SCORE_METHOD=4,

SPLIT_METHOD=3,

FORCE_REGRESSOR=

Annotazioni

L'impostazione del parametro , "FORCE_REGRESSOR = ", indica che il valore corrente per il parametro FORCE_REGRESSOR è Null.

Torna all'inizio

Esempio di query 2: recupero della formula di regressione per il modello

La query seguente restituisce il contenuto del modello di mining per un modello di regressione lineare costruito utilizzando la stessa origine dati di destinazione utilizzata nell'esercitazione di base sul data mining. Questo modello stima il reddito dei clienti in base all'età.

La query restituisce il contenuto del nodo che contiene la formula di regressione. Ogni variabile e coefficiente viene archiviato in una riga separata della tabella NODE_DISTRIBUTION annidata. Se si desidera visualizzare la formula di regressione completa, usare Microsoft Tree Viewer, fare clic sul nodo (Tutti) e aprire la Legenda di Mining.

SELECT FLATTENED NODE_DISTRIBUTION as t  
FROM LR_PredictIncome.CONTENT  

Annotazioni

Se si fa riferimento a singole colonne della tabella nidificata usando una query come SELECT <column name> from NODE_DISTRIBUTION, alcune colonne, ad esempio SUPPORT o PROBABILITY, devono essere racchiuse tra parentesi quadre per distinguerle dalle parole chiave riservate con lo stesso nome.

Risultati previsti:

t.ATTRIBUTE_NAME t.ATTRIBUTE_VALUE supporto t.PROBABILITÀ t.VARIANZA t.VALUETYPE
Reddito annuale Mancante 0 0.000457142857142857 0 1
Reddito annuale 57220.8876687257 17484 0,999542857142857 1041275619.52776 3
Età 471.687717702463 0 0 126.969442359327 7
Età 234,680 904 692 439 0 0 0 8
Età 45.4269617936399 0 0 126.969442359327 9
35793.5477381267 0 0 1012968919.28372 11

In confronto, in Mining Legend, la formula di regressione appare come segue:

Reddito annuale = 57.220.919 + 471,688 * (età - 45,427)

Si può notare che nella legenda di data mining alcuni numeri vengono arrotondati; Tuttavia, la tabella NODE_DISTRIBUTION e la legenda di data mining contengono essenzialmente gli stessi valori.

I valori nella colonna VALUETYPE indicano il tipo di informazioni contenute in ogni riga, utile se si elaborano i risultati a livello di codice. Nella tabella seguente vengono illustrati i tipi di valore restituiti per una formula di regressione lineare.

VALUETYPE
1 (mancante)
3 (continuo)
7 (coefficiente)
8 (guadagno punteggio)
9 (Statistiche)
7 (coefficiente)
8 (guadagno punteggio)
9 (Statistiche)
11 (Intercetta)

Per altre informazioni sul significato di ogni tipo di valore per i modelli di regressione, vedere Contenuto del modello di data mining per modelli di regressione lineare (Analysis Services - Data mining).

Torna all'inizio

Esempio di query 3: restituzione solo del coefficiente per il modello

Usando l'enumerazione VALUETYPE, è possibile restituire solo il coefficiente per l'equazione di regressione, come illustrato nella query seguente:

SELECT FLATTENED MODEL_NAME,  
    (SELECT ATTRIBUTE_VALUE, VALUETYPE  
     FROM NODE_DISTRIBUTION  
     WHERE VALUETYPE = 11)   
AS t  
FROM LR_PredictIncome.CONTENT  

Questa query restituisce due righe, una dal contenuto del modello di data mining e la riga della tabella nidificata che contiene il coefficiente. La colonna ATTRIBUTE_NAME non è inclusa qui perché è sempre vuota per il coefficiente.

MODEL_NAME t.ATTRIBUTE_VALUE t.VALUETYPE
LR_PredictIncome
LR_PredictIncome 35793.5477381267 11

Torna all'inizio

Esecuzione di stime da un modello di regressione lineare

È possibile creare query di previsione su modelli di regressione lineare utilizzando la scheda Previsione modello nel Data Mining Designer. Il generatore di query di stima è disponibile sia in SQL Server Management Studio che in SQL Server Data Tools (SSDT).

Annotazioni

È anche possibile creare query sui modelli di regressione usando i componenti aggiuntivi di data mining di SQL Server 2005 per Excel o i componenti aggiuntivi di data mining di SQL Server 2008 per Excel. Anche se i componenti aggiuntivi di data mining per Excel non creano modelli di regressione, è possibile esplorare ed eseguire query su qualsiasi modello di data mining archiviato in un'istanza di Analysis Services.

Torna all'inizio

Query di esempio 4: Predizione del reddito tramite una query singleton

Il modo più semplice per creare una singola query in un modello di regressione consiste nell'usare la finestra di dialogo Input query Singleton . Ad esempio, è possibile compilare la query DMX seguente selezionando il modello di regressione appropriato, scegliendo Query Singleton e quindi digitando 20 come valore per Age.

SELECT [LR_PredictIncome].[Yearly Income]  
From   [LR_PredictIncome]  
NATURAL PREDICTION JOIN  
(SELECT 20 AS [Age]) AS t  

Risultati di esempio:

Reddito annuale
45227.302092176

Torna all'inizio

Esempio di query 5: Uso di funzioni di stima con un modello di regressione

È possibile usare molte delle funzioni di stima standard con modelli di regressione lineare. Nell'esempio seguente viene illustrato come aggiungere alcune statistiche descrittive ai risultati della query di stima. Da questi risultati è possibile osservare che esiste una deviazione considerevole dalla media per questo modello.

SELECT  
  ([LR_PredictIncome].[Yearly Income]) as [PredIncome],  
  (PredictStdev([LR_PredictIncome].[Yearly Income])) as [StDev1]  
From  
  [LR_PredictIncome]  
NATURAL PREDICTION JOIN  
(SELECT 20 AS [Age]) AS t  

Risultati di esempio:

Reddito annuale StDev1
45227.302092176 31827.1726561396

Torna all'inizio

Elenco di funzioni di stima

Tutti gli algoritmi Microsoft supportano un set comune di funzioni. Tuttavia, l'algoritmo Microsoft Linear Regression supporta le funzioni aggiuntive elencate nella tabella seguente.

Funzione di Predizione Uso
IsDescendant (DMX) Determina se un nodo è figlio di un altro nodo nel modello.
IsInNode (DMX) Indica se il nodo specificato contiene il caso corrente.
PredictHistogram (DMX) Restituisce un valore stimato o un set di valori per una colonna specificata.
PredictNodeId (DMX) Restituisce il Node_ID per ogni caso.
PredictStdev (DMX) Restituisce la deviazione standard per il valore stimato.
PredictSupport (DMX) Restituisce il valore di supporto per uno stato specificato.
PredictVariance (DMX) Restituisce la varianza di una colonna specificata.

Per un elenco delle funzioni comuni a tutti gli algoritmi di Microsoft, vedere Data Mining Algorithms (Analysis Services - Data Mining). Per altre informazioni su come usare queste funzioni, vedere Informazioni di riferimento sulle funzioni DMX (Data Mining Extensions).

Vedere anche

Algoritmo di regressione lineare Microsoft
Query di estrazione dei dati
Riferimento tecnico per l'algoritmo Microsoft Linear Regression
Contenuto del modello di data mining per i modelli di regressione lineare (Analysis Services - Data mining)