Condividi tramite


Mining Model Content (Analysis Services - Data Mining)

In seguito alla progettazione e all'elaborazione di un modello di data mining mediante i dati della struttura di data mining sottostante, il modello di data mining è completo e contiene il contenuto del modello di data mining. È possibile utilizzare questo contenuto per eseguire stime o analisi di dati.

Il contenuto del modello di data mining include i metadati relativi al modello, statistiche sui dati e modelli individuati dall'algoritmo di data mining. A seconda dell'algoritmo utilizzato, il contenuto del modello può includere formule di regressione, le definizioni di regole e set di elementi, o pesi e altre statistiche.

Il contenuto del modello di data mining viene visualizzato in una struttura standard a prescindere dall'algoritmo utilizzato. È possibile esplorare la struttura in Microsoft Generic Content Tree Viewer, disponibile in SQL Server Data Tools (SSDT) e quindi passare a uno dei visualizzatori personalizzati per vedere come le informazioni vengono interpretate e visualizzate graficamente per ogni tipo di modello. È inoltre possibile creare query sul contenuto del modello di data mining con un client che supporti il set di righe dello schema MINING_MODEL_CONTENT. Per altre informazioni, vedere Attività e procedure relative alle query di data mining.

In questa sezione viene illustrata la struttura di base del contenuto per tutti i tipi di modelli di data mining. Vengono descritti i tipi di nodo comuni al contenuto del modello di data mining e fornite istruzioni sull'interpretazione delle informazioni.

Struttura del contenuto del modello di data mining

Nodi nel contenuto del modello

Contenuto del modello di data mining in base al tipo di algoritmo

Strumenti per la visualizzazione del contenuto di un modello di data mining

Strumenti per l'esecuzione di query sul contenuto di un modello di data mining

Struttura del contenuto del modello di data mining

Il contenuto di ciascun modello viene presentato come una serie di nodi. Un nodo è un oggetto all'interno di un modello di data mining che contiene i metadati e le informazioni su una parte del modello. I nodi sono disposti in una gerarchia e la loro disposizione esatta, nonché il significato della gerarchia, dipende dall'algoritmo utilizzato. Se ad esempio si crea un modello di albero delle decisioni, il modello può contenere più alberi collegati al nodo radice del modello; se si crea un modello di rete neurale, il modello può contenere una o più reti e un nodo di statistiche.

Il primo nodo di ogni modello è denominato nodo radiceo nodo padre del modello . Ogni modello dispone di un nodo radice (NODE_TYPE = 1). Il nodo radice contiene in genere alcuni metadati relativi al modello e il numero di nodi figlio, ma poche informazioni aggiuntive sui modelli individuati dal modello.

Il numero di nodi figlio presenti nel nodo radice varia a seconda dell'algoritmo utilizzato per creare il modello. I nodi figlio hanno significati diversi e contengono contenuto diverso, a seconda dell'algoritmo e della profondità e complessità dei dati.

Nodi nel contenuto del modello di data mining

In un modello di data mining, un nodo è un contenitore generico in cui sono archiviate informazioni riguardanti tutto il modello o una parte di esso. La struttura di ogni nodo è sempre la stessa e contiene le colonne definite dal set di righe dello schema di data mining. Per altre informazioni, vedere Set di righe DMSCHEMA_MINING_MODEL_CONTENT.

Ogni nodo include i relativi metadati, tra cui un identificatore univoco all'interno di ciascun modello, l'ID del nodo padre e il numero di nodi figlio presenti. I metadati identificano il modello di appartenenza del nodo e il catalogo del database in cui è archiviato quel modello specifico. Il contenuto aggiuntivo presente nel nodo varia in base al tipo di algoritmo utilizzato per creare il modello e potrebbe includere gli elementi seguenti:

  • Conteggio dei case nei dati di training che supporta un determinato valore stimato.

  • Statistiche, quali media, deviazione standard o varianza.

  • Coefficienti e formule.

  • Definizione di regole e puntatori secondari.

  • Frammenti XML che descrivono una parte del modello.

Elenco di tipi di nodo del contenuto di data mining

Nella tabella seguente sono elencati i diversi tipi di nodo restituiti nei modelli di data mining. Poiché ogni algoritmo elabora in modo diverso le informazioni, ciascun modello genera solo alcuni tipi specifici di nodi. Modificando l'algoritmo, il tipo di nodo potrebbe cambiare. Il contenuto di ogni nodo potrebbe inoltre cambiare se si rielabora il modello.

Nota

Se si usa un servizio di data mining diverso da quello fornito in SQL Server 2014 Analysis Services (SSAS) o se si creano algoritmi plug-in personalizzati, potrebbero essere disponibili altri tipi di nodo personalizzati.

ID NODE_TYPE Etichetta del nodo Contenuto del nodo
1 Modellare Metadati e nodo di contenuto radice. Si applica a tutti i tipi di modello.
2 Albero Nodo radice di un albero di classificazione. Si applica ai modelli di albero delle decisioni.
3 Interior Nodo interno di divisione in un albero. Si applica ai modelli di albero delle decisioni.
4 Distribuzione Nodo finale di un albero. Si applica ai modelli di albero delle decisioni.
5 Cluster Cluster rilevato dall'algoritmo. Si applica ai modelli di clustering e ai modelli Sequence Clustering.
6 Sconosciuto Tipo di nodo sconosciuto.
7 ItemSet Set di elementi rilevato dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering.
8 AssociationRule Regola di associazione rilevata dall'algoritmo. Si applica ai modelli di associazione o ai modelli Sequence Clustering.
9 PredictableAttribute Attributo stimabile. Si applica a tutti i tipi di modello.
10 InputAttribute Attributo di input. Si applica ai modelli di alberi delle decisioni e Naive Bayes.
11 InputAttributeState Statistiche relative agli stati di un attributo di input. Si applica ai modelli di alberi delle decisioni e Naive Bayes.
13 Sequenza Nodo di livello superiore per un componente del modello Markov di un cluster di sequenza. Si applica ai modelli Sequence Clustering.
14 Transizione Matrice di transizione Markov. Si applica ai modelli Sequence Clustering.
15 TimeSeries Nodo non radice di un albero di serie temporali. Si applica solo ai modelli Time Series.
16 TsTree Nodo radice di un albero di serie temporali corrispondente a una serie temporale stimabile. Si applica ai modelli Time Series e solo se il modello è stato creato utilizzando il parametro MIXED.
17 NNetSubnetwork Subnet. Si applica ai modelli di rete neurale.
18 NNetInputLayer Gruppo che contiene i nodi del livello di input. Si applica ai modelli di rete neurale.
19 NNetHiddenLayer Gruppi contenenti i nodi che descrivono il livello nascosto. Si applica ai modelli di rete neurale.
21 NNetOutputLayer Gruppi che contengono i nodi del livello di output. Si applica ai modelli di rete neurale.
21 NNetInputNode Nodo nel livello di input che corrisponde a un attributo di input con gli stati corrispondenti. Si applica ai modelli di rete neurale.
22 NNetHiddenNode Nodo nel livello nascosto. Si applica ai modelli di rete neurale.
23 NNetOutputNode Nodo nel livello di output. Questo nodo di solito corrisponde a un attributo di output e agli stati corrispondenti. Si applica ai modelli di rete neurale.
24 NNetMarginalNode Statistiche marginali sul set di training. Si applica ai modelli di rete neurale.
25 RegressionTreeRoot Nodo radice di un albero di regressione. Si applica ai modelli di regressione lineare e ai modelli di albero delle decisioni che contengono attributi continui di input.
26 NaiveBayesMarginalStatNode Statistiche marginali sul set di training. Si applica ai modelli Naive Bayes.
27 ArimaRoot Nodo radice di un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
28 ArimaPeriodicStructure Struttura periodica in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
29 ArimaAutoRegressive Coefficiente autoregressivo per un singolo termine in un modello ARIMA.

Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
30 ArimaMovingAverage Coefficiente di media mobile per un singolo termine in un modello ARIMA. Si applica solo ai modelli Time Series che utilizzano l'algoritmo ARIMA.
1000 CustomBase Punto iniziale dei tipi di nodo personalizzati. I tipi di nodo personalizzati devono essere Integer maggiori di questa costante. Si applica ai modelli creati tramite algoritmi plug-in personalizzati.

ID, nome, didascalia e descrizione dei nodi

Il valore dell'ID univoco,NODE_UNIQUE_NAME, del nodo radice di qualsiasi modello è sempre uguale a 0. Tutti gli ID dei nodi vengono assegnati automaticamente da Analysis Services e non possono essere modificati.

Il nodo radice di ogni modello contiene anche i metadati di base relativi al modello. Tra i metadati sono inclusi il database di Analysis Services in cui viene archiviato il modello (MODEL_CATALOG), lo schema (MODEL_SCHEMA)e il nome del modello (MODEL_NAME). Queste informazioni sono ripetute in tutti i nodi del modello, pertanto non è necessario eseguire query sul nodo radice per ottenere i metadati.

Oltre al nome usato come identificatore univoco, ogni nodo dispone di un nome ,NODE_NAME, che viene creato automaticamente dall'algoritmo a scopo di visualizzazione e non può essere modificato.

Nota

L'algoritmo Microsoft Clustering consente di assegnare nomi descrittivi a ogni cluster. Questi nomi descrittivi, tuttavia, non vengono salvati in modo permanente sul server e se si rielabora il modello l'algoritmo genera nuovi nomi per i cluster.

La didascalia e la descrizione relative a ogni nodo sono generate automaticamente dall'algoritmo e fungono da etichette per conoscere il contenuto del nodo. Il testo generato per ogni campo dipende dal tipo di modello. A volte il nome, la didascalia e la descrizione contengono esattamente la stessa stringa, ma in alcuni modelli la descrizione può contenere informazioni aggiuntive. Per informazioni dettagliate sull'implementazione, vedere l'argomento relativo al singolo tipo di modello.

Nota

Il server Analysis Services supporta la ridenominazione dei nodi solo se i modelli vengono compilati tramite un algoritmo plug-in personalizzato che implementa la ridenominazione. Per abilitare la ridenominazione, è necessario eseguire l'override dei metodi durante la creazione dell'algoritmo plug-in.

Padri, figli e cardinalità dei nodi

La relazione tra nodi padre e nodi figlio in una struttura ad albero è determinata dal valore della colonna PARENT_UNIQUE_NAME. Questo valore è archiviato nel nodo figlio e indica l'ID del nodo padre. Di seguito sono riportati alcuni esempi delle modalità di utilizzo di queste informazioni:

  • Se il valore della colonna PARENT_UNIQUE_NAME è NULL, il nodo è il nodo di livello superiore del modello.

  • Se il valore di PARENT_UNIQUE_NAME è 0, il nodo deve essere un discendente diretto del nodo di livello superiore del modello. Il valore dell'ID del nodo radice infatti è sempre 0.

  • È possibile individuare discendenti o padri di un determinato nodo utilizzando funzioni in query DMX (Data Mining Extensions). Per altre informazioni sull'utilizzo di funzioni nelle query, vedere Query di data mining.

Il terminecardinalità fa riferimento al numero di elementi contenuti in un set. Nel contesto di un modello di data mining elaborato, la cardinalità indica il numero di figli di uno specifico nodo. Ad esempio, in presenza di un modello di albero delle decisioni con un nodo [Yearly Income] che dispone a sua volta di due nodi figlio, uno per la condizione [Yearly Income] = High e uno per la condizione [Yearly Income] = Low, il valore di CHILDREN_CARDINALITY per il nodo [Yearly Income] è uguale a 2.

Nota

In Analysis Services vengono conteggiati solo i nodi figlio immediati durante il calcolo della cardinalità di un nodo. Tuttavia, se si crea un algoritmo plug-in personalizzato, è possibile eseguire l'overload di CHILDREN_CARDINALITY per contare la cardinalità in modo diverso. L'operazione può essere utile, ad esempio, per contare il numero complessivo di discendenti, non solo i figli immediati.

Sebbene la cardinalità sia contata nello stesso modo per tutti i modelli, la modalità di interpretazione o utilizzo del valore della cardinalità varia in base al tipo di modello. In un modello di clustering, ad esempio, la cardinalità del nodo di livello superiore indica il numero di transizioni trovate. In altri tipi di modello, il valore della cardinalità può sempre essere impostato a seconda del tipo di nodo. Per ulteriori informazioni sull'interpretazione della cardinalità, vedere l'argomento relativo al singolo tipo di modello.

Nota

Alcuni modelli, quali quelli creati dall'algoritmo Microsoft Neural Network, contengono inoltre uno speciale tipo di nodo che fornisce statistiche descrittive sui dati di training per l'intero modello. Per definizione, questi nodi non dispongono mai di nodi figlio.

node distribution

Nella colonna NODE_DISTRIBUTION è contenuta una tabella nidificata che fornisce importanti e dettagliate informazioni sui modelli individuati dall'algoritmo per molti nodi. Le statistiche esatte fornite nella tabella variano a seconda del tipo di modello, della posizione del nodo nell'albero e del fatto che l'attributo stimabile sia un valore numerico continuo o un valore discreto; possono tuttavia includere i valori minimo e massimo di un attributo, i pesi assegnati ai valori, il numero di case presenti in un nodo, i coefficienti utilizzati in una formula di regressione e misure statistiche quali deviazione standard e varianza. Per ulteriori informazioni su come interpretare la distribuzione dei nodi, vedere l'argomento relativo al tipo specifico di modello utilizzato.

Nota

A seconda del tipo di nodo, la tabella NODE_DISTRIBUTION può essere vuota. Alcuni nodi ad esempio hanno esclusivamente lo scopo di organizzare una raccolta di nodi figlio e sono i nodi figlio a contenere le statistiche dettagliate.

Nella tabella nidificata NODE_DISTRIBUTION sono contenute sempre le colonne riportate di seguito. Il contenuto di ciascuna colonna varia a seconda del tipo di modello. Per ulteriori informazioni su tipi di modello specifici, vedere Contenuto del modello di data mining in base al tipo di algoritmo.

ATTRIBUTE_NAME
Il contenuto varia in base all'algoritmo. Può essere il nome di una colonna, ad esempio un attributo stimabile, una regola, un set di elementi o un'informazione interna all'algoritmo come la porzione di una formula.

Questa colonna può contenere inoltre una coppia attributo-valore.

ATTRIBUTE_VALUE
Valore dell'attributo specificato in ATTRIBUTE_NAME.

Se il nome dell'attributo è una colonna, nel caso più semplice ATTRIBUTE_VALUE contiene uno dei valori discreti per la colonna.

A seconda dei valori elaborati dall'algoritmo, nella colonna ATTRIBUTE_VALUE può essere presente anche un flag che indica se esiste un valore per l'attributo (Existing) o se il valore è Null (Missing).

Ad esempio, se il modello è configurato per la ricerca dei clienti che hanno acquistato almeno una volta un determinato elemento, nella colonna ATTRIBUTE_NAME potrebbe essere contenuta la coppia attributo-valore che definisce l'elemento di interesse, ad esempio Model = 'Water bottle', e nella colonna ATTRIBUTE_VALUE solo la parola chiave Existing o Missing.

SUPPORT
Conteggio dei case che dispongono di questa coppia attributo-valore o che contengono questo set di elementi o regola.

In generale, il valore di supporto per ogni nodo indica quanti case del set di training sono inclusi nel nodo corrente. Nella maggior parte dei tipi di modelli il supporto rappresenta il conteggio esatto dei case. I valori di supporto sono utili perché consentono di visualizzare la distribuzione dei dati all'interno dei case di training senza che sia necessario eseguire una query sui dati di training. Questi valori vengono inoltre utilizzati dal server Analysis Services per confrontare la probabilità archiviata con la probabilità precedente in modo da determinare se l'inferenza è forte o debole.

In un albero di classificazione, ad esempio, il valore di supporto indica il numero di case che dispongono della combinazione di attributi descritta.

In un albero delle decisioni, la somma del supporto in ciascun livello dell'albero ammonta al supporto del nodo padre. Ad esempio, se un modello contenente 1200 case viene diviso equamente per sesso e quindi suddiviso equamente per tre valori per i nodi figlio Income-Low, Medium e High-the child del nodo (2), che sono nodi (4), (5) e (6), sommano sempre allo stesso numero di case del nodo (2).

ID e attributi del nodo Conteggio del supporto
(1) Model root 1200
(2) Gender = Male

(3) Gender = Female
600

600
(4) Gender = Male e Income = High

(5) Gender = Male e Income = Medium

(6) Gender = Male e Income = Low
200

200

200
(7) Gender = Female e Income = High

(8) Gender = Female e Income = Medium

(9) Gender = Female e Income = Low
200

200

200

Per un modello di clustering, è possibile ponderare il numero di supporto in modo da includere le probabilità di appartenenza a più cluster. L'appartenenza a più cluster costituisce il metodo di clustering predefinito. In questo scenario, poiché ogni case non appartiene necessariamente a un unico cluster, il supporto in questi modelli potrebbe non raggiungere il 100% in tutti i cluster.

PROBABILITY
Indica la probabilità per il nodo specificato all'interno dell'intero modello.

La probabilità rappresenta generalmente il supporto per questo determinato valore, diviso per il totale dei case all'interno del nodo (NODE_SUPPORT).

La probabilità è tuttavia leggermente adattata per eliminare distorsioni provocate da valori mancanti nei dati.

Ad esempio, se i valori correnti per [Total Children] sono 1 e 2, si desidera evitare di creare un modello che stimi che è impossibile non avere figli oppure avere tre figli. Per assicurarsi che i valori mancanti siano improbabili ma non impossibili, l'algoritmo aggiunge sempre 1 al conteggio dei valori effettivi per qualsiasi attributo.

Esempio:

Probabilità per [Total Children = 1] = [Conteggio dei case in cui Total Children è uguale a 1] + 1/[Conteggio di tutti i case] + 3

Probabilità per [Total Children = 2] = [Conteggio dei case in cui Total Children è uguale a 2] + 1/[Conteggio di tutti i case] + 3

Nota

Il valore 3 dell'adattamento è calcolato aggiungendo 1 al numero complessivo di valori n esistenti.

Dopo l'adattamento le probabilità per tutti i valori sono ancora uguali a 1. La probabilità per il valore senza dati (in questo esempio, [Total Children = '0', '3' o un altro valore]), inizia da un livello molto basso diverso da zero e aumenta lentamente man mano che vengono aggiunti altri case.

variance
Indica la varianza dei valori all'interno del nodo. Per definizione, la varianza dei valori discreti è sempre 0. Se il modello supporta valori continui, la varianza viene calcolata come σ (sigma), usando il denominatore n o il numero di case presenti nel nodo.

In generale, la deviazione standard, StDev, viene rappresentata tramite due definizioni: un metodo per il calcolo della deviazione standard prende in considerazione la distorsione, mentre l'altro calcola la deviazione standard senza utilizzare la distorsione. In generale, gli algoritmi di data mining di Microsoft non utilizzano la distorsione durante il calcolo della deviazione standard.

Il valore visualizzato nella tabella NODE_DISTRIBUTION costituisce il valore effettivo per gli attributi discreti e discretizzati e la media per i valori continui.

VALUE_TYPE
Indica il tipo di dati del valore o attributo e l'utilizzo del valore. Determinati tipi di valore si applicano solo a determinati tipi di modello:

ID VALUE_TYPE Valore dell'etichetta Nome del tipo di valore
1 Missing Indica che i dati del case non contengono un valore per questo attributo. Lo stato Missing è calcolato separatamente dagli attributi con valori.
2 Existing Indica che i dati del case contengono un valore per questo attributo.
3 Continua Indica che il valore dell'attributo è un valore numerico continuo che può pertanto essere rappresentato da una media, insieme alle varianza e deviazione standard.
4 Discrete Indica che un valore di testo o numerico viene trattato come discreto.

Nota i valori discreti possono anche essere mancanti; tuttavia, vengono gestiti in modo diverso durante l'esecuzione dei calcoli. Per informazioni, vedere Valori mancanti (Analysis Services - Data mining).
5 Discretizzato Indica che l'attributo contiene valori numerici discretizzati. Il valore sarà una stringa formattata che descrive i bucket di discretizzazione.
6 Existing Indica che l'attributo dispone di valori numerici continui e che i valori sono stati forniti nei dati, a fronte di valori mancanti o derivati.
7 Coefficiente Indica un valore numerico che rappresenta un coefficiente.

Un coefficiente è un valore che viene applicato durante il calcolo della variabile dipendente. Ad esempio, se il modello crea una formula di regressione che stima il reddito in base all'età, il coefficiente viene utilizzato nella formula di correlazione dell'età al reddito.
8 Miglioramento punteggio Indica un valore numerico che rappresenta il miglioramento del punteggio di un attributo.
9 Statistiche Indica un valore numerico che rappresenta una statistica per un regressore.
10 Nome univoco nodo Indica che il valore non deve essere gestito come valore numerico o stringa, ma come l'identificatore univoco di un altro nodo di contenuto del modello.

In un modello di rete neurale, ad esempio, gli ID forniscono puntatori dai nodi presenti nel livello di output ai nodi nel livello nascosto, e dai nodi presenti nel livello nascosto ai nodi nel livello di input.
11 Intercetta Indica un valore numerico che rappresenta l'intercetta in una formula di regressione.
12 Periodicità Indica che il valore denota una struttura periodica nel modello.

Si applica solo a modelli Time Series che contengono un modello ARIMA.

Nota: l'algoritmo Microsoft Time Series rileva automaticamente le strutture periodiche basate sui dati di training; pertanto le periodicità del modello finale possono includere valori di periodicità che non sono stati forniti come parametri durante la creazione del modello.
13 Ordine autoregressivo Indica che il valore rappresenta il numero di serie autoregressive.

Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
14 Ordine media mobile Rappresenta un valore che indica il numero di medie mobili in una serie.

Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
15 Ordine delle differenze Rappresenta un valore che indica il numero di volte in cui viene differenziata la serie.

Si applica a modelli Time Series che utilizzano l'algoritmo ARIMA.
16 Boolean Rappresenta un tipo booleano.
17 Altro Rappresenta un valore personalizzato definito dall'algoritmo.
18 Stringa visualizzabile Rappresenta un valore personalizzato che viene visualizzato come stringa dall'algoritmo. Non è stata applicata alcuna formattazione dal modello a oggetti.

I tipi di valore derivano dall'enumerazione ADMOMD.NET. Per altre informazioni, vedere Microsoft.AnalysisServices.AdomdServer.MiningValueType.

Punteggio del nodo

Il significato del punteggio del nodo varia a seconda del tipo di modello e può anche essere specifico del tipo di nodo. Per informazioni sulla modalità di calcolo di NODE_SCORE per ogni modello e tipo di nodo, vedere Contenuto del modello di data mining in base al tipo di algoritmo.

Probabilità del nodo e probabilità marginale

Nel set di righe dello schema del modello di data mining sono incluse le colonne NODE_PROBABILITY e MARGINAL_PROBABILITY per tutti i tipi di modello. Queste colonne contengono valori solo nei nodi che hanno un valore significativo di probabilità. Il nodo radice di un modello, ad esempio, non contiene mai un punteggio di probabilità.

Nei nodi che forniscono punteggi di probabilità, la probabilità del nodo e le probabilità marginali costituiscono calcoli diversi.

  • Laprobabilità marginale indica la probabilità di raggiungere il nodo dal padre.

  • Laprobabilità del nodo indica la probabilità di raggiungere il nodo dalla radice.

  • Laprobabilità del nodo è sempre minore o uguale alla probabilità marginale.

Ad esempio, se il popolamento di tutti i clienti in un albero delle decisioni è suddiviso equamente per genere e nessun valore è mancante, la probabilità dei nodi figlio sarà uguale a 0,5. Si supponga tuttavia che ognuno dei nodi per il genere sia diviso equamente in base ai livelli di reddito ad alto, medio e basso. In questo caso il punteggio di MARGINAL_PROBABILITY di ciascun nodo figlio deve essere sempre 0,33, ma il valore di NODE_PROBABILTY sarà il prodotto di tutte le probabilità che conducono a quel nodo e pertanto sarà sempre inferiore al valore di MARGINAL_PROBABILITY.

Livello e valore del nodo/attributo probabilità marginale probabilità del nodo
Nodo radice del modello

Tutti i clienti di destinazione
1 1
Clienti di destinazione suddivisi per genere .5 .5
Clienti di destinazione suddivisi per genere, quindi suddivisi nuovamente in tre modi in base al reddito .33 .5 * .33 = .165

Regola del nodo e regola marginale

Nel set di righe dello schema del modello di data mining sono inoltre incluse le colonne NODE_RULE e MARGINAL_RULE per tutti i tipi di modello. Queste colonne contengono frammenti XML che è possibile utilizzare per serializzare un modello o rappresentare parti della sua struttura. In presenza di valori non significativi le colonne di alcuni nodi possono essere vuote.

I due tipi di regole XML fornite sono simili ai due tipi di valori di probabilità. Il frammento XML in MARGINAL_RULE definisce l'attributo e il valore del nodo corrente, laddove il frammento XML in NODE_RULE descrive il percorso al nodo corrente dal nodo radice del modello.

Contenuto del modello di data mining in base al tipo di algoritmo

Ogni algoritmo archivia tipi diversi di informazioni come parte dello schema di contenuto. Ad esempio, l'algoritmo Microsoft Clustering genera molti nodi figlio, ognuno dei quali rappresenta un possibile cluster. Ogni nodo del cluster contiene regole che descrivono caratteristiche condivise dagli elementi presenti nel cluster. Al contrario, l'algoritmo Microsoft Linear Regression non contiene nodi figlio; il nodo padre per il modello contiene invece l'equazione che descrive la relazione lineare individuata dall'analisi.

Nella tabella seguente vengono forniti collegamenti agli argomenti disponibili per ogni tipo di algoritmo.

  • Argomenti sul contenuto del modello: viene illustrato il significato di ciascun tipo di nodo per ogni tipo di algoritmo e vengono fornite istruzioni sui nodi di maggior interesse in un particolare tipo di modello.

  • Argomenti sull'esecuzione di query: vengono forniti esempi di query su un determinato tipo di modello e istruzioni su come interpretare i risultati.

Tipo di modello o di algoritmo model content Esecuzione di query sui modelli di data mining
Modelli Association Rules Contenuto dei modelli di data mining per i modelli di associazione (Analysis Services - Data mining) Esempi di query sul modello di associazione
Modelli di clustering Mining Model Content for Decision Tree Models (Analysis Services - Data Mining) Esempi di query sul modello di clustering
Modelli di albero delle decisioni Mining Model Content for Decision Tree Models (Analysis Services - Data Mining) Esempi di query sul modello di alberi delle decisioni
Modelli di regressione lineare Contenuto dei modelli di data mining per i modelli di regressione lineare (Analysis Services - Data mining) Esempi di query sul modello di regressione lineare
Modelli di regressione logistica Contenuto dei modelli di data mining per i modelli di regressione logistica (Analysis Services - Data mining) Esempi di query sul modello di regressione lineare
Modelli Naive Bayes Contenuto dei modelli di data mining per i modelli Naive Bayes (Analysis Services - Data mining) Esempi di query sul modello Naive Bayes
Modelli di rete neurale Mining Model Content for Neural Network Models (Analysis Services - Data Mining) Esempi di query sul modello di rete neurale
Sequence Clustering Contenuto dei modelli di data mining per i modelli Sequence Clustering (Analysis Services - Data mining) Sequence Clustering Model Query Examples
Modelli Time Series Contenuto dei modelli di data mining per i modelli Time Series (Analysis Services - Data mining) Time Series Model Query Examples

Strumenti per la visualizzazione del contenuto di un modello di data mining

Quando si esplora o si esplora un modello in SQL Server Data Tools (SSDT), è possibile visualizzare le informazioni in Microsoft Generic Content Tree Viewer, disponibile sia in SQL Server Data Tools (SSDT) che in SQL Server Management Studio.

Microsoft Generic Content Viewer visualizza le colonne, le regole, le proprietà, gli attributi, i nodi e altri contenuti del modello usando le stesse informazioni disponibili nel set di righe dello schema del contenuto del modello di data mining. Il set di righe dello schema relativo al contenuto è un framework generico per la presentazione di informazioni dettagliate sul contenuto di un modello di data mining. È possibile visualizzare il contenuto del modello in un client che supporti i set di righe gerarchici. Il visualizzatore in SQL Server Data Tools (SSDT) presenta queste informazioni in un visualizzatore tabelle HTML che rappresenta tutti i modelli in un formato coerente, semplificando la comprensione della struttura dei modelli creati. Per altre informazioni, vedere Visualizzare un modello utilizzando Microsoft Generic Content Tree Viewer.

Strumenti per l'esecuzione di query sul contenuto di un modello di data mining

Per recuperare il contenuto di un modello di data mining, è necessario creare una query sul modello di data mining.

Il modo più semplice per creare una query di contenuto consiste nell'eseguire l'istruzione DMX seguente in SQL Server Management Studio:

SELECT * FROM [<mining model name>].CONTENT  

Per altre informazioni, vedere Query di data mining.

È anche possibile eseguire una query sul contenuto del modello di data mining utilizzando i set di righe dello schema di data mining. Un set di righe dello schema è una struttura standard utilizzata dai client per individuare, esplorare ed eseguire query sulle informazioni relative a strutture e modelli di data mining. È possibile eseguire query sui set di righe dello schema tramite istruzioni XMLA, Transact-SQL o DMX.

In SQL Server 2014 è anche possibile accedere alle informazioni nei set di righe dello schema di data mining aprendo una connessione all'istanza di Analysis Services ed eseguendo query sulle tabelle di sistema. Per altre informazioni, vedere Esecuzione di query sui set di righe dello schema di data mining (Analysis Services - Data mining).

Vedere anche

Microsoft Generic Content Tree Viewer (Data mining)
Algoritmi di data mining (Analysis Services - Data mining)