Report Convalida incrociata (Analysis Services - Data mining)
La convalida incrociata consente di partizionare una struttura di data mining in sezioni trasversali e di eseguire in maniera iterativa il training e il testing dei modelli rispetto a ciascuna sezione trasversale dei dati. È possibile specificare più partizioni in cui suddividere i dati. Ciascuna partizione viene quindi utilizzata come set di dati di test, mentre i dati rimanenti vengono utilizzati per eseguire il training di un nuovo modello. In Analysis Services viene quindi generato un set di misure di accuratezza standard per ogni modello. Confrontando le misure relative ai modelli generati per ogni sezione trasversale, è possibile valutare l'affidabilità del modello di data mining per l'intero set di dati.
Nota
La convalida incrociata non può essere utilizzata con modelli che contengono una colonna KEY TIME o KEY SEQUENCE.
In questa sezione vengono descritte le informazioni contenute nel report Convalida incrociata nella scheda Grafico accuratezza modello di data mining di Progettazione modelli di data mining. Per ulteriori informazioni sulla creazione di un report, vedere Scheda Convalida incrociata (vista Grafico accuratezza modello di data mining).
Creazione di un report Convalida incrociata
Per eseguire la convalida incrociata di modelli di data mining associati a una struttura di data mining, utilizzare la scheda Convalida incrociata della vista Grafico accuratezza modello di data mining in Progettazione modelli di data mining oppure le stored procedure di convalida incrociata per effettuare le operazioni di configurazione seguenti:
Specificare il numero di riduzioni.
Specificare il numero massimo di case da utilizzare per la convalida incrociata. Questo numero viene diviso per il numero di riduzioni.
Specificare la colonna stimabile. Se si desidera, specificare uno stato stimabile.
Nota
Se la struttura di data mining contiene modelli di clustering, specificare #Cluster anziché selezionare una colonna stimabile. Il report restituisce risultati solo per i modelli di clustering.
- Se si desidera, impostare i parametri che consentono di controllare la modalità di valutazione dell'accuratezza della stima.
Scelta di un set di dati per la convalida incrociata
Quando si utilizza la scheda Convalida incrociata della vista Grafico accuratezza modello di data mining, è possibile controllare la quantità e il tipo di dati utilizzati durante la convalida incrociata in due modi diversi, ovvero specificando il numero di riduzioni e limitando il numero di case. Per impostazione predefinita, in Business Intelligence Development Studio la convalida incrociata utilizza i case di training per ogni modello. Se al modello è associato un filtro, quest'ultimo viene applicato.
Il valore di Conteggio riduzione specifica il numero di sezioni trasversali del set di dati da creare. Ciascuna riduzione viene utilizzata come set di dati di testing, mentre i dati nelle riduzioni rimanenti vengono utilizzati per eseguire il training di un nuovo modello. Di conseguenza, se è stato utilizzato il valore minimo 2, metà del set di dati verrà utilizzato per eseguire il testing e l'altra metà per eseguire il training.
Se la struttura di data mining non è archiviata in un'istanza di Analysis Services, ma è creata come struttura temporanea o della sessione, il numero massimo di riduzioni che è possibile utilizzare è 10. Se la struttura di data mining è archiviata in un'istanza di Analysis Services, non è possibile creare un numero di riduzioni maggiore del numero di case. Se il numero di case è minore del numero impostato per l'opzione Conteggio riduzione, viene utilizzato il numero minore.
Nota
Aumentando il numero di riduzioni, il tempo necessario per eseguire la convalida incrociata aumenta di conseguenza, poiché è necessario generare e testare un modello per ogni riduzione. Se il numero di riduzioni è troppo elevato, potrebbero verificarsi problemi relativi alle prestazioni.
Il valore di Numero massimo di case specifica il numero complessivo di case che può essere utilizzato per la convalida incrociata in tutte le riduzioni. Di conseguenza il numero di case in una riduzione specifica corrisponde al valore di Numero massimo di case diviso per il valore di Conteggio riduzione. Il valore predefinito è 0. In questo caso vengono utilizzati tutti i case della struttura di data mining.
Se si esegue la convalida incrociata utilizzando una delle stored procedure, è necessario indicare i valori per le proprietà FoldCount e MaxCases come parametri della stored procedure.
Nota
Se si utilizzano le stored procedure di convalida incrociata, è inoltre possibile impostare il parametro DataSet per definire il set di dati utilizzato per il testing. Le opzioni per il set di dati possono includere solo il set di training, i set di testing e di training e combinazioni di set di training e di testing con filtri del modello di data mining. Per ulteriori informazioni, vedere SystemGetCrossValidationResults (Analysis Services - Data mining).
Scelta di modelli e colonne da convalidare
Quando si utilizza la scheda Convalida incrociata in Progettazione modelli di data mining, è necessario innanzitutto selezionare la colonna stimabile da un elenco. In genere, una struttura di data mining può supportare numerosi modelli di data mining, che non utilizzano tutti la stessa colonna stimabile. Quando si esegue la convalida incrociata, solo i modelli che utilizzano la stessa colonna stimabile possono essere inclusi nel report.
Per scegliere un attributo stimabile, fare clic su Attributo di destinazione e selezionare la colonna dall'elenco. Se l'attributo di destinazione è una colonna nidificata o una colonna in una tabella nidificata, è necessario digitare il nome della colonna nidificata utilizzando il formato <Nome tabella nidificata>(chiave)<Colonna nidificata>. Se l'unica colonna utilizzata della tabella nidificata è la colonna chiave, è possibile utilizzare il formato <Nome tabella nidificata>(chiave).
Nota Se si utilizzano le stored procedure, è possibile esercitare più controllo sui modelli testati. Per ulteriori informazioni, vedere SystemGetCrossValidationResults (Analysis Services - Data mining).
Dopo che l'attributo stimabile è stato selezionato, in Analysis Services vengono testati automaticamente tutti i modelli che utilizzano lo stesso attributo.
Se l'attributo di destinazione contiene valori discreti, dopo avere selezionato la colonna stimabile è possibile digitare uno stato di destinazione nel caso sia presente un valore specifico da stimare.
La selezione dello stato di destinazione influisce sulle misure restituite. Se si specifica un attributo di destinazione, ovvero un nome di colonna, e non si sceglie un valore specifico che il modello dovrebbe stimare, per impostazione predefinita il modello verrà valutato in base alla stima dello stato più probabile.
Se si esegue la convalida incrociata di un modello di clustering, non è disponibile alcuna colonna stimabile ma è necessario selezionare #Cluster dall'elenco di attributi stimabili nella casella di riepilogo Attributo di destinazione. Dopo avere selezionato Cluster, le altre opzioni non attinenti ai modelli di clustering, ad esempio Stato di destinazione, sono disabilitate. In Analysis Services verranno testati tutti i modelli di clustering associati alla struttura di data mining.
Impostazione della soglia di accuratezza
È possibile controllare lo standard per valutare l'accuratezza della stima impostando un valore per l'opzione Soglia di destinazione. Una soglia rappresenta una sorta di barra di accuratezza. A ogni stima viene assegnata una probabilità di correttezza del valore stimato. Se pertanto si imposta Soglia di destinazione su un valore più prossimo a 1, una determinata stima deve avere una probabilità piuttosto elevata per essere considerata affidabile. Viceversa, se si imposta Soglia di destinazione su un valore più prossimo allo 0, anche le stime con i valori di probabilità più bassi vengono considerate affidabili.
Non esiste un valore soglia consigliato perché la probabilità di una stima dipende dai dati e dal tipo di valutazione che si sta effettuando. È necessario esaminare le stime a livelli di probabilità diversi per determinare una barra di accuratezza appropriata per i dati. Questo passaggio è importante perché il valore impostato per Soglia di destinazione influisce in modo incisivo sull'accuratezza misurata del modello.
Se in una struttura sono contenuti ad esempio tre modelli che stimano lo stato di destinazione con probabilità uguale a 0,05, 0,15 e 0,8 e la soglia è impostata su 0,5, solo una stima viene conteggiata come corretta. Se invece si imposta Soglia di destinazione su 0,10, due stime vengono conteggiate come corrette.
Quando l'opzione Soglia di destinazione è impostata sul valore predefinito null, lo stato più probabile viene utilizzato come destinazione. Nell'esempio precedente le stime di tutti i tre modelli sarebbero corrette. Di conseguenza, quando si confrontano modelli, è necessario considerare la soglia utilizzata per ogni istanza di convalida incrociata. È inoltre possibile valutare le probabilità medie per tutti i case in un particolare modello utilizzando le misure della probabilità media e della radice dell'errore quadratico medio disponibili nel report di convalida incrociata.
Limitazioni in caso di utilizzo della scheda Convalida incrociata
Se si esegue la convalida incrociata utilizzando il report relativo disponibile in Business Intelligence Development Studio, sono presenti alcune limitazioni sui modelli che è possibile testare e sui parametri che è possibile impostare.
Per impostazione predefinita, su tutti i modelli associati alla struttura di data mining selezionata viene eseguita la convalida incrociata. Non è possibile specificare il modello o un elenco di modelli.
La convalida incrociata non è supportata da modelli basati sull'algoritmo Microsoft Time Series o Microsoft Sequence Clustering.
Non è possibile creare il report se la struttura di data mining non contiene alcun modello che possa essere testato dalla convalida incrociata.
Se la struttura di data mining contiene sia modelli di clustering che modelli non cluster e non si sceglie l'opzione #Cluster, i risultati per entrambi i tipi di modelli vengono visualizzati nello stesso report, anche se l'attributo, lo stato e le impostazioni della soglia potrebbero non essere adatti per i modelli di clustering.
Alcuni valori dei parametri sono limitati. Se il numero di riduzioni è maggiore di 10, ad esempio, viene visualizzato un avviso perché la generazione di un numero elevato di modelli può provocare un rallentamento nella visualizzazione del report.
Se si desidera specificare impostazioni avanzate, è necessario utilizzare le stored procedure di convalida incrociata. Per ulteriori informazioni, vedere Stored procedure di data mining (Analysis Services - Data mining).
Risultati della convalida incrociata
Dopo che i parametri sono stati specificati ed è stata selezionata l'opzione Aggiorna, i risultati della convalida incrociata vengono visualizzati nella griglia specifica. In questa sezione viene illustrato il contenuto di ciascuna colonna nella griglia dei risultati.
Oltre a informazioni di base sul numero di riduzioni nei dati e la quantità di dati in ciascuna riduzione, in Analysis Services viene visualizzato un set di misure relativo a ogni modello, suddiviso in categorie in base al tipo. Nella tabella seguente vengono elencati i test e le misure, con una spiegazione del significato della misura.
Tipo di test |
Misure e descrizioni |
---|---|
Clustering |
Probabilità del caseIndicazione della probabilità che un case appartenga a un cluster specifico.
|
Classificazione |
Vero positivoConteggio di case che soddisfano le condizioni seguenti:
Falso positivoConteggio di case che soddisfano le condizioni seguenti:
Vero negativoConteggio di case che soddisfano le condizioni seguenti:
Falso negativoConteggio di case che soddisfano le condizioni seguenti:
|
Classificazione |
Test superato/Test non superatoConteggio di case che soddisfano le condizioni seguenti:
|
Probabilità |
AccuratezzaRapporto tra la probabilità della stima effettiva e la probabilità marginale nei test case. Questa misura indica il margine di miglioramento della probabilità quando il modello viene utilizzato.
Radice errore quadratico medioRadice quadrata dell'errore medio per tutti i case della partizione, divisa per il numero di case nella partizione, escluse le righe con valori mancanti.
Punteggio in forma logaritmicaLogaritmo della probabilità effettiva per ogni case, sommato e poi diviso per il numero di righe nel set di dati, escluse le righe con valori mancanti. Poiché la probabilità viene rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un punteggio più prossimo allo 0 indica una stima migliore.
|
Valutazione |
Radice errore quadratico medioErrore medio del valore stimato rispetto al valore effettivo, espresso come radice quadrata della somma media degli errori quadratici.
Errore assoluto medioErrore medio del valore stimato rispetto al valore effettivo, espresso come media della somma assoluta degli errori.
Punteggio in forma logaritmicaPunteggio della probabilità in forma logaritmica relativo alla stima: il logaritmo della probabilità effettiva per ogni case, sommato e poi diviso per il numero di righe nel set di dati, escluse le righe con valori mancanti. Poiché la probabilità viene rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un punteggio più prossimo allo 0 indica una stima migliore. Mentre punteggi non elaborati possono avere distribuzioni non regolari o non simmetriche, un punteggio in forma logaritmica è analogo a una percentuale.
|
Aggregazioni Le misure dell'aggregazione forniscono un'indicazione della varianza nei risultati per ogni partizione. |
MediaMedia dei valori della partizione per una misura specifica.
Deviazione standardMedia della deviazione rispetto al valore medio per una misura specifica, calcolata in tutte le partizioni di un modello.
|
Nota
Queste misure di accuratezza vengono calcolate per ogni attributo di destinazione e per ogni attributo è possibile specificare o omettere un valore di destinazione. È possibile che alcuni record non contengano alcun valore per l'attributo di destinazione. Si fa riferimento a questo caso speciale come valore mancante. Le righe con valori mancanti non vengono conteggiate nel calcolo della misura di accuratezza per un attributo di destinazione specifico. Inoltre, poiché i punteggi vengono calcolati singolarmente per ogni attributo, se sono presenti valori per l'attributo di destinazione mentre mancano per altri attributi, tale condizione non influisce sul punteggio dell'attributo di destinazione.