Misure nel report di convalida incrociata

Articolo
07/30/2013

Durante la convalida incrociata, Analysis Services consente di dividere i dati di una struttura di data mining in più sezioni trasversali e quindi di eseguire il test della struttura e di tutti i modelli di data mining associati in modo iterativo. In base a questa analisi, viene restituito un set di misure di accuratezza standard per la struttura e ciascun modello.

Nel report sono contenute alcune informazioni di base sul numero di riduzioni nei dati e la quantità di dati in ciascuna riduzione, nonché un set di metriche generali che consentono di descrivere la distribuzione dei dati. Confrontando la metrica generale per ogni sezione trasversale, è possibile valutare l'affidabilità della struttura o del modello.

In Analysis Services viene inoltre visualizzato un set di misure dettagliate per i modelli di data mining. Queste misure dipendono dal tipo di modello e dal tipo di attributo analizzato, ad esempio se è discreto o continuo.

In questa sezione viene fornito un elenco delle misure contenute nel report Convalida incrociata e il relativo significato. Per informazioni dettagliate sulla modalità di calcolo di ogni misura, vedere Formule per la convalida incrociata.

Elenco di misure nel report di convalida incrociata

Nella tabella seguente vengono elencate le misure visualizzate nel report di convalida incrociata. Le misure vengono raggruppate per tipo di test, specificato nella colonna di sinistra della tabella seguente. Nella colonna di destra viene elencato il nome della misura, come visualizzato nel report, e viene fornita una breve spiegazione del significato.

Clustering

Misure applicate ai modelli di clustering

Probabilità del case

Questa misura indica di solito la probabilità che un case appartenga a un cluster specifico.

Per la convalida incrociata, i punteggi vengono sommati, quindi divisi per il numero di case, pertanto il punteggio indicato rappresenta una probabilità del case media.

Classificazione

Misure applicate ai modelli di classificazione

Vero positivo

Vero negativo

Falso positivo

Conteggio delle righe o dei valori nella partizione in cui lo stato stimato corrisponde allo stato di destinazione e la probabilità di stima è maggiore della soglia specificata.

Case associati a valori mancanti per l'attributo di destinazione sono esclusi, ovvero i conteggi di tutti i valori potrebbero non essere sommati.

Test superato/Test non superato

Conteggio delle righe o dei valori nella partizione in cui lo stato stimato corrisponde allo stato di destinazione e il valore della probabilità di stima è maggiore di 0.

Probabilità

Misure di probabilità applicate a più tipi di modello.

Accuratezza

Rapporto tra la probabilità della stima effettiva e la probabilità marginale nei test case. Righe associate a valori mancanti per l'attributo di destinazione sono escluse.

Tramite questa misura viene generalmente mostrato quanto la probabilità del risultato di destinazione migliori in caso di utilizzo del modello.

Radice errore quadratico medio

Radice quadrata dell'errore medio per tutti i case della partizione divisa per il numero di case nella partizione, escluse le righe associate a valori mancanti per l'attributo di destinazione.

Radice errore quadratico medio è uno stimatore comune per modelli predittivi. Per il punteggio viene eseguita la media dei residui per ciascun case per produrre un singolo indicatore di errore del modello.

Punteggio in forma logaritmica

Logaritmo della probabilità effettiva per ciascun case sommato e quindi diviso per il numero di righe nel set di dati di input, escluse le righe associate a valori mancanti per l'attributo di destinazione.

Poiché la probabilità è rappresentata come frazione decimale, i punteggi in forma logaritmica sono sempre numeri negativi. Un numero più vicino a 0 corrisponde a un punteggio migliore. Mentre punteggi non elaborati possono avere distribuzioni non regolari o non simmetriche, un punteggio in forma logaritmica è analogo a una percentuale.

Valutazione

Misure applicate solo a modelli di valutazione che consentono di stimare un attributo numerico continuo.

Radice errore quadratico medio

Errore medio quando il valore stimato viene confrontato con il valore effettivo.

Errore assoluto medio

Errore medio quando i valori stimati vengono confrontati con i valori effettivi, calcolati come media della somma assoluta degli errori.

L'errore assoluto medio è utile per capire quanto le stime siano vicine ai valori effettivi. Un punteggio più piccolo indica che le stime sono più accurate.

Punteggio in forma logaritmica

Aggregazioni

Le misure dell'aggregazione forniscono un'indicazione della varianza nei risultati per ogni partizione.

Media

Media dei valori della partizione per una misura specifica.

Deviazione standard

Media della deviazione rispetto al valore medio per una misura specifica, calcolata in tutte le partizioni di un modello.

Per la convalida incrociata, un valore superiore per questo punteggio implica una variazione sostanziale tra le riduzioni.

Vedere anche

Concetti

Test e convalida (Data mining)

Condividi tramite

Misure nel report di convalida incrociata

Elenco di misure nel report di convalida incrociata

Vedere anche

Concetti

Risorse aggiuntive