Test dell'accuratezza con grafici di accuratezza (esercitazione di base sul data mining)

Nella scheda Grafico accuratezza data mining di Progettazione modelli di data mining è possibile calcolare l'accuratezza di ogni modello e confrontare i risultati di ogni modello direttamente con i risultati degli altri modelli. Questo metodo di confronto viene definito grafico di accuratezza. In genere, l'accuratezza predittiva di un modello di mining viene misurata in base al lift o all'accuratezza di classificazione. Per questo tutorial useremo solo il grafico di lift.

In questo argomento verranno eseguite le attività seguenti:

Scegliere i dati di input
Configurare i parametri del grafico di accuratezza

Scelta dei dati di input

Il primo passaggio per testare l'accuratezza dei modelli di data mining consiste nel selezionare l'origine dati che verrà usata per i test. Verificherete le prestazioni dei modelli rispetto ai vostri dati di test e quindi li userete con dati esterni.

Per selezionare il set di dati

Passare alla scheda Grafico dell'accuratezza del data mining in Progettazione di Data Mining in SQL Server Data Tools (SSDT) e selezionare la scheda Selezione dell'input.
Nella casella Selezionare il set di dati da utilizzare per il Grafico di accuratezza selezionare Usa i casi di test della struttura di data mining. Si tratta dei dati di test che hai messo da parte quando hai creato la struttura di data mining.

Per altre informazioni sulle altre opzioni, vedere Scegliere un tipo di grafico di accuratezza e impostare le opzioni del grafico.

Impostazione dei parametri del grafico di precisione

Per creare un grafico di accuratezza, è necessario definire tre elementi:

Quali modelli è necessario includere nel grafico di accuratezza?
Quale attributo stimabile si vuole misurare? Alcuni modelli possono avere più destinazioni, ma ogni grafico può misurare un solo risultato alla volta.

Per usare una colonna come Nome colonna prevedibile in un grafico di accuratezza, le colonne devono avere il tipo di utilizzo di Predict oppure Predict Only. Inoltre, il tipo di contenuto della colonna di destinazione deve essere Discrete o Discretized. In altre parole, non è possibile misurare la precisione rispetto agli output numerici continui usando il grafico di sollevamento.
Vuoi misurare l'accuratezza generale del modello o la sua accuratezza nel prevedere un determinato valore, ad esempio [acquirente di biciclette] = "Sì"?

Per generare il grafico di lift

Nella scheda Selezione input di Progettazione modelli di data mining, selezionare le colonne prevedibili del modello di mining da visualizzare nel grafico lift, selezionare la casella di controllo Sincronizza le colonne e i valori della previsione.
Nella colonna Nome colonna prevedibile, verificare che Bike Buyer sia selezionato per ogni modello.
Nella colonna Mostra selezionare ognuno dei modelli.

Per impostazione predefinita, vengono selezionati tutti i modelli nella struttura di mining. È possibile decidere di non includere un modello, ma per questa esercitazione lasciare selezionati tutti i modelli.
Nella colonna Stima valore selezionare 1. Lo stesso valore viene compilato automaticamente per ogni modello con la stessa colonna stimabile.
Selezionare la scheda Grafico Lift.

Quando si fa clic sulla scheda, viene eseguita una query di stima per ottenere stime per i dati di test e i risultati vengono confrontati con i valori noti. I risultati vengono tracciati nel grafico.

Se hai specificato un determinato risultato di destinazione usando l'opzione Predici Valore, il grafico di sollevamento traccia i risultati di ipotesi casuali e i risultati di un modello ideale.
- La linea di ipotesi casuale mostra quanto sia accurato il modello senza usare dati per informarne le stime, ovvero una divisione di 50-50 tra due risultati. Il grafico di ascensore aiuta a visualizzare quanto meglio il tuo modello si comporta rispetto a un'ipotesi casuale.
- La linea del modello ideale rappresenta il limite superiore di accuratezza. Mostra il massimo vantaggio possibile che è possibile ottenere se il modello è sempre stato stimato in modo accurato.
I modelli di mining creati solitamente rientrano tra questi due estremi. Qualsiasi miglioramento della ipotesi casuale viene considerato incremento.
Usare la legenda per individuare le linee colorate che rappresentano il modello ideale e il modello casuale.

Si noterà che il modello TM_Decision_Tree offre il maggiore incremento, superando sia i modelli Clustering che Naive Bayes.

Per una spiegazione approfondita di un grafico di lift simile a quello creato in questa lezione, vedere Grafico di Lift (Analysis Services - Data Mining).

Attività successiva nella lezione

Test di un modello filtrato (esercitazione di base sul data mining)

Vedere anche

Grafico dei lift (Analysis Services - Data Mining)
Scheda Lift Chart (Visualizzazione grafico di accuratezza del data mining)

Last updated on 2017-03-06