Condividi tramite


Test dell'accuratezza con i grafici di accuratezza (Esercitazione di base sul data mining)

Nella scheda Grafico accuratezza data mining di data mining Designer è possibile calcolare il modo in cui ognuno dei modelli effettua stime e confrontare i risultati di ogni modello direttamente rispetto ai risultati degli altri modelli. Questo metodo di confronto viene definito grafico di sollevamento. In genere, l'accuratezza predittiva di un modello di data mining è misurata dall'accuratezza stessa del modello o dall'accuratezza della classificazione. Per questa esercitazione si utilizzerà solo il grafico di accuratezza.

In questo argomento verranno eseguite le attività seguenti:

Scelta dei dati di input

Il primo passaggio per verificare l'accuratezza dei modelli di data mining consiste nel selezionare l'origine dati che verrà utilizzata per il testing. Si testerà l'accuratezza dei modelli rispetto ai dati di testing, quindi li si utilizzerà con dati esterni.

Per selezionare il set di dati

  1. Passare alla scheda Grafico accuratezza data mining in Data Mining Designer in SQL Server Data Tools (SSDT) e selezionare la scheda Selezione input.

  2. Nella casella Seleziona set di dati da usare per il gruppo Grafico accuratezza selezionare Usa i test case della struttura di data mining. Si tratta dei dati di testing che sono stati riservati al momento della creazione della struttura di data mining.

    Per altre informazioni sulle altre opzioni, vedere Scegliere un tipo di grafico di accuratezza e impostare le opzioni del grafico.

Impostazione dei parametri del grafico di accuratezza

Per creare un grafico di accuratezza, è necessario definire tre elementi:

  • I modelli da includere nel grafico di accuratezza

  • L'attributo stimabile da misurare In alcuni modelli potrebbero essere presenti più destinazioni, ma ogni grafico può misurare un solo risultato alla volta.

    Per usare una colonna come Nome colonna stimabile in un grafico di accuratezza, le colonne devono avere il tipo di utilizzo o PredictPredict Only. Inoltre, il tipo di contenuto della colonna di destinazione deve essere Discrete o Discretized. In altre parole, non è possibile utilizzare grafici di accuratezza per misurare l'accuratezza su risultati numerici continui.

  • Misurare l'accuratezza generale del modello o la relativa accuratezza nella stima di un determinato valore (ad esempio [Bike Buyer] = 'Sì')

Per generare il grafico di accuratezza

  1. Nella scheda Selezione input di Data Mining Designer selezionare colonne del modello di data mining prevedibili da visualizzare nel grafico di sollevamento selezionare la casella di controllo Sincronizza colonne e valori di stima.

  2. Nella colonna Nome colonna stimabile verificare che Bike Buyer sia selezionato per ogni modello.

  3. Nella colonna Mostra selezionare ognuno dei modelli.

    Per impostazione predefinita, nella struttura di data mining sono selezionati tutti i modelli. È possibile decidere di non includere un modello. Tuttavia in questa esercitazione verranno lasciati selezionati tutti i modelli.

  4. Nella colonna Stima valore selezionare 1. Lo stesso valore viene inserito automaticamente per ciascun modello che ha la stessa colonna stimabile.

  5. Selezionare la scheda Grafico di sollevamento .

    Quando si fa clic sulla scheda, viene eseguita una query di stima per ottenere le stime per i dati di test e i risultati vengono confrontati con valori noti. I risultati vengono tracciati sul grafico.

    Se è stato specificato un risultato di destinazione specifico usando l'opzione Stima valore , il grafico di sollevamento traccia i risultati di ipotesi casuali e i risultati di un modello ideale.

    • La riga relativa alle ipotesi casuali mostra l'accuratezza presentata dal modello senza l'utilizzo di dati informativi per il calcolo delle stime, ovvero una divisione 50-50 tra due risultati. Il grafico di accuratezza consente di visualizzare le migliori prestazioni registrate dal modello rispetto a un'ipotesi casuale.

    • La linea del modello ideale rappresenta il limite superiore di accuratezza. Mostra il massimo vantaggio che è possibile ottenere se le stime del modello fossero sempre accurate.

    I modelli di data mining creati ricadranno in genere tra questi due estremi. Qualsiasi miglioramento da un'ipotesi casuale viene considerato lift.

  6. Utilizzare la legenda per individuare le linee colorate che rappresentano il modello ideale e il modello di ipotesi casuale.

    Si noterà che il modello offre il maggior numero di prestazioni, che superano sia i TM_Decision_Tree modelli Clustering che Naive Bayes.

Per una spiegazione approfondita di un grafico di sollevamento simile a quello creato in questa lezione, vedere Lift Chart (Analysis Services - Data Mining).

Attività successiva della lezione

Test di un modello filtrato (Esercitazione di base sul data mining)

Vedere anche

Grafico di accuratezza (Analysis Services - Data mining)
Scheda Grafico di accuratezza (vista Grafico di accuratezza modello di data mining)