Nota
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare ad accedere o a cambiare directory.
L'accesso a questa pagina richiede l'autorizzazione. Puoi provare a cambiare directory.
La convalida è il processo di valutazione del livello di prestazioni dei modelli di data mining rispetto ai dati reali. È importante convalidare i modelli di data mining comprendendone la qualità e le caratteristiche prima di distribuirli in un ambiente di produzione.
Questa sezione presenta alcuni concetti di base relativi alla qualità del modello e descrive le strategie per la convalida del modello fornite in Microsoft Analysis Services. Per una panoramica del modo in cui la convalida del modello rientra nel processo di data mining più ampio, vedere Soluzioni di data mining.
Metodi per il test e la convalida dei modelli di data mining
Esistono molti approcci per valutare la qualità e le caratteristiche di un modello di data mining.
Usare varie misure di validità statistica per determinare se sono presenti problemi nei dati o nel modello.
Separare i dati in set di training e test per testare l'accuratezza delle stime.
Chiedere agli esperti aziendali di esaminare i risultati del modello di data mining per determinare se i modelli individuati hanno un significato nello scenario aziendale di destinazione
Tutti questi metodi sono utili nella metodologia di data mining e vengono usati in modo iterativo durante la creazione, il test e l'affinamento dei modelli per rispondere a un problema specifico. Nessuna singola regola completa può indicare quando un modello è sufficiente o quando si dispone di dati sufficienti.
Definizione di criteri per la convalida dei modelli di data mining
Le misure di data mining in genere rientrano nelle categorie di accuratezza, affidabilità e utilità.
L'accuratezza è una misura della correlazione tra il modello e gli attributi nei dati forniti dal modello. Esistono varie misure di accuratezza, ma tutte le misure di accuratezza dipendono dai dati usati. In realtà, i valori potrebbero essere mancanti o approssimativi o i dati potrebbero essere stati modificati da più processi. In particolare nella fase di esplorazione e sviluppo, è possibile decidere di accettare una determinata quantità di errori nei dati, soprattutto se i dati sono abbastanza uniformi nelle sue caratteristiche. Ad esempio, un modello che stima le vendite per un determinato punto vendita basato sulle vendite passate può essere strettamente correlato e molto accurato, anche se tale negozio usa costantemente il metodo di contabilità sbagliato. Pertanto, le misurazioni dell'accuratezza devono essere bilanciate dalle valutazioni dell'affidabilità.
L'affidabilità valuta il modo in cui un modello di data mining esegue su set di dati diversi. Un modello di data mining è affidabile se genera lo stesso tipo di stime o trova gli stessi tipi generali di modelli indipendentemente dai dati di test forniti. Ad esempio, il modello generato per l'archivio che usava il metodo contabile errato non generalizzerebbe bene in altri archivi e pertanto non sarebbe affidabile.
L'utilità include varie metriche che indicano se il modello fornisce informazioni utili. Ad esempio, un modello di data mining che correla la posizione dell'archivio con le vendite potrebbe essere sia accurato che affidabile, ma potrebbe non essere utile, perché non è possibile generalizzare tale risultato aggiungendo più archivi nella stessa posizione. Inoltre, non risponde alla domanda di business fondamentale sul motivo per cui alcune sedi hanno più vendite. Si potrebbe anche scoprire che un modello che sembra avere esito positivo in realtà è privo di significato, perché si basa su correlazioni incrociate nei dati.
Strumenti per il test e la verifica dei modelli di mining
Analysis Services supporta più approcci alla convalida delle soluzioni di data mining, supportando tutte le fasi della metodologia di test di data mining.
Partizionamento dei dati in set di test e training.
Applicazione di filtri ai modelli per eseguire il training e testare combinazioni diverse degli stessi dati di origine.
Misurazione dell'incremento e del guadagno. Un grafico di lift è un metodo per visualizzare il miglioramento ottenuto dall'uso di un modello di data mining quando viene confrontato con un'approssimazione casuale.
Esecuzione della convalida incrociata dei set di dati
Generazione di matrici di classificazione. Questi grafici classificano le ipotesi corrette e errate in una tabella, consentendoti di valutare rapidamente e facilmente quanto accuratamente il modello predica il valore target.
Creazione di grafici a dispersione per valutare l'adattamento di una formula di regressione.
Creazione di grafici dei profitti che associano guadagni finanziari o costi all'uso di un modello di data mining, in modo da poter valutare il valore delle raccomandazioni.
Queste metriche non mirano a rispondere alla domanda se il modello di data mining risponde alla domanda aziendale; piuttosto, queste metriche forniscono misurazioni obiettivi che è possibile usare per valutare l'affidabilità dei dati per l'analisi predittiva e per guidare la decisione di usare un'iterazione specifica nel processo di sviluppo.
Gli argomenti di questa sezione forniscono una panoramica di ogni metodo e illustrano il processo di misurazione dell'accuratezza dei modelli compilati con SQL Server Data Mining.
Argomenti correlati
Argomenti | Collegamenti |
---|---|
Informazioni su come configurare un set di dati di test usando una procedura guidata o comandi DMX | Set di dati di addestramento e verifica |
Scopri come testare la distribuzione e la rappresentatività dei dati in una struttura di data mining | Validazione incrociata (Analysis Services - Data Mining) |
Informazioni sui tipi di grafico di accuratezza forniti in SQL Server 2014 Analysis Services (SSAS). |
Grafico dei lift (Analysis Services - Data Mining) Grafico dei profitti (Analysis Services - Data mining) Grafico a dispersione (Analysis Services - Data Mining) |
Informazioni su come creare una matrice di classificazione, talvolta denominata matrice di confusione, per valutare il numero di veri e falsi positivi e negativi. | Matrice di classificazione (Analysis Services - Data mining) |
Vedere anche
Strumenti di data mining
Soluzioni di data mining
Attività di test e convalida e guide pratiche (Data Mining)