Prestazioni del modello di previsione
Dopo ogni training, AI Builder utilizza un set di dati di test per valutare la qualità e l'accuratezza del nuovo modello. La pagina di riepilogo per il modello mostra il risultato del training del modello. Questi risultati sono espressi come un grado di prestazioni di A, B, C o D.
Misurazione delle prestazioni
Grado di prestazioni
Dopo il training, per valutare l'accuratezza di un modello, AI Builder usa una classificazione basata su più livelli. Per decidere se un modello è pronto per la pubblicazione è necessario valutare le proprie esigenze e le circostanze specifiche. Per facilitare la decisione, AI Builder fa riferimento ai seguenti livelli di prestazioni.
Come interpretare ogni voto
Grado | Materiale sussidiario |
---|---|
A | Potrebbe essere possibile migliorare ancora il modello, ma è il miglior grado che si possa ottenere. |
B | Il modello è corretto in molti casi. Può essere migliorato? Questa risposta dipende da circostanze, dati e requisiti specifici. |
C | Il modello si differenzia di poco da un'ipotesi casuale. Potrebbe essere accettabile in alcuni scenari, ma nella maggior parte dei casi si tratta di un modello che è necessario continuare a modificare e migliorare. |
D | Il modello non funziona correttamente. Il modello ha un rendimento peggiore rispetto a quello si prevede possa avere un'ipotesi casuale (modello underfit). Oppure ha un rendimento così positivo (pari o vicino al 100%) che probabilmente hai una colonna di dati direttamente correlata al risultato (modello overfit). |
- Maggiori informazioni su modelli underfit
- Maggiori informazioni su modelli overfit
L'intervallo di precisione varia in base ai dati
Se stai prevedendo 2 o più risultati, le percentuali di accuratezza effettive corrispondenti ai gradi sopra indicati possono variare in base alla distribuzione dei dati nei dati cronologici. La differenza di percentuale deriva dal fatto che il miglioramento rispetto alla percentuale della baseline cambia nel momento in cui si sposta la baseline.
Si supponga che il modello venga usato per stimare se una spedizione arriverà in tempo o meno. Se la percentuale di puntualità nei dati cronologici è pari all'80%, il punteggio delle prestazioni 92 corrisponderebbe a un livello B. Tuttavia, se la percentuale di puntualità nei dati cronologici è solo pari al 50%, 92 corrisponderebbe a un livello A. Questo perché il 92% è un miglioramento più significativo se paragonato al 50% rispetto all'80% e si presume che un'ipotesi casuale sia vicina a queste percentuali.
Esempio di dati storici binari
Questo esempio mostra gli intervalli percentuali di accuratezza per ogni grado quando i dati cronologici presentano percentuali diverse per la puntualità per una stima binaria.
Grado | Intervallo di accuratezza per una percentuale di puntualità cronologica del 25% | Intervallo di accuratezza per una percentuale di puntualità cronologica del 50% | Intervallo di accuratezza per una percentuale di puntualità cronologica del 80% | Intervallo di accuratezza per una percentuale di puntualità cronologica del 95% |
---|---|---|---|---|
A | 92,5 – <99,3% | 90 - 98% | 93 – <99% | 98,1 – <99,8% |
B | 81,3 – <92,5% | 75 – <90% | 84 – <93% | 95,3 – <98,1% |
A | 66,3 – <81,3% | 55 – <75% | 71 – <84% | 91,5 – <95,3% |
D | <66,3% o ≥99,3% | <55% o ≥98% | <71% o ≥99% | <91,5% o ≥99,8% |
Esempio di dati storici con più risultati
Le percentuali di accuratezza che corrispondono a ciascun grado possono variare quando si prevedono più di 2 risultati. Supponiamo che il tuo modello preveda più di due opzioni per la consegna: in anticipo, in tempo o in ritardo.
L'accuratezza varia per ogni grado quando cambiano le tue percentuali di consegna in tempo.
Grado | In anticipo (33,3%) | In anticipo (20%) | In anticipo (10%) |
---|---|---|---|
In tempo (33,3%) | In tempo (40%) | In tempo (80%) | |
In ritardo (33,4%) | In ritardo (40%) | In ritardo (10%) | |
A | 86,7 – <98,7% | 87,2 – <98,7% | 93,2 – <99,3% |
B | 66,7 – <86,7% | 68,0 – <87,2% | 83,0 – <93,2% |
C | 40,0 – <66,7% | 42,4 – <68,0% | 69,4 – <83,0% |
D | 33,3 – <40,0% | 36,0 – <42,4% | 66,0 – <69,4% |
Esempio di previsione numerica
Per la previsione numerica, AI Builder utilizza la misura statistica R al quadrato per calcolare il grado di precisione dei modelli. La tabella seguente mostra i gradi che corrispondono a ciascun grado:
Grado | R al quadrato |
---|---|
Un | 85% - <99% |
G | 60% - <85% |
A | 10% - <60% |
D | ≥99% o <10% |
Dettagli sulle prestazioni
Per informazioni dettagliate sul training, seleziona Visualizza dettagli nella casella del grado assegnato al modello. Nella scheda Prestazioni sono disponibili le seguenti informazioni:
Nota
Per informazioni su eventuali funzionalità aggiuntive pianificate per quest'area, vedi i piani di rilascio.
- Punteggio di accuratezza
- R al quadrato
Punteggio di accuratezza
AI Builder calcola il punteggio di accuratezza per il modello in base al risultato della stima del set di dati di test. Prima del training, AI Builder separa il set di dati in set di dati di training e set di dati di test separati. Dopo il training, AI Builder applica il modello di intelligenza artificiale al set di dati di test e quindi calcola il punteggio di accuratezza. Ad esempio: se il tuo set di dati di test ha 200 righe e AI Builder ne prevede correttamente 192, AI Builder mostra un punteggio di precisione del 96 percento.
Per altre informazioni, vedi Valutare il modello.
R al quadrato
Per la previsione numerica, AI Builder calcola un punteggio r al quadrato dopo ogni training. Questo punteggio misura la "capacità di corrispondenza" del modello e viene utilizzato per determinare il grado di prestazioni del modello.
Si supponga di voler stimare il numero di giorni per l'evasione, la spedizione e la consegna di un ordine. Il modello stima un set di numeri. Il valore r al quadrato è basato sugli scostamenti tra i valori stimati e i valori effettivi nei dati di training. Questo valore è espresso come numero compreso tra 0 e 100%, con i valori più alti che indicano che il valore stimato è più vicino al valore reale. In genere, un punteggio più alto indica migliori prestazioni del modello. Tieni presente, tuttavia, che i punteggi perfetti o quasi perfetti (modelli overfit) sono in genere indicativi di un problema con i dati di training.
Nella scheda Riepilogo sono disponibili le seguenti informazioni sulle prestazioni:
- Data del training
- Origine dati
- Risultati cronologici
- Elenco di tabelle usato per eseguire la stima.
Migliorare le prestazioni del modello di previsione
Dopo aver preparato e valutato il tuo modello, puoi affinarlo per migliorarne le prestazioni. Di seguito sono elencati alcuni elementi che puoi provare per ottimizzare la potenza del modello in termini di previsioni.
Esaminare errori e problemi
- Se sono presenti errori al termine del training, correggili e ripeti il training del modello.
- In assenza di errori, controlla i dettagli di training. Prova a risolvere il maggior numero possibile di problemi, quindi ripeti il training del modello.
Esaminare i principali influencer
Al termine di ogni training, nella pagina dei dettagli del modello viene visualizzato un elenco dei principali influencer. Ogni colonna utilizzata nel training include un punteggio che rappresenta la sua influenza sul training. Questi punteggi si combinano per equivalere al 100 percento.
In questo modo puoi vedere se il training del tuo modello è quello previsto. Ad esempio, se vuoi prevedere le intenzioni di acquisto online e ritieni che Età, prodotto sia la colonna più influente, questa dovrebbe essere visualizzata nell'elenco delle colonne più influenti nella pagina dei dettagli del modello. In caso contrario, il risultato del training potrebbe non essere quello previsto. In questo caso, è possibile deselezionare le colonne irrilevanti o fuorvianti e ripetere il training del modello o controllare i problemi di training per visualizzare ulteriori dettagli.
Aggiungere altri dati
Il requisito minimo per i dati di training è 50 righe, ma questo non significa che 50 righe di dati consentiranno di eseguire il training di un modello altamente predittivo. Prova a fornire 1000 o più righe di dati, etichettate correttamente, con una distribuzione realistica tra le opzioni.
Controllare la distribuzione dei dati
Ad esempio, se stai utilizzando due etichette di opzioni Sì o No e la maggior parte delle righe di dati include solo Sì in questa colonna, difficilmente questi dati saranno significativi per il training del modello. Prova a usare una distribuzione di opzioni nei dati che rispecchi approssimativamente la distribuzione delle opzioni previste. Ad esempio, per esaminare le colonne di dati per proprietario_gatto e proprietario_cane, utilizza una distribuzione di dati attorno al 50%. Per lavorare sulle transazioni fraudolente, usa una distribuzione più sbilanciata, ad esempio 95% - 5%. Se non sai cosa aspettarti, esamina gli standard di settore per il tipo specifico di informazioni.
Aggiungere altre colonne
Ad esempio, per stimare quali clienti avranno la maggior probabilità di restituire o acquistare i prodotti. È possibile aggiungere altre colonne per arricchire i dati di training. Ad esempio:
- Qual è la valutazione del prodotto?
- Qual è la frequenza d'uso del prodotto?
- L'utente è un cliente esistente?
Restringere le colonne selezionate alle informazioni rilevanti
È possibile che siano già disponibili molti dati per il training etichettati correttamente, con molte colonne di dati. Perché il modello potrebbe non avere ancora prestazioni ottimali? La selezione di troppe colonne potrebbe causare una distorsione indesiderata. Verifica che tutte le colonne selezionate siano rilevanti per influenzare l'oggetto della previsione. Deseleziona le colonne irrilevanti o fuorvianti.
Convalida i dati
- Verifica che le colonne di dati non contengano un tasso elevato di valori mancanti (superiore al 99%). Popola i valori mancanti con i dati predefiniti o rimuovi le colonne di dati dal training del modello.
- Se una colonna di dati ha una correlazione elevata con il risultato di previsione, rimuovila dal training del modello.