Informazioni sui set di dati (anteprima)

I modelli di Machine Learning "imparano" dalle decisioni e dalle azioni cronologiche acquisite nei dati di training. Di conseguenza, le prestazioni in scenari reali sono fortemente influenzate dai dati su cui viene eseguito il training. Quando la distribuzione delle funzionalità in un set di dati è asimmetrica, un modello può prevedere erroneamente i punti dati appartenenti a un gruppo sottorappresentato o essere ottimizzati lungo una metrica inappropriata. Ad esempio, durante il training di un'intelligenza artificiale per la stima dei prezzi delle abitazioni, il set di training rappresentava il 75% delle case più recenti con prezzi inferiori a quelli mediani. Di conseguenza, è stato molto meno successo nell'identificare con successo case storiche più costose. La correzione era quella di aggiungere case più vecchie e costose ai dati di training e di aumentare le funzionalità per includere informazioni dettagliate sul valore storico della casa. Dopo aver incorporato tale aumento dei dati, i risultati sono migliorati.

Il componente Esplora dati del dashboard Di intelligenza artificiale responsabile consente di visualizzare i set di dati in base a risultati stimati e effettivi, gruppi di errori e funzionalità specifiche. In questo modo è possibile identificare i problemi di sovraspresentazione e sottopresentazione e per vedere in che modo i dati vengono raggruppati nel set di dati. Le visualizzazioni dei dati sono costituite da tracciati aggregati o singoli punti dati.

Quando usare Esplora dati

Usare Esplora dati quando è necessario:

  • Esplorare le statistiche del set di dati selezionando filtri diversi per suddividere i dati in dimensioni diverse (note anche come coorti).
  • Comprendere la distribuzione del set di dati tra coorti e gruppi di funzionalità diversi.
  • Determinare se i risultati correlati all'equità, all'analisi degli errori e alla causalità (derivati da altri componenti del dashboard) sono il risultato della distribuzione del set di dati.
  • Decidere in quali aree raccogliere più dati per attenuare gli errori derivanti da problemi di rappresentazione, rumore delle etichette, rumore delle funzionalità, distorsione delle etichette e così via.

Passaggi successivi