Share via


Comprendre vos jeux de données

Les modèles Machine Learning « apprennent » des décisions historiques et des actions extraites des données d’apprentissage. Par conséquent, leurs performances dans les scénarios réels sont fortement influencées par les données sur lesquelles elles sont formées. Quand la distribution des caractéristiques dans un jeu de données est asymétrique, cela peut entraîner une prédiction incorrecte des points de données appartenant à un groupe sous-représenté ou à une optimisation du modèle avec une métrique inappropriée.

Par exemple, alors qu’un modèle effectuait l’apprentissage d’un système d’IA pour prédire les prix de l’immobilier, le jeu d’apprentissage représentait 75 % des logements plus récents dont les prix étaient inférieurs aux prix médians. Par conséquent, il était beaucoup moins précis pour identifier avec succès des logements historiquement plus coûteux. Le correctif consistait à ajouter des logements plus anciens et coûteux aux données d’apprentissage et à augmenter les caractéristiques pour inclure des insights sur la valeur historique. Cette augmentation des données a amélioré les résultats.

Le composant d’analyse de données du Tableau de bord de l’IA responsable permet de visualiser les jeux de données en fonction des résultats prédits et réels, des groupes d’erreurs et de caractéristiques spécifiques. Cela permet d’identifier des problèmes de surreprésentation et de sous-représentation et de voir comment les données sont regroupées dans le jeu de données. Les visualisations de données se composent de tracés agrégés ou de points de données individuels.

Quand utiliser l’analyse des données

Utilisez l’analyse des erreurs quand vous devez effectuer les opérations suivantes :

  • Explorer vos statistiques de jeu de données en sélectionnant différents filtres pour segmenter vos données en différentes dimensions (également appelées cohortes).
  • Comprendre la distribution de votre jeu de données entre différentes cohortes et groupes de fonctionnalités.
  • Déterminer si vos résultats liés à l’impartialité, à l’analyse des erreurs et à la causalité (dérivés d’autres composants de tableau de bord) sont le résultat de la distribution de votre jeu de données.
  • Déterminez les zones où collecter davantage de données pour atténuer les erreurs résultant de problèmes de représentation, de bruit d’étiquette, de bruit de caractéristique, de biais d’étiquette et de facteurs similaires.

Étapes suivantes