Examen de données réelles
Les données présentées dans du matériel pédagogique sont souvent remarquablement parfaites, car conçues pour montrer aux étudiants comment trouver des relations claires entre les variables. Les données réelles sont un peu moins simples.
En raison de la complexité des données « réelles », les données brutes doivent être inspectées avant une utilisation fiable pour identifier les problèmes.
Une bonne pratique consiste à traiter vos données brutes avant de les utiliser afin de réduire les erreurs et autres problèmes, généralement en supprimant les points de données erronés ou en modifiant les données sous une forme plus utile.
Problèmes des données réelles
Les données réelles peuvent contenir de nombreux problèmes susceptibles d’affecter leur utilité et par conséquent votre interprétation des résultats.
Il est important de réaliser que la plupart des données du monde réel peuvent être influencées par des facteurs qui n’ont pas été enregistrés lors de la collecte initiale des données. Par exemple, il est possible que nous ayons une table des temps de course automobile, ainsi que des tailles de moteur. Divers autres facteurs n’ont toutefois pas été notés, tels que la météo, qui a probablement joué un rôle. L’influence de ces facteurs peut souvent être réduite en accroissant la taille du jeu de données.
Dans d’autres situations, les points de données qui se trouvent clairement en dehors des valeurs attendues, également appelés valeurs hors norme, peuvent parfois être supprimés sans risque des analyses. Il faut cependant veiller à ne pas supprimer des points de données qui fournissent de réels insights.
Les données réelles posent un autre problème courant : le biais. Celui-ci fait référence à une tendance humaine à sélectionner certains types de valeurs plus fréquemment que d’autres, d’une manière qui représente la population sous-jacente, ou « réelle », de manière erronée. Vous pouvez parfois identifier et prévenir le biais en explorant les données tout en gardant à l’esprit des connaissances de base sur leur provenance.
Les données réelles auront toujours des problèmes, mais ces derniers sont souvent surmontables si vous n’oubliez pas ce qui suit :
- Recherchez les valeurs manquantes et les données mal enregistrées.
- Envisagez de supprimer les valeurs hors norme évidentes.
- Tenez compte des facteurs réels susceptibles d’affecter votre analyse et déterminez si la taille de votre jeu de données est suffisamment grande pour les gérer.
- Vérifiez que les données brutes ne sont pas biaisées et étudiez les possibilités dont vous disposez pour résoudre le problème, si vous en rencontrez un.