Visualiser les données

Effectué

Les scientifiques des données visualisent les données pour mieux les comprendre. Il est probable qu’ils analysent les données brutes, examinent des mesures récapitulatives (par exemple des moyennes) ou mettent les données sous forme de graphique. Les graphes constituent un puissant moyen de visualiser des données. Les scientifiques des données les utilisent souvent pour discerner rapidement des modèles de complexité modérée.

Représentation visuelle des données

La représentation graphique permet d’effectuer une évaluation qualitative rapide des données, ce qui peut être utile pour comprendre les résultats, trouver les valeurs hors norme, examiner la distribution des nombres, etc.

Parfois, nous savons à l’avance quel type de graphe sera le plus utile. D’autres fois, nous utilisons des graphes de manière exploratoire. Pour comprendre la puissance de la visualisation des données, prenons les données suivantes : la localisation (x, y) d’une voiture autonome. Dans la forme brute des données, il est difficile de dégager de véritables tendances. La moyenne indique que la trajectoire de la voiture était centrée sur x = 0,2 et y = 0,3, et que la plage de nombres semble comprise entre -2 et 2.

Temps Localisation X Localisation Y
0 0 2
1 1,682942 1,080605
2 1,818595 -0,83229
3 0,28224 -1,97998
4 -1,5136 -1,30729
5 -1,91785 0,567324
6 -0,55883 1,920341
7 1,313973 1,507805
12 0,00001 0,00001
13 0,840334 1,814894
14 1,981215 0,273474
15 1,300576 -1,51938
16 -0,57581 -1,91532
17 -1,92279 -0,55033
18 -1,50197 1,320633
19 0,299754 1,977409
20 1,825891 0,816164

Si nous traçons maintenant la localisation X au fil du temps, nous pouvons voir qu’il nous manque des valeurs entre les heures 7 et 12.

Graph of Location-X coordinates plotted against time.

Si nous représentons X par rapport à Y, nous obtenons une carte des endroits où la voiture s’est rendue. Il apparaît instantanément que la voiture a tourné en rond, puis s’est dirigée à un moment donné vers le centre de ce cercle.

Graph of Location-X and Location-Y coordinates plotted.

Les graphes ne sont pas limités aux nuages de points 2D comme les précédents. Ils peuvent être utilisés pour explorer d’autres aspects des données, par exemple des proportions (graphiques en secteurs et graphiques à barres empilées) et la répartition des données (histogrammes et graphiques en boîte à moustaches). Pour comprendre des données ou des résultats bruts, nous essayons souvent différents types de graphiques jusqu’à en trouver un qui explique les données d’une manière visuellement intuitive.