Vizualizarea datelor
Oamenii de știință de date vizualizează datele pentru a le înțelege mai bine. Acestea pot scana datele brute, pot examina măsurile rezumative, cum ar fi mediile sau graficul datelor. Graficele sunt un mijloc puternic de vizualizare a datelor, iar oamenii de știință de date utilizează adesea grafice pentru a distinge rapid modele complexe moderat.
Reprezentarea vizuală a datelor
Graficul este realizat pentru a oferi o evaluare calitativă rapidă a datelor noastre, care poate fi utilă pentru înțelegerea rezultatelor, găsirea valorilor aberante, examinarea modului în care sunt distribuite numerele și așa mai departe.
Deși, uneori, știm dinainte ce tip de grafic va fi cel mai util, alteori folosim grafice într-un mod explorator. Pentru a înțelege puterea vizualizării datelor, luați în considerare următoarele date: locația (x,y) a unei mașini cu autoturism. În forma brută a datelor, este greu să vedeți orice modele reale. Media sau media ne spune că calea mașinii a fost centrată în jurul lui x=0,2 și y=0,3, iar intervalul de numere pare să fie între -2 și 2.
| Oră | Location-X | Location-Y |
|---|---|---|
| 0 | 0 | 2 |
| 1 | 1.682942 | 1.080605 |
| 2 | 1.818595 | -0.83229 |
| 3 | 0.28224 | -1.97998 |
| 4 | -1.5136 | -1.30729 |
| 5 | -1.91785 | 0.567324 |
| 6 | -0.55883 | 1.920341 |
| 7 | 1.313973 | 1.507805 |
| 12 | 0.00001 | 0.00001 |
| 13 | 0.840334 | 1.814894 |
| 14 | 1.981215 | 0.273474 |
| 15 | 1.300576 | -1.51938 |
| 16 | -0.57581 | -1.91532 |
| 17 | -1.92279 | -0.55033 |
| 18 | -1.50197 | 1.320633 |
| 19 | 0.299754 | 1.977409 |
| 20 | 1.825891 | 0.816164 |
Dacă acum vă reprezentați Location-X în timp, putem vedea că par să avem unele valori lipsă între 7 și 12.
Dacă am graficul X versus Y, ajungem cu o hartă a locului unde a condus mașina. Este evident că mașina a condus într-un cerc și, într-un moment dat, a condus spre centrul cercului.
Graficele nu sunt limitate la parcele prin puncte 2D ca cele de mai sus. Acestea pot fi utilizate pentru a explora alte aspecte ale datelor dvs.; de exemplu, proporțiile (diagramele cu structură radială și graficele cu bare stivuite) și modul în care sunt răspândite datele (histograme și grafice boxplot). De multe ori, atunci când încercăm să înțelegem datele brute sau rezultatele, am putea experimenta cu diferite tipuri de grafice până când întâlnim una care explică datele într-un mod vizual intuitiv.