Trực quan hóa dữ liệu
Các nhà khoa học dữ liệu trực quan hóa dữ liệu để hiểu rõ hơn. Họ có thể quét dữ liệu thô, kiểm tra các biện pháp tóm tắt như trung bình hoặc đồ thị dữ liệu. Đồ thị là một phương tiện mạnh mẽ để trực quan hóa dữ liệu và các nhà khoa học dữ liệu thường sử dụng đồ thị để phân biệt các mẫu hình vừa phải phức tạp một cách nhanh chóng.
Thể hiện dữ liệu một cách trực quan
Graphing được thực hiện để cung cấp một đánh giá định tính nhanh chóng của dữ liệu của chúng tôi, có thể hữu ích để hiểu kết quả, tìm các giá trị ngoài, kiểm tra cách phân phối số, và như vậy.
Mặc dù đôi khi chúng ta biết trước loại đồ thị nào sẽ hữu ích nhất, những lần khác chúng ta sử dụng đồ thị theo cách thăm dò. Để hiểu rõ sức mạnh của trực quan hóa dữ liệu, hãy cân nhắc các dữ liệu sau: vị trí (x,y) của xe tự lái. Ở dạng thô của dữ liệu, thật khó để thấy bất kỳ mẫu thực nào. Giá trị trung bình hoặc trung bình cho chúng ta biết rằng đường đi của xe được tập trung khoảng x=0,2 và y=0,3, và phạm vi số có vẻ nằm giữa khoảng -2 và 2.
| Thời gian | Location-X | Location-Y |
|---|---|---|
| 0 | 0 | 2 |
| 1 | 1.682942 | 1.080605 |
| 2 | 1.818595 | -0.83229 |
| 3 | 0.28224 | -1.97998 |
| 4 | -1.5136 | -1.30729 |
| 5 | -1.91785 | 0.567324 |
| 6 | -0.55883 | 1.920341 |
| 7 | 1.313973 | 1.507805 |
| 12 | 0.00001 | 0.00001 |
| 13 | 0.840334 | 1.814894 |
| 14 | 1.981215 | 0.273474 |
| 15 | 1.300576 | -1.51938 |
| 16 | -0.57581 | -1.91532 |
| 17 | -1.92279 | -0.55033 |
| 18 | -1.50197 | 1.320633 |
| 19 | 0.299754 | 1.977409 |
| 20 | 1.825891 | 0.816164 |
Nếu bây giờ chúng ta vẽ Location-X theo thời gian, chúng ta có thể thấy rằng chúng ta dường như có một số giá trị bị thiếu trong khoảng thời gian từ 7 đến 12.
Nếu chúng ta graph X so với Y, chúng tôi kết thúc với một bản đồ của nơi chiếc xe đã lái xe. Nó ngay lập tức rõ ràng rằng chiếc xe đã được lái xe trong một vòng tròn và tại một số điểm lái xe đến trung tâm của vòng tròn đó.
Đồ thị không bị giới hạn trong các biểu đồ phân tán 2D như ở trên. Chúng có thể được sử dụng để khám phá các khía cạnh khác của dữ liệu của bạn; ví dụ: tỷ lệ (biểu đồ hình tròn và đồ thị thanh xếp chồng) và cách dữ liệu được dàn trải (biểu đồ tần suất và biểu đồ hộp và dải dữ liệu trung bình). Thông thường, khi chúng tôi đang cố gắng hiểu dữ liệu thô hoặc kết quả, chúng tôi có thể thử nghiệm với các loại đồ thị khác nhau cho đến khi chúng tôi gặp phải một cách giải thích dữ liệu một cách trực quan trực quan.