データの視覚化
データ サイエンティストは、データをよりよく理解するためにデータを視覚化します。 生データのスキャン、平均値などの概要メジャーの調査、データのグラフ化を行うことができます。 グラフはデータを視覚化する強力な手段であり、データ サイエンティストがグラフを使って、複雑度が中程度のパターンをすばやく見分けることはよくあります。
データを視覚的に表す
グラフ化は、データの定性的評価を提供するために行われるもので、結果の理解、外れ値の検出、数値の分布状況の調査などに役立ちます。
どのようなグラフが最も有用であるかを事前に知っている場合もあれば、探索的にグラフを使用する場合もあります。 データ視覚化の機能を理解するために、自動運転車の場所 (x,y) のデータについて考えてみましょう。 データの生の形式では、実際のパターンを確認することは困難です。 平均値を見ると、x=0.2 と y=0.3 を中心とした車の軌道を描いており、数値の範囲はおよそ -2 から 2 の間になっているようです。
Time | Location-X | Location-Y |
---|---|---|
0 | 0 | 2 |
1 | 1.682942 | 1.080605 |
2 | 1.818595 | -0.83229 |
3 | 0.28224 | -1.97998 |
4 | -1.5136 | -1.30729 |
5 | -1.91785 | 0.567324 |
6 | -0.55883 | 1.920341 |
7 | 1.313973 | 1.507805 |
12 | 0.00001 | 0.00001 |
13 | 0.840334 | 1.814894 |
14 | 1.981215 | 0.273474 |
15 | 1.300576 | -1.51938 |
16 | -0.57581 | -1.91532 |
17 | -1.92279 | -0.55033 |
18 | -1.50197 | 1.320633 |
19 | 0.299754 | 1.977409 |
20 | 1.825891 | 0.816164 |
ここで、Location-X を経時的にプロットすると、7 回目と 12 回目の間に、いくつか欠損値があるように見えることが確認できます。
X と Y をグラフ化すると、車が走った場所のマップが表示されます。 車は円を描くように走り、ある時点でその円の中心に向かって走ったことが一目瞭然です。
グラフは、前述のような 2D 散布図に限定されません。 比率 (円グラフと積み上げ横棒グラフ)、データの分布 (ヒストグラムと箱ひげ図) など、データの他の側面を調べるためにも使用できます。 生データや結果を理解しようとするときに、視覚的に直感的な方法でデータを説明するグラフが見つかるまで、さまざまな種類のグラフを試す場合がよくあります。