演習 - データを分析する
ここでは、学習したデータ分析の原則と手法を実際に使ってみましょう。 このラボでは、Excel Online を使ってデータを分析し、視覚化します。
このラボでは、Rosie のレモネードの売上を分析し、データから分析情報を得るのに役立つ視覚化を作成します。
開始する前に
注意
このラーニング パスの前のモジュールを完了している場合は、この「開始する前に」セクションをスキップし、「演習 1: ピボットテーブルを使ってデータを分析する」に進むことができます。
Microsoft アカウント (例: hotmail.com、live.com、または outlook.com アカウント) をまだお持ちでない方は、https://signup.live.com でサインアップしてください。
ワークブックを OneDrive にアップロードする
Web ブラウザーで https://onedrive.live.com に移動し、Microsoft アカウントの資格情報を使ってサインインします。 このように OneDrive にファイルとフォルダーが表示されるはずです。
[+ 新規作成] メニューの [フォルダー] を選択して、新しいフォルダーを作成します。 これに好きな名前を付けます。たとえば、DAT101 です。 新しいフォルダーが表示されたら、それを選択して開きます。
新しい空のフォルダーで、[⤒ アップロード] メニューの [ファイル] をクリックします。 次にプロンプトが表示されたら、[ファイル名] ボックスに、[ファイル名] フィールド内の次のアドレスを入力します (ここからコピーして貼り付けられます)。
https://github.com/MicrosoftLearning/mslearn-data-concepts/raw/main/labfiles/Lemonade_formatted.xlsx次に [開く] をクリックし、次のように Rosie のレモネード データを含む Excel ファイルをアップロードします。
数秒後に、 Lemonade_formatted.xlsx ファイルが次のようにフォルダーに表示されます。
演習 1: ピボットテーブルを使ってデータを分析する
ピボットテーブルは、データを "詳細に分析" し、1 つ以上のディメンションで数値メジャーを要約する優れた方法です。 この演習では、ピボットテーブルを使って、さまざまな方法で集計されたレモネードのデータを表示します。
ピボットテーブルを作成する
まだサインインしていない場合は、Web ブラウザーで https://onedrive.live.com に移動し、Microsoft アカウントの資格情報を使ってサインインします。 このラーニング パスで前のモジュールを完了した場合は、Lemonade.xlsx ブックを開きます。そうでない場合は、「開始する前に」セクションでこのブックをアップロードしたフォルダー内の Lemonade-formatted.xlsx を開きます。 あなたのワークブックは次のような表示になるはずです。
データのテーブルに含まれる任意のセルを選び、リボンの [挿入] タブで [ピボットテーブル] をクリックし、新しいワークシートにデータのテーブルからピボットテーブルを作成します。 Excel は次のようなピボットテーブルを含む新しいワークシートを追加します。
[ピボットテーブルのフィールド] ペインで "Month"(月) を選びます。 Excel によって、ピボットテーブルの [行] 領域に "Month"(月) が自動的に追加され、月名が時系列で表示されます。
[ピボットテーブルのフィールド] ペインで "Sales"(販売数) を選びます。 Excel によって、ピボットテーブルの "値" 領域に "Sales の合計" が自動的に追加され、次のように各月のレモネードの販売数の合計 (sum) が表示されます。
これで、月ごとに集計された販売数が表示されるようになります。たとえば、6 月の販売数は 1,056 件でした。
2 つ目のディメンションを追加する
[ピボットテーブルのフィールド] ペインで "Day"(曜日) を選びます。 Excel によって、ピボットテーブルの "行" 領域に "Day"(曜日) が自動的に追加され、次のように各月の各曜日についてレモネードの販売数の合計 (sum) が表示されます。
これで、月間の販売数を曜日ごとに集計して確認できるようになりました。 たとえば、1 月の販売数のうち 57 個は土曜日のものです。 また、月を展開するか折りたたむと、階層のレベルをドリルアップ/ドリルダウンできます。
[ピボットテーブルのフィールド] ペインで、"Day"(曜日) を "行" 領域から "列" 領域にドラッグします。 Excel には、次のように、行には各月の合計販売数、列には曜日別の内訳が表示されます。
月間の売上を曜日別に確認することはできますが、年間を通しての各曜日の合計も (一番下の行に) 表示されます。 たとえば、月曜日には合計 1,324 件の販売数がありました。
集計を変更する
[ピボットテーブルのフィールド] ペインの "値" 領域で、"Sales の合計" の横にあるドロップダウン矢印をクリックし、[値フィールドの設定] をクリックします。
[値フィールドの設定] ダイアログ ボックスで、次のように [平均] を選びます。
データのテーブルには、次のように月と曜日ごとの平均販売数が表示されるようになります。
これで、月別の各曜日の平均販売数を確認できます。 たとえば、2 月の水曜日の平均販売数は 19.75 です。
課題: ピボットテーブル分析
- ピボットテーブルのフィールドを変更して、次の情報を見つけます。
- 8 月の収益の合計額。
- 7 月で最も暑い土曜日の気温。
- 11 月に 1 日で配布したチラシの最少枚数。
演習 2: グラフを使ったデータの視覚化
多くの場合、データの傾向とリレーションシップを確認するには、グラフなどのデータの視覚化を作成するとわかりやすくなります。
年間の売上傾向を表示する
次のように、前の演習で作成したピボットテーブルを変更して、"Date"(日付) を "行" 領域に、"Sales"(販売数) の合計と "Temperature"(温度) の合計を (この順で) "値" 領域に表示するようにします。
このようなテーブルであることを確認してから、次に進んでください (日付の形式は地域によって異なる場合があることに注意してください)。
次の手順で、日付、毎日の販売数、気温の値を含むセルのみを選びます。"Date"(日付)、"Sales の合計"、"Temperature の合計" のヘッダー セルまたは "合計" フッター セルは含めません。
- 2017 年 1 月 1 日の日付値を含むセル A4 をクリックします。
- 次に、Shift + Ctrl + ⇨ キー (Mac OSX では Shift + ⌘ + ⇩ キー) を押して、販売数と気温の値を含むように選択範囲を広げます。
- 次に Shift + Ctrl + ⇩ キー (Mac OSX では Shift + ⌘ + ⇩ キー) を押して、現在の選択範囲の下にある行を選びます。
- 最後に Shift + ⇧ キーを押して、合計の選択を解除します。
リボンの [ホーム] タブにある [コピー] ボタン (🗐) をクリックして、選んだセルをクリップボードにコピーします。
ワークシートの下にある [新しいシート] ボタン (+) をクリックして、ブックに新しいワークシートを追加します。
新しいシートのセル A2 を選び、[ホーム] タブの [貼り付け] ボタン (📋) をクリックして、コピーしたセルを新しいワークシートに貼り付けます。 必要に応じて A 列を広げて日付を表示します。
セル A1 から C1 に、列ヘッダー "Date"(日付)、"Sales"(販売数)、"Temperature"(気温) を追加します。 新しいワークシートは次のようになります。
"Date"(日付) と "Sales"(販売数) のデータを、ヘッダーも含めて選びます (ただし、気温データは選びません)。 次に、リボンの [挿入] タブにある [折れ線グラフ] ドロップダウン リストで、最初の折れ線グラフ形式をクリックします。 Excel により、次のような折れ線グラフが挿入されます。
この折れ線グラフは、販売数の日々の変動を示していますが、一般的な傾向として、販売数は夏季に高くなり、年初と年末は低くなることを示すことに注目してください。
グラフを削除し、"Temperature"(気温) を含むすべてのデータとヘッダーを選び、新しい折れ線グラフを挿入します。 この操作で、次のようなグラフが挿入されます。
今回は、"Sales"(販売数) と "Temperature"(気温) の個別の系列がグラフに含まれています。 どちらの系列も同じようなパターンを示しており、販売数と気温はどちらも夏季に増加するようです。
グラフを選び、グラフのタイトルをダブルクリックします。 次に、[書式] タブの [グラフ] ペインで、[グラフのタイトル] を展開し、グラフのタイトルを "Sales and Temperature"(販売数と気温) に変更します。
[グラフ] ペインを閉じます。
曜日別の販売数を表示する
ピボットテーブルを含むワークシートに戻り、"Revenue"(収益) の平均値がある行に "Day"(曜日) を表示するように変更します。 結果は次のようになります。ただし、曜日が順番に並んでいない可能性があります。
曜日と平均収益の値をクリップボードにコピーし (ただし、ヘッダーまたは合計はコピーしません)、新しいワークシートを追加して、コピーしたデータをセル A2 に貼り付けて、"Day"(曜日) と "AverageRevenue"(平均収益) のヘッダーを次のように追加します。
B 列のヘッダーを選び、[ホーム] リボン タブにある $ メニューを使って、次のように [$ 英語 (米国)] として収益データの書式を設定します。
"Day"(曜日) と "AverageRevenue"(平均収益) のヘッダーを含むすべてのデータを選び、リボンの [挿入] タブにある [縦棒] ドロップダウン リストで、最初の縦棒グラフの形式を選びます。 次のようなグラフが作成されます。
一見すると、このグラフは、曜日ごとの平均販売数に大きな違いがあるように見えます。木曜日の収益は日曜日よりもはるかに高くなっています。 ただし、縦軸 (Y 軸) の目盛りをよく見ると、その差は 30 セント未満であることがわかります。
縦棒グラフを選び、リボンの [グラフ] タブの [円] ドロップダウン リストから [2D 円グラフ] 形式を選びます。 グラフは次のような円グラフに変わります。
円グラフは、各曜日のサイズがほぼ同じであることに注意してください。
円グラフを選び、[グラフ] タブの [データ ラベル] ドロップダウン リストで、[内側] を選びます。 この操作で、次のようにグラフに実際のデータ量が表示されます。
これで、曜日ごとの平均収益に明らかな変動がほとんどないことが明らかになりました。
チラシによる販売数を表示する
ピボットテーブルを含むワークシートに戻り、次のように、"Flyers"(チラシ) の合計と "Sales"(販売数) の合計がある行に "Date"(日付) を表示するように変更します。
日付、チラシ、販売数の値を新しいワークシートにコピーし (ただし、ヘッダーまたは合計はコピーしません)、次のように "Date"(日付)、"Flyers"(チラシ)、"Sales"(販売数) のヘッダーを追加します。
"Flyers"(チラシ) と "Sales"(販売数) のデータとヘッダーを選びます (ただし、日付は選びません)。 次に、[挿入] タブの [散布図] ドロップダウン リストで、最初の散布図の形式を選びます。 この操作で、次のような散布図が作成されます。
注意
このグラフには、横軸 (X) に毎日のチラシ配布枚数、縦軸 (Y) に毎日の販売数が表示されます。 このプロットは、(多少の誤差はありますが) ほぼ対角線を形成します。全般的な傾向として、チラシの配布枚数に応じて販売数が増加することがわかります。
降水量別の販売数を表示する
ピボットテーブルを含むワークシートに戻り、次のように、値として "Rainfall"(降水量) の合計と "Sales"(販売数) の合計がある行に "Date"(日付) を表示するように変更します。
日付、降水量、売上の値を新しいワークシートにコピーし (ただし、ヘッダーや合計はコピーしません)、次のように "Date"(日付)、"Rainfall"(降水量)、"Sales"(売上) のヘッダーを追加します。
"Rainfall"(降水量) と "Sales"(販売数) のデータとヘッダーを選びます (ただし、日付は選びません)。 次に、[挿入] タブの [散布図] ドロップダウン リストで、最初の散布図の形式を選びます。 この操作で、次のような散布図が作成されます。
このプロットは、降水量と販売数の間に何らかのリレーションシップがあり、降水量の増加と共に販売数が減少することを示しているように見えます。 ただし、プロットによって形成される線は曲がっています。 多くの場合、これは非線形の、おそらく対数的なリレーションシップがあることを意味しています。
毎日の降水量と販売数のデータの後にある空の D と E 列が見えるように、グラフを削除します。
D1 に列見出し "LogRainfall"(降水量の対数) を追加し、セル D2 を選んでワークシートの上の fx ボックスに次の数式を入力して降水量値の底 10 の対数を計算します。
=log(B2)この数式を "LogRainfall"(降水量の対数) 列の他のセルにコピーします。 この最も簡単な方法は、数式を含むセルを選び、選んだセルの右下にある小さな四角い "ハンドル" (▪) をダブルクリックすることです。
E1 に列見出し "LogSales"(販売数の対数) を追加し、セル E2 を選んでワークシートの上の fx ボックスに次の数式を入力して販売数値の底 10 の対数を計算します。
=log(C2)この数式を LogSales 列の他のセルにコピーします。
"LogRainfall"(降水量の対数) と "LogSales"(販売数の対数) のデータとヘッダーを選びます。 次に、[挿入] タブの [散布図] ドロップダウン リストで、最初の散布図の形式を選びます。 この操作で、次のような散布図が作成されます。
このプロットは、降水量の対数と販売数の対数の間の線形リレーションシップを示していることに注意してください。 これはデータのリレーションシップを調べるときに便利な場合があります。というのも、対数方程式を定義して同じことをするよりも、降水量を販売数に関連付ける線形方程式を計算する方が簡単だからです。
課題: データの視覚化
- 曜日ごとのチラシ配布数の合計を示す縦棒グラフを作成し、チラシ配布数が最も多かった曜日と最も少なかった曜日をメモします。
- 毎日の気温と降水量を示す散布図を作成し、これらのフィールド間の明らかなリレーションシップを調べます。