练习:分析数据
现在,让我们将一些学习到的数据分析原则和技术付诸于实践。 在此实验室中,使用 Excel Online 来分析和可视化数据。
此实验室分析 Rosie 的柠檬水销量,并创建可视化效果,以帮助你从数据中获取见解。
准备工作
注意
如果已完成本学习路径中的上一个模块,则可以跳过“准备工作”部分。
如果还没有 Microsoft 帐户(例如 hotmail.com
、live.com
或 outlook.com
帐户),请在 https://signup.live.com 注册一个。
将工作簿上传到 OneDrive
在 Web 浏览器中,导航到 https://onedrive.live.com 并使用 Microsoft 帐户凭据登录。 应会看到 OneDrive 中的文件和文件夹,如下所示:
在“+ 新建”菜单上,选择“文件夹”以创建新文件夹。 可以根据需要进行命名,例如“DAT101”。 显示新文件夹时,选择该文件夹以将其打开。
在新的空文件夹中,在“⤒ 上传”菜单上,单击“文件”。 然后,当系统提示时,在“文件名”框中,输入以下地址(可从此处复制并粘贴!):
https://github.com/MicrosoftLearning/mslearn-data-concepts/raw/main/labfiles/Lemonade.xlsx
接着,单击“打开”,上传包含 Rosie 的柠檬水数据的 Excel 文件,如下所示:
几秒钟后,Lemonade.xlsx 文件应显示在文件夹中,如下所示:
在 Excel Online 中打开工作簿
单击 OneDrive 文件夹中的“Lemonade.xlsx”文件,在 Excel Online 中将其打开。 打开后应如下所示:
A 列中的日期可能太宽而无法显示,因此单元格可能包含 #######,如前所示。 若要查看日期,请双击 A 列标题和 B 列标题之间的行。 日期现在以与 Microsoft 帐户关联的区域设置的格式显示。 例如,在下图中,日期以英国格式 (dd/MM/yyyy) 显示。
练习 1:使用数据透视表分析数据
数据透视表是对数据进行切片的极佳方法,按一个或多个维度汇总数值度量值。 在本练习中,使用数据透视表查看以各种方式聚合的柠檬水数据。
创建数据透视表
如果已完成,则在 Web 浏览器中,导航到 https://onedrive.live.com 并使用 Microsoft 帐户凭据登录。 然后在“准备工作”部分中上传的文件夹中打开“Lemonade.xlsx”工作簿。 工作簿应如下所示:
选择数据表中的任何单元格,然后在功能区的“插入”选项卡上单击“数据透视表”,然后从新工作表的数据表中创建数据透视表。 Excel 添加新工作表,其中包含数据透视表,如下所示:
在“数据透视表字段”窗格中,选择“Month”。 Excel 自动将“Month”添加到数据透视表的“行”区域,并按时间顺序显示月份名称。
在“数据透视表字段”窗格中,选择“Sales”。 Excel 自动将“Sum of Sales”添加到数据透视表的“值”区域,并显示每月柠檬水的总销量,如下所示:
现在可以查看按月份聚合的销量,例如,6 月份的销量为 1,056。
添加第二个维度
在“数据透视表字段”窗格中,选择“Day”。 Excel 自动将“Day”添加到数据透视表的“行”区域,并显示每月每个工作日柠檬水的总销量,如下所示:
现在可以看到按工作日聚合的每月销量。 例如,1 月份的销量中有 57 笔是在星期六进行的。 还可以展开/折叠月份以向上钻取/向下钻取层次结构级别。
在“数据透视表字段”窗格中,将“Day”从“行”区域拖动到“列”区域。 现在,Excel 在行中显示每个月的总销量,在列中显示按工作日细分的销量;如下所示:
你仍可以看到按工作日细分的每月销量,但也可以看到(在底部行中)全年每个工作日的总销量。 例如,周一总销量为 1,324。
更改聚合
在“数据透视表字段”窗格的“值”区域中,单击“Sum of Sales”旁边的下拉箭头,然后单击“值字段设置”。
在“值字段设置”对话框中,选择“Average”,如下所示:
现在,数据表显示每个月和工作日的平均销量,如下所示:
现在可以按月查看每个工作日的平均销量。 例如,2 月份星期三的平均销量为 19.75。
挑战:数据透视表分析
- 修改数据透视表中的字段以查找以下信息:
- 8 月总收入。
- 7 月最炎热星期六的温度。
- 11 月某天分发的最低传单数量。
练习 2:使用图表可视化数据
创建数据可视化效果(如图表)通常更容易识别数据中的趋势和关系。
查看年度销量趋势
修改在上一练习中创建的数据透视表,使其在“行”区域显示“Date”,在“值”区域显示“Sales”总量和“Temperature”总数(按该顺序),如下所示:
在继续之前,请确保表类似于显示的表(请注意,日期的格式可能因位置而有所不同)。
按照以下说明,仅选择包含日期、每日销量和温度值的单元格,但不包括“Date”、“Sum of Sales”和“Sum of Temperature”页眉单元格或“Grand Total”页脚单元格:
- 单击单元格“A4”,该单元格应包含 2017 年 1 月 1 日的日期值。
- 然后按 SHIFT + CTRL + ⇨(Mac OSX 上为 SHIFT + ⌘ + ⇩)扩展所选内容以包括销量和温度值。
- 然后按 SHIFT + CTRL + ⇩(Mac OSX 上为 SHIFT + ⌘ + ⇩)选择当前所选内容下的行。
- 最后按 SHIFT + ⇧ 取消选择总计。
在功能区的“开始”选项卡上,单击“复制”按钮 (🗐) 将所选单元格复制到剪贴板。
在工作表下,单击“新建工作表“按钮 (+) 向工作簿添加新工作表。
在新工作表中,选择单元格 A2,然后在“开始”选项卡上单击“粘贴”按钮 (📋),将复制的单元格粘贴到新工作表中。 可能需要扩大 A 列才能查看日期。
在单元格 A1 到 C1 中,添加列标题“Date”、“Sales”和“Temperature”。 新工作表应如下所示:
选择“Date”和“Sales”数据,包括标题(但不包括温度数据)。 然后在功能区的“插入”选项卡的“折线图”下拉列表中,单击第一个折线图格式。 Excel 插入如下所示的折线图:
请注意,折线图显示销量的每日波动,但总体趋势似乎表明,夏季月份销量较高,年初和年底销量较低。
删除图表,然后选择所有数据和标题(包括“Temperature”),并插入新折线图。 将插入如下所示的图表:
此时,图表包含单独的“Sales”和“Temperature”系列。 这两个系列都显示类似模式;在夏季的几个月里,销量和温度似乎都在增加。
选择图表,然后双击图表标题。 然后在“格式”选项卡上的“图表”窗格中,展开“图表标题”并将图表标题更改为“Sales and Temperature”:
关闭“图表”窗格。
按工作日查看收入
返回到包含数据透视表的工作表,并对其进行修改,使其在平均“Revenue”行上显示“Day”。 结果应如下所示,尽管一周中的天数可能未排序:
将每日收入值和平均收入值(而不是标题或总计)复制到剪贴板,然后添加新工作表,在单元格 A2 中粘贴复制的数据,并添加“Day”和“AverageRevenue”标题,如下所示:
选择 B 列标题,然后在“开始”功能区选项卡上,使用 $ 菜单将收入数据的格式设置为“$ 英语(美国)”,如下所示:
选择所有数据,包括“Day”和“AverageRevenue”标题,并在功能区的“插入”选项卡上的“列”下拉列表中,选择第一个柱形图格式。 将创建如下所示的图表:
乍一看,此图表显示一周内不同日子的平均收入之间的一些显著变化:周四的收入远高于周日。 但是,更仔细地查看垂直 (Y) 轴上的刻度 – 差值小于 30 美分。
选择柱形图,然后在功能区的“图表”选项卡上,在“饼图”下拉列表中选择“二维饼图”格式。 图表将变为如下所示的饼图:
请注意,每天饼图段的大小差不多相同。
选择饼图,然后在“图表”选项卡上的“数据标签”下拉列表中选择“内端”。 这会在图表中显示实际数据量,如下所示:
现在,很明显,一周不同日的平均收入几乎没有明显变化。
按传单查看销量
返回到包含数据透视表的工作表,并对其进行修改,以在行上显示“Date”以及“Flyers”总量和“Sales”总量,如下所示:
将日期、传单和销量值(而不是标题或总计)复制到新工作表,并添加标题“Date”、“Flyers”和“Sales”,如下所示:
选择“Flyers”和“Sales”数据和标题(但不选择日期)。 然后在“插入”选项卡上的“散点图”下拉列表中,选择第一个散点图格式。 这会创建如下所示的散点图:
注意
该图表在水平 (X) 轴上显示每天分发的传单数量,在垂直 (Y) 轴上显示每日销量。 该图形成一条大致的对角线(有一些方差),表明销量随传单数量的增加而增加的总体趋势。
按降雨查看销量
返回到包含数据透视表的工作表,并对其进行修改,以在行上显示“Date”以及“Rainfall”总量和“Sales”总量的值,如下所示:
将日期、降雨量和销量(而不是标题或总计)复制到新工作表,并添加标题“Date”、“Rainfall”和“Sales”,如下所示:
选择“Rainfall”和“Sales”数据和标题(但不选择日期)。 然后在“插入”选项卡上的“散点图”下拉列表中,选择第一个散点图格式。 这会创建如下所示的散点图:
此图似乎表明降雨与销量之间存在某种关系,随着降雨量的增加,销量下降。 但是,绘图构成的线条是曲线。 这通常意味着存在一个非线性的潜在对数关系。
删除图表,这样可以在每日降雨量和销量数据之后看到空的 D 列和 E 列。
在 D1 中,添加列标题“LogRainfall”,然后选择单元格 D2,在工作表上方的 fx 框中输入以下公式来计算计算降雨量以 10 为底的对数值:
=log(B2)
将公式复制到“LogRainfall”列中的其他单元格。 执行此操作的最简单方法是选择包含公式的单元格,然后双击所选单元格右下角的小号方形“句柄”(▪)。
在 E1 中,添加列标题“LogSales”,然后选择单元格 E2,在工作表上方的 fx 框中输入以下公式来计算计算销量以 10 为底的对数值:
=log(C2)
将公式复制到“LogSales”列中的其他单元格。
选择“LogRainfall”和“LogSales”数据和标题。 然后在“插入”选项卡上的“散点图”下拉列表中,选择第一个散点图格式。 这会创建如下所示的散点图:
请注意,此图显示了降雨量对数与销量对数之间的线性关系。 这在探索数据中的关系时可能很有用,因为计算将降雨量与销量相关联的线性方程比定义对数方程来执行相同操作更简单。
挑战:可视化数据
- 创建一个柱形图,显示一周每天分发的传单总数,并记下分发传单数最高和最低的那一天。
- 创建一个散点图,显示每天的温度和降雨量,并检查这些字段之间的明显关系。