离群值表示由于以下任一原因而有问题的数据值:
值超出预期范围。
数据可能输入不正确。
值缺失。
数据由空格或其他 null 字符串组成。
值是准确的,但在分布之外,它可能会显著影响模型。
Excel 数据挖掘客户端可帮助你检测此数据,然后更新值或取消这些值。 例如,可以将离群值替换为算术平均值,也可以删除包含可能错误的值的行。
处理离群值
“删除离群值”向导提供多个工具来适当处理离群值:
首先,可以浏览数据,以便更好地了解值的分布以及离群值与其他数据之间的关系。
例如,可以使用 “浏览数据” 任务来查看和修复这些值。 “删除离群值”向导还显示折线图或条形图,以帮助了解所有值的分布情况。
接下来,您可以使用 离群值 向导来删除或更改离群值。 使用的方法取决于值是离散的还是连续的。
向导在条形图中显示离散值,其中每个条形图表示特定值,条形图的高度指示每个值的事例数。 通过在图表上滑动阈值控制,可以去除表示极端值或潜在不良值组的条形图。
向导在条形图或折线图上显示连续值。 在折线图上,该值在 x 轴上表示,在 y 轴上表示值计数。
可以通过更改 最小值 和 最大值 或滑动条形图来控制是删除或保留图表的低端和高端值。 更改最小值和最大值设置时,图表中通过底纹显示的部分即为被隐藏的数据。
选择要使用的离群值后,告知向导如何处理离群值。 可以删除包含离群值的行,也可以指定替换值,例如平均值、null 或所选的其他值。
最后,向导提供了一些用于显示新数据的选项。 可以将原始数据替换为新值,将新列添加到包含新值的表中,或创建包含更新数据的新工作表。
使用离群值向导
在数据挖掘功能区中,单击清理数据,然后选择离群值。
在 “选择源数据 ”对话框中,选择 Excel 数据表或单元格区域,然后单击“ 下一步”。
警告
不能对外部数据使用 离群值 向导,除非先将其复制到 Excel。
在“ 选择列 ”对话框中,选择 单个 列。
单击 “下一步” 。
在“ 指定阈值 ”对话框中,查看数据的分布。
如果列包含离散值,向导将显示一个直方图,其中包含每个离散值的计数。
假设离群值很少见,可以通过更改 最小值 来筛选出这些值。
如果列包含数值数据,则可以单击“ 视图为离散 ”按钮或 “视图为数字 ”按钮,在查看条形图或折线图中的值之间切换。
在“ 指定阈值 ”对话框中,通过键入最小值和最大值或拖动滑块条来选择要保留的数据范围。 单击 “下一步” 。
在“ 离群值处理 ”对话框中,指定是要删除还是替换值,然后单击“ 下一步”。
在 “选择目标 ”对话框中,指定要保存新数据的位置。
相关选项
向导提供以下选项:
| 选项 | 注释 |
|---|---|
| 选择列 | 一次只能处理一列。 |
| 指定阈值处理 | 使用 “最小值 ”设置阈值以排除行数少于阈值的值。 最初, Minimum 中的值等于包含最少行的值,并且不能使最小值低于该值。 |
| 离群值处理 | 如果您决定删除离群值,您可以选择更改当前工作表中的数据,也可以在新工作表中创建数据副本。 |