测试挖掘模型的准确性(数据挖掘教程)
当您针对目标邮件方案生成、处理并仔细检查挖掘模型之后,便可以对这些模型进行测试,以确定它们执行预测的性能以及其中哪个模型的性能更好。
在数据挖掘设计器的**“挖掘准确性图表”选项卡上,您可以计算每个模型的预测精度,还可以将每个模型的结果直接与其他模型的结果进行比较。这种比较方法称为“提升图”。**“挖掘准确性图表”**选项卡使用输入数据(这些数据与原始的数据集分离)将预测与已知结果进行比较。然后将比较的结果进行排序并绘制成图。同时还要在该图上绘制一个理想的模型,即始终都能准确预测结果的理论模型。可以将实际模型的结果与理想模型的结果进行比较,以查看这些模型的预测准确性。有关提升图工作原理的详细信息,请参阅提升图。
提升图可以区分同一结构中几乎相同的两个模型,从而帮助您确定哪个模型能够提供最佳的预测,因此提升图非常重要。同样,提升图还能显示哪种类型的算法可在特殊情况下执行最佳预测。有关如何使用**“挖掘准确性图表”**选项卡的详细信息,请参阅验证数据挖掘模型。
在本主题中,您将完成下列任务:
- 映射输入列
- 筛选输入行
- 选择模型、可预测列和值
- 查看提升图
映射输入列
测试挖掘模型准确性的第一步是将挖掘结构中的列映射到输入数据中的列。如果直接映射列名,则数据挖掘设计器将自动创建关系。
将输入列映射到挖掘结构
在数据挖掘设计器的**“挖掘准确性图表”选项卡的“列映射”选项卡上,单击“选择输入表”框上的“选择事例表”**。
系统将打开**“选择表”对话框。在该对话框中,可以选择包含输入数据的表,您将需要在预测查询中使用这些数据来确定模型的准确性。为了实现本教程的教学目标,您需要对用于处理模型的输入列使用相同的数据。但在理想状态下,这些输入列应当是与用于处理模型的数据分离的数据和行。您应当在“选择表”**对话框中选择作为输入列的数据。
在**“数据源”**列表中,确保已选中 Adventure Works DW。
在**“表/视图名称”列表中,选择 vTargetMail,再单击“确定”**。
挖掘结构中的列会自动映射到输入表中具有相同名称的列。
系统将基于列映射为结构中的每个模型生成一个预测查询。若要删除两列之间的映射,请选择将**“挖掘结构”表中的列链接到“选择输入表”表中的列的行,再按 Delete 键。您也可以手动创建映射,方法是单击“选择输入表”中的某列,将它拖到“挖掘结构”**中对应的列上。
筛选输入行
您可以使用**“筛选用于生成提升图的输入数据”下的网格来筛选输入数据。可以将列从“选择输入表”拖到该网格,还可以通过单击网格的列并使用出现的值列表来选择值。例如,如果要将输入行限制为那些“收益”列大于 x 的输入行,请在“源”列中选择 vTargetMail,在“字段”列中选择“收益”,然后在“条件/参数”**列中键入 >x。
请注意,在本教程中将不进行数据筛选。
选择模型、可预测列和值
下一步是选择需要包含在提升图中的模型以及选择用于比较模型的可预测列。默认情况下,系统会选中挖掘结构中的所有模型。您可以选择不包含某一模型,但对于本教程,请选中所有模型。
可以创建两种类型的准确性图表。如果选择一个可预测值,您将会看到一个显示模型提升性能的图表。如果没有包含可预测值,则该图表将显示模型的准确性。
显示模型的提升
在**“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”**列表中选中 Bike Buyer。
在**“预测值”**列中,为每个模型选择 1。
显示模型的准确性
在**“选择要在提升图中显示的可预测的挖掘模型列”下,确保已在每个模型的“可预测的列名”**列表中选中 Bike Buyer。
将**“预测值”**列保留为空。
如果已选中**“同步预测列和值”**复选框,则会对挖掘结构中的每个挖掘模型同步可预测的列。
注意: |
---|
“可预测的列名”列表中列出的挖掘模型列只限于那些使用类型设置为 Predict 或 Predict Only 的列。这些列还必须基于内容类型为 Discrete 或 Discretized 的挖掘结构列。 |
在一些高级方案中,可能需要生成一个提升图。在该图中,两个挖掘模型具有一个可预测列,这两个模型并不基于同一个挖掘结构列,但是包含相同的数据。如果已清除**“同步预测列和值”**复选框,则可以选择任意有效的可预测列和值。然后将所有结果绘制成图,而不必考虑这些结果是否有意义。
查看提升图
若要查看提升图,请切换到**“挖掘准确性图表”的“提升图”**选项卡。当您单击该选项卡时,便会基于挖掘结构和输入表对服务器和数据库运行预测查询。然后将预测结果与已知的实际值进行比较,并将预测结果绘制在图上。有关如何使用该图的详细信息,请参阅提升图。