在测量挖掘模型的准确性之前,必须确定要评估的结果。 大多数数据挖掘模型要求在创建模型时至少选择一列用作可预测属性。 因此,在测试模型的准确性时,通常必须选择要测试的属性。
以下列表介绍了选择要在测试中使用的可预测属性的一些其他注意事项:
某些类型的数据挖掘模型可以预测多个属性,例如神经网络,这些属性可以探索多个属性之间的关系。
其他类型的挖掘模型(例如聚类分析模型)不一定具有可预测的属性。 除非它们具有可预测的属性,否则无法测试聚类分析模型。
若要创建散点图或度量回归模型的准确性,需要选择连续可预测属性作为结果。 在这种情况下,不能指定目标值。 如果要创建除散点图以外的任何图表,则基础挖掘结构列还必须具有 离散 或 离散化 的内容类型。
如果选择离散属性作为可预测结果,也可以指定目标值,也可以将 “预测值 ”字段留空。 如果包含 预测值,图表将仅度量模型预测目标值的有效性。 如果未指定目标结果,则会测量模型以预测所有结果的准确性。
如果要包含多个模型并将其比较在单个准确性图表中,则所有模型都必须使用相同的可预测列。
创建交叉验证报表时,Analysis Services 将自动分析具有相同可预测属性的所有模型。
选择“ 同步预测列”和“值”选项时,Analysis Services 会自动选择具有相同名称和匹配数据类型的可预测列。 如果列不符合这些条件,则可以关闭此选项并手动选择可预测列。 如果使用与模型不同的列的外部数据集测试模型,则可能需要执行此操作。 但是,如果选择了一列包含错误类型的数据,则会出现错误或错误的结果。
指定要预测的结果
双击挖掘结构,在数据挖掘设计器中将其打开。
选择“ 挖掘准确性图表 ”选项卡。
选择“ 输入选择 ”选项卡。
在“ 输入选择 ”选项卡上的 “可预测列名称”下,为图表中包含的每个模型选择一个可预测列。
在 “可预测列名称 ”框中可用的挖掘模型列只是那些使用类型设置为 “预测 ”或“ 仅预测”的挖掘模型列。
如果要确定模型的提升,则必须通过从 “预测值 ”列表中选择要度量的特定结果值。