测试和验证模型是数据挖掘过程中的一个重要步骤。 在将模型部署到生产环境之前,必须知道挖掘模型对实际数据的性能。
数据挖掘外接程序包含的工具可帮助你测试生成的模型,并使用模型创建预测和建议。
准确性图表
准确性图表向导可帮助你创建预测查询,并通过创建提升图或散点图来评估数据挖掘模型的性能。 提升图有助于区分结构中几乎相同的模型,以帮助确定哪个模型提供最佳预测。
分类矩阵
分类矩阵向导可帮助你创建预测查询来评估分类模型的性能。 输出是一个图表,用于汇总模型做出的准确和不准确的预测。 矩阵是一个有价值的工具,因为它不仅显示了模型正确预测的频率,还显示了模型最常错误预测的是哪些值。
利润图表
“利润图表”向导可帮助你评估使用数据挖掘模型的好处,并分析误报和漏报的成本。
此图表类型度量模型的预测准确性,并包含指定的单位和整体成本。
交叉验证
交叉验证是在数据挖掘社区中建立的技术,用于评估数据集的有效性以及该数据集上的挖掘模型的准确性。 它将一组数据划分为子集,然后迭代地在每个子集上创建、训练和测试模型。
交叉验证向导允许您指定将数据划分为多少折叠,然后提供一个交叉验证报告,该报告统计描述这些折叠间的差异。 由此,你可以确定模型是否对所有训练数据都表现良好,或者可能偏向于特定子集。
查询向导
查询向导是一种交互式工具,可帮助你生成预测查询。 查询是生成建议、未来预测等的方式。
在 查询 向导中,选取一个模型,然后提供输入数据(作为单个值或表或范围),向导将帮助你选择要输出的列。 还可以将函数添加到查询,以生成概率分数和其他有用的统计信息。
高级查询编辑器
高级查询编辑器是一组交互式对话框,可帮助你生成各种 DMX 语句,从运行自定义查询到创建和训练新模型、删除模型或创建新数据集。