测试提升图的准确性(数据挖掘基础教程)
在数据挖掘设计器的**“挖掘准确性图表”**选项卡上,可以计算每个模型的预测准确性,以及将每个模型的结果直接与其他模型的结果进行比较。 这种比较方法称为“提升图”。 通常,用提升图或分类准确性对挖掘模型的预测准确性进行度量。 在本教程中,我们将只使用提升图。 有关提升图和其他准确性图表的详细信息,请参阅模型准确性图表工具(Analysis Services - 数据挖掘)。
在本主题中,您将完成下列任务:
选择输入数据
选择模型、可预测列和值
选择输入数据
测试挖掘模型准确性的第一步是选择将用于测试的数据源。 您将根据测试数据测试模型的准确性,然后将它们与外部数据一起使用。
选择数据集
切换到 SQL Server Data Tools (SSDT) 中的数据挖掘设计器的**“挖掘准确性图表”选项卡,并选择“输入选择”**选项卡。
在**“选择要用于准确性图表的数据集”组框中,选择“使用挖掘结构测试事例”**,以便使用您在创建挖掘结构时保留的测试数据来测试模型。
有关其他选项的详细信息,请参阅选择准确性图表类型和设置图表选项。
选择模型、可预测列和值
下一步是选择要包含在提升图中的模型、用于比较模型的可预测列以及要预测的值。
注意 |
---|
“可预测列名称”列表中的挖掘模型列限制为用法类型设置为 Predict 或 Predict Only 而且内容类型为 Discrete 或 Discretized 的列。 |
显示模型的提升
在数据挖掘设计器的**“输入选择”选项卡上,在“选择要在提升图中显示的可预测的挖掘模型列”下选中“同步预测列和值”**复选框。
在**“可预测列名称”**列中,确认为每个模型都选择了 Bike Buyer。
在**“显示”**列中,选择每个模型。
默认情况下,系统会选中挖掘结构中的所有模型。 可以决定不包含某一模型,但对于本教程,请选中所有模型。
在**“预测值”**列中,选择 1。 对于具有相同可预测列的每个模型,将自动填充相同的值。
选择**“提升图”**选项卡以显示提升图。
当您单击该选项卡时,便会对服务器和数据库的挖掘结构和输入表或测试数据运行预测查询。 结果将绘制在图上。
输入**“预测值”**时,提示图会绘制随机推测模型和理想模型。 您创建的挖掘模型将处于这两种极限情况之间,即介于随机推测模型和精确无误的预测模型之间。 与随机推测相比,任何提高均被视为“提升”。
使用图例可以查找表示理想模型和随机推测模型的彩色线。
您将注意到 TM_Decision_Tree 模型提供最大的提升,其表现优于聚类分析模型和 Naive Bayes 模型。
有关与本课中所创建的提升图相似的提升图的更深入说明,请参阅提升图(Analysis Services - 数据挖掘)。