创建交叉验证报表

项目
07/30/2013

本主题演练如何在数据挖掘设计器中使用“准确性图表”选项卡创建交叉验证报表。有关交叉验证报表外观的一般性信息，以及该报表包含的统计度量值，请参阅交叉验证（Analysis Services – 数据挖掘）。

交叉验证报表在本质上不同于提升图或分类矩阵之类的准确性图表。

交叉验证评估在模型或结构中使用的数据的总体分布情况；因此，您不指定测试数据集。交叉验证始终仅使用用于对模型或挖掘结构进行定型的原始数据。
只能针对单个可预测结果执行交叉验证。如果结构支持具有不同可预测属性的模型，则您必须为每个可预测输出都创建单独的报表。
只有与当前所选结构相关的模型才可用于交叉验证。
如果当前选择的结构支持聚类分析模型和非聚类分析模型的组合，则在您单击**“获取结果”**时，交叉验证存储过程将自动加载具有相同预测列的模型，并且忽略不共享相同可预测属性的聚类分析模型。
只有在挖掘模型不支持任何其他可预测属性的情况下，您才可以对不具有可预测属性的聚类分析模型创建交叉验证报表。

选择挖掘结构

在 SQL Server Data Tools (SSDT) 中打开数据挖掘设计器。
在解决方案资源管理器中，打开包含要为其创建报表的结构或模型的数据库。
在数据挖掘设计器中，双击挖掘结构以打开结构及其相关模型。
单击**“挖掘准确性图表”**选项卡。
单击**“交叉验证”**选项卡。

设置交叉验证选项

在**“交叉验证”选项卡中，对于“折叠计数”**，单击向下箭头，选择一个 1 到 10 之间的数字。默认值为 10。

**“折叠计数”**表示将在原始数据集中创建的分区数。如果将“折叠计数”设置为 1，则将在不分区的情况下使用定型集。
对于**“目标属性”**，单击向下箭头，从列表中选择一个列。如果模型是聚类分析模型，则选择 #Cluster，以指示该模型不具有可预测属性。请注意，只有在挖掘结构不支持其他类型的可预测属性的情况下，值 #Cluster 才可用。

只能为每个报表选择一个可预测属性。默认情况下，所有具有同一可预测属性的相关模型都包括在一个报表中。
对于**“最大事例数”**，键入一个足够大的数字，以便在将数据拆分到指定的折叠数中时提供数据的典型事例。如果数字大于模型定型集中的事例计数，将使用所有的事例。

如果定型数据集很大，则对**“最大事例数”的值进行设置将会限制已处理事例的总数，从而加快报表完成的速度。但是，您不应将“最大事例数”**设置得过低，否则将没有足够的数据可用于交叉验证。
或者，对于**“目标状态”**，键入希望建模的可预测属性的值。例如，如果 [Bike Buyer] 列有两个可能的值：1 (Yes) 和 2 (No)，则可以输入值 1 来仅为预期结果评估模型的准确性。

注意

如果未输入值，“目标阈值”选项将不可用，并且将会针对可预测属性的所有可能的值对该模型进行评估。
或者，对于**“目标阈值”**，键入一个 0 到 1 之间的十进制数字，来指定预测一定会计为准确的最小概率。

有关如何设置概率阈值的更多技巧，请参阅交叉验证报表中的度量值。
单击**“获取结果”**。

注意
如果未输入值，“目标阈值”选项将不可用，并且将会针对可预测属性的所有可能的值对该模型进行评估。

打印交叉验证报表

在**“交叉验证”**选项卡中，右键单击已完成的报表。
在快捷菜单中，选择**“打印”或“打印预览”**来预先查看该报表。

在 Microsoft Excel 中创建报表的副本

在**“交叉验证”**选项卡中，右键单击已完成的报表。
在快捷菜单中，选择**“全选”**。
右键单击所选文本，然后选择**“复制”**。
将所选内容粘贴到一个打开的 Excel 工作簿中。如果使用的是**“粘贴”选项，该报表将作为 HTML 粘贴到 Excel 中，其中保留了行和列的格式。如果使用的是用于文本或 Unicode 文本的“选择性粘贴”**选项粘贴报表，将以行分隔的格式粘贴报表。

请参阅

概念

交叉验证报表中的度量值

通过

创建交叉验证报表

选择挖掘结构

设置交叉验证选项

打印交叉验证报表

在 Microsoft Excel 中创建报表的副本

请参阅

概念

其他资源