分类矩阵(Analysis Services - 数据挖掘)

在数据挖掘设计器的**“挖掘准确性图表”选项卡的“分类矩阵”选项卡中,将显示在“输入选择”**选项卡中指定的每个模型的矩阵。通过查看此图表(有时将此图表称为“混淆矩阵”),可以快速查看模型做出正确预测的频率。

每个矩阵的行表示模型的预测值,而列则表示实际值。分类矩阵是通过将所有事例分拣到各类别(预测值是否与实际值相匹配以及预测值是否正确)中创建的。这些类别有时称为“假正”、“真正”、“假负”和“真负”。然后会对每个类别中的所有事例进行计数,并在矩阵中显示总计。

本节说明如何创建分类矩阵以及如何解释结果。

注意注意

分类矩阵仅可与离散可预测属性结合使用。

应用场景

例如,考虑作为数据挖掘基础教程的一部分而创建的模型。TM_DecisionTree 模型用于帮助创建目标邮递活动,可利用该模型来预测哪些客户最有可能购买自行车。如果客户有可能购买自行车,则 [Bike Buyer] 列的值为 1;如果客户不可能购买自行车,则 [Bike Buyer] 列的值为 0。

若要评估该模型在进行预测时是否有效,则依照已知其 [Bike Buyer] 值的数据集对该模型进行测试。通常,使用在创建用于定型模型的挖掘结构时留出的测试数据集。因为该数据已包含实际结果,因而可以快速确定模型预测预期值的次数。

理解分类矩阵

下表显示为 TM_DecisionTree 模型创建分类矩阵时产生的结果。由于对于该可预测属性来说仅有两个可能值 0 和 1,因此很容易判定该模型做出正确预测的频率。

预测

0(实际值)

1(实际值)

0

362

144

1

121

373

包含值 362 的第一个结果单元格指示值 0 为“真正”的次数。因为 0 指示客户未购买自行车,因此该统计信息指出模型在 362 个事例中对非自行车购买者预测出了正确的值。

直接位于该单元格下方的单元格包含值 121,其指示“假正”的数目,或者模型预测出某人会购买自行车而实际上该人却未购买的次数。

包含值 144 的单元格指示值 1 为“假正”的次数。因为 1 表示客户确实购买了自行车,因此该统计信息指出在 144 个事例中,该模型预测出某人不会购买自行车,而实际上却正相反。

最后,包含值 373 的单元格指示目标值 1 为“真正”的次数。换言之,在 373 个事例中,该模型正确预测出某人会购买自行车。

将对角线上相邻的单元格中的值相加,根据得出的结果可以确定该模型的总体准确性。一条对角线指示准确预测的总数,另一条对角线指示错误预测的总数。

使用多个可预测值

[Bike Buyer] 事例由于只有两个可能值,因此特别容易解释。如果可预测属性具有多个可能值,则分类矩阵会针对每个可能的实际值添加一个新列,然后为每个预测值统计匹配的数目。下表显示有关另一个模型的结果,该模型中有三个可能值(0、1 和 2)。

预测

0(实际值)

1(实际值)

2(实际值)

0

111

3

5

1

2

123

17

2

19

0

20

尽管添加更多的列会使报表看起来更复杂,但如果希望评估做出错误预测的成本,则这些附加详细信息会非常有帮助。若要在对角线上求和或者比较不同行组合的结果,可以单击**“分类矩阵”选项卡中提供的“复制”**按钮,然后将该报表粘贴到 Excel 中。也可使用同时支持 SQL Server 2005 和 SQL Server 2008 的客户端,如 Excel 数据挖掘客户端,直接在包括计数和百分比的 Excel 中创建分类报表。有关详细信息,请参阅 SQL Server Data Mining(SQL Server 数据挖掘)。

创建分类矩阵

创建分类矩阵时,请遵循下列基本步骤操作:

  1. 在数据挖掘设计器的**“挖掘准确性图表”中,单击“输入选择”**选项卡。

  2. 在**“输入选择”**选项卡中,选择一个要评估的模型。

  3. 指定可预测属性,也可以指定可预测值。

  4. 选择评估中要使用的数据集。

  5. 单击**“分类矩阵”**选项卡,以分类矩阵格式自动生成报表。

有关适用于所有图表类型的分步过程,请参阅如何为挖掘模型创建准确性图表

数据挖掘基础教程中也给出了如何创建目标邮递模型的提升图的演示说明。有关详细信息,请参阅测试提升图的准确性(数据挖掘基础教程)