探索呼叫中心模型（数据挖掘中级教程）

项目
06/13/2017

构建探索模型后，可以使用SQL Server Data Tools (SSDT) 中提供的以下工具来详细了解数据。

Microsoft 神经网络查看器：此查看器在数据挖掘Designer的“挖掘模型查看器”选项卡中提供，旨在帮助你试验数据中的交互。
Microsoft 泛型内容树查看器：此标准查看器提供有关算法在生成模型时发现的模式和统计信息的深入详细信息。

Microsoft 神经网络查看器

查看器有三个窗格 - 输入、输出和变量。

通过使用“ 输出 ”窗格，可以为可预测属性或因变量选择不同的值。如果模型包含多个可预测属性，则可以从“输出属性”列表中选择 该属性 。

“ 变量 ”窗格比较在贡献属性或变量方面选择的两个结果。彩色条直观的表示变量对目标结果的影响程度。您还可以查看变量的提升分数。提升分数的计算方法不同，具体取决于使用的挖掘模型类型，但通常会告诉您使用此属性进行预测时在模型中的提高程度。

“ 输入 ”窗格允许向模型添加影响因素，以尝试各种模拟方案。

使用“输出”窗格

在此初始模型中，您会希望看到各种因素是如何影响服务等级的。为此，可以从输出属性列表中选择“服务级别”，然后通过从 “值 1” 和“ 值 2”下拉列表中选择范围来比较不同的服务级别。

比较最低服务等级和最高服务等级

对于 “值 1”，选择具有最小值的范围。例如，范围 0-0-0.7 表示最低的挂断率，因此为最佳服务级别。

注意

根据模型的配置方式，此范围内的确切值可能会有所不同。
对于 “值 2”，选择具有最高值的范围。例如，值为 >=0.12 的范围表示最高放弃率，因此表示最差的服务等级。换句话说，在此班次期间，打电话的客户有 12% 在与代表通话之前就挂断了电话。

“ 变量 ”窗格的内容将更新，以比较影响结果值的属性。因此，左列显示与最佳服务等级关联的属性，右列显示与最差服务等级关联的属性。

使用“变量”窗格

在此模型中，这似乎是 Average Time Per Issue 一个重要因素。此变量指示在不考虑呼叫类型的情况下应答一个呼叫所花费的平均时间。

查看和复制属性的概率和提升分数

在“ 变量 ”窗格中，将鼠标悬停在第一行的彩色条上。

此彩色条显示 Average Time Per Issue 对服务等级的贡献程度。工具提示显示每个变量和目标结果的组合的总分数、概率和提升分数。
在“ 变量 ”窗格中，右键单击任何彩色条，然后选择“ 复制”。
在 Excel 工作表中，右键单击任意单元格，然后选择“ 粘贴”。

报表以 HTML 表格式粘贴，仅显示每个条的分数。
在不同的 Excel 工作表中，右键单击任意单元格，然后选择 “选择性粘贴”。

报表以文本格式粘贴，并包括相关统计信息（如下节所述）。

使用“输入”窗格

假设您希望看到特定因素所产生的影响，例如班次或操作员数。可以使用 “输入 ”窗格选择特定变量，并且“ 变量 ”窗格会自动更新，以在给定指定变量的情况下比较以前选择的两个组。

通过更改输入属性查看对服务等级产生的影响

在“ 输入 ”窗格中，对于 “属性”，选择“Shift”。
对于 “值”，选择“ AM”。

“ 变量 ”窗格将更新，以显示在班次为 AM 时对模型的影响。所有其他选择保持不变 - 你仍在比较最低和最高服务等级。
对于 “值”，选择“ PM1”。

“ 变量 ”窗格会更新，以显示班次更改时对模型的影响。
在“ 输入 ”窗格中，单击“ 属性”下的下一个空白行，然后选择“调用”。对于 “值”，选择指示最大调用数的范围。

一个新的输入条件会添加到列表中。 “ 变量 ”窗格将更新，以显示调用量最高时对特定班次模型的影响。
继续更改 Shift 和 Calls 的值可以发现班次、呼叫数量和服务等级之间所有值得注意的相关性。

注意

若要清除“ 输入 ”窗格以便使用不同的属性，请单击“ 刷新查看器内容”。

解释查看器中提供的统计信息

较长的等待时间是高挂断率的强预测因子，这意味着较差的服务等级。这似乎是一个明显的结论；但挖掘模型为您提供了一些其他统计数据，以帮助您解释这些趋势。

分数：指示此变量在结果之间区分的总体重要性的值。分数越高，变量对结果产生的影响就越大。
值 1 的概率：表示此值对此结果的概率的百分比。
值 2 的概率：表示此值对此结果的概率的百分比。
值 1 的提升 和 值 2 的提升：表示使用此特定变量预测值 1 和值 2 结果的影响的分数。分数越高，使用该变量预测结果时就越准确。

下表包含首要影响因素的一些示例值。例如， 值 1 的概率 为 60.6%， 值 2 的概率 为 8.30%，这意味着当每个问题的平均时间在 44-70 分钟范围内时， 60.6% 的案例处于转变状态，服务等级最高 (价值 1) ，8.30% 的案例处于转变状态，服务等级 (值 2) 。

通过此信息，可以得出一些结论。较短的呼叫响应时间（范围为 44-70）会严重影响较好的服务等级（范围为 0.00-0.07）。分数 (92.35) 告诉您此变量非常重要。

但是，当您向下查看相关因素的列表时，会发现一些其他因素产生的影响更微妙、更难于解释。例如，班次似乎影响服务，但提升分数和相关概率指示班次不是主要因素。

Attribute	值	<优先 0.07	优先 = >0.12
Average Time Per Issue	89.087 - 120.000		分数： 100 值 1 的概率：4.45 % 值 2 的概率：51.94 % 值 1 的提升：0.19 值 2 的提升：1.94
Average Time Per Issue	44.000 - 70.597	分数：92.35 Value1 的概率：60.06% Value2 的概率：8.30% Value1 的提升：2.61 Value2 的提升：0.31

返回页首

Microsoft 一般内容树查看器

通过使用该查看器，您可以查看在处理模型时算法创建的更多详细信息。 MicrosoftGeneric 内容树查看器将挖掘模型表示为一系列节点，其中每个节点表示已学习的训练数据知识。该查看器可用于所有模型，但节点内容根据模型类型而不同。

对于神经网络模型或逻辑回归模型，您会发现 marginal statistics node 特别有用。该节点包含有关数据中值分布的派生统计信息。如果希望获取数据摘要而无需编写许多 T-SQL 查询，该信息会很有用。前一主题中装箱值的图表派生自边际统计信息节点。

从挖掘模型中获取数据摘要

在“数据挖掘Designer的”挖掘模型查看器“选项卡中，选择<挖掘模型名称>。
从 “查看器 ”列表中，选择“ Microsoft 通用内容树查看器”。

刷新挖掘模型的视图会在左侧窗格中显示节点层次结构，并在右侧窗格中显示 HTML 表。
在“ 节点标题 ”窗格中，单击名称为 1000000000000000000 的节点。

任何模型中的最顶部节点都始终是模型根节点。在神经网络模型或逻辑回归模型中，紧位于该节点下方的节点是边际统计信息节点。
在“ 节点详细信息 ”窗格中，向下滚动，直到找到NODE_DISTRIBUTION行。
向下滚动 NODE_DISTRIBUTION 表可以查看按照神经网络算法计算的值的分布。

若要在报表中使用该数据，可以选择并复制特定行的信息，也可以使用下列数据挖掘扩展插件 (DMX) 查询来提取节点的完整内容。

SELECT *   
FROM [Call Center EQ4].CONTENT  
WHERE NODE_NAME = '10000000000000000'

还可以使用节点层次结构和 NODE_DISTRIBUTION 表中的详细信息来遍历神经网络中的各个路径，并查看来自隐藏层的统计信息。有关详细信息，请参阅神经网络模型查询示例。