浏览决策树模型(数据挖掘基础教程)
Microsoft 决策树算法预测哪些列影响基于定型集中的其余列做出的自行车购买决策。
Microsoft 决策树查看器提供了以下选项卡,用于浏览决策树挖掘模型:
决策树
依赖关系网络
以下部分介绍如何选择适当的查看器以及如何浏览其他挖掘模型。
“决策树”选项卡
在**“决策树”**选项卡上,可以检查构成挖掘模型的所有树模型。
由于本教程项目中的 Targeted Mailing 模型仅包含单个可预测属性 (Bike Buyer),因此只需查看一个树。 如果存在更多树,则可以使用**“树”**框来选择其他树。
检查决策树查看器中的 TM_Decision_Tree 模型会看出,在预测自行车购买行为时,年龄是最重要的因素。 有趣的是,按年龄对客户进行分组之后,每个年龄节点的决策树的下一个分支都有所不同。 通过浏览“决策树”选项卡,我们可以得出如下结论:没有汽车或者有一辆汽车、年龄在 34 到 40 的购买者购买自行车的可能性非常大,居住在太平洋地区、没有汽车或者有一辆汽车的更年轻的单身客户购买汽车的可能性也非常大。
在“决策树”选项卡中浏览模型
在**“数据挖掘设计器”中,选择“挖掘模型查看器”**选项卡。
默认情况下,设计器将打开添加到结构中的第一个模型(在本例中为 TM_Decision_Tree)。
使用放大镜按钮调整树的显示大小。
默认情况下,Microsoft 树查看器仅显示树的前三个级别。 如果树级别不到三个,则查看器仅显示现有级别。 可以使用**“显示级别”滑块或“默认扩展”**列表查看更多级别。
将**“显示级别”**滑到第四条。
将**“背景”**值更改为 1。
通过更改**“背景”**设置,可以快速查看每个节点中 [Bike Buyer] 目标值为 1 的事例的数量。 请注意,在这种特定的情况下,每个事例均表示一个客户。 值 1 指示该客户之前购买了自行车;值 0 指示该客户尚未购买自行车。 节点的底纹颜色越深,节点中具有目标值的事例所占的百分比越大。
将光标放在标记为**“全部”**的节点上。 将出现显示以下信息的工具提示:
事例总数
非自行车购买者事例的数量
自行车购买者事例的数量
缺少 [Bike Buyer] 值的事例的数量
或者,将光标放在树中的任何节点上,查看从上级节点到达该节点所需的条件。 还可以在**“挖掘图例”**中查看同样的信息。
单击**“Age >=34 且 < 41”**的节点。 直方图将显示为一个穿过该节点的窄水平条,并表示此年龄范围中以前买过自行车的客户(粉色)和没有买过自行车的客户(蓝色)的分布情况。 查看器显示:没有汽车或者有一辆汽车、年龄在 34 到 40 的客户有可能购买自行车。 再进一步考察发现,实际年龄在 38 到 40 的客户购买自行车的可能性会增加。
由于您在创建结构和模型时启用了钻取,因此,可以从模型事例和挖掘结构中检索详细的信息,其中包括挖掘模型中所不包含的列(例如,emailAddress 和 FirstName)。
有关详细信息,请参阅钻取查询(数据挖掘)。
钻取到事例数据
右键单击某个节点,然后依次选择**“钻取”和“仅限模型列”**。
每个定型事例的详细信息将以电子表格方式显示。 这些详细信息来自您在生成挖掘结构时选择作为事例表的 vTargetMail 视图。
右键单击某个节点,然后依次选择**“钻取”和“模型和结构列”**。
将显示同一个电子表格,并在末尾处附加结构列。
返回页首
“依赖关系网络”选项卡
**“依赖关系网络”**选项卡显示决定挖掘模型预测能力的各个属性之间的关系。 依赖关系网络查看器进一步证实了我们的发现:年龄和地区是预测自行车购买行为的重要因素。
在“依赖关系网络”选项卡中浏览模型
单击 Bike Buyer 节点以确定它的依赖关系。
依赖关系网络的中间节点 (Bike Buyer) 表示挖掘模型中的可预测属性。 粉色阴影指示所有属性都会对自行车购买行为产生影响。
调整**“所有链接”**滑块可确定影响最大的属性。
向下滑动滑块时,将只保留对 [Bike Buyer] 列影响最大的属性。 通过调整滑块,可以发现年龄和地区是预测个人自行车购买行为的最主要因素。