浏览目标邮件模型(数据挖掘教程)
处理了项目中的模型后,可使用数据挖掘设计器中的**“挖掘模型查看器”选项卡查看这些模型。可使用该选项卡顶部的“挖掘模型”**列表检查挖掘结构中的各个模型。
下列各部分说明了在查看器中浏览挖掘模型的方式。
- Microsoft 决策树模型
- Microsoft 聚类分析模型
- Microsoft Naive Bayes 模型
Microsoft 决策树模型
为 Adventure Works DM 教程项目切换到数据挖掘设计器中的**“挖掘模型查看器”选项卡时,该设计器将打开并显示结构中的第一个模型,即目标邮件挖掘模型。用于在 Analysis Services 中生成模型的每种算法将返回不同类型的结果。所以,Analysis Services 将为每个算法提供单独的查看器。浏览挖掘模型时,系统会使用该模型相应的查看器,在“挖掘模型查看器”选项卡上显示该模型。在本例中,对于决策树模型,使用的是 Microsoft 树查看器。此查看器包含两个选项卡,即“决策树”和“相关性网络”**。
决策树
在**“决策树”选项卡上,可以检查构成挖掘模型的所有树模型。由于本教程项目中的目标邮件模型仅包含单个可预测属性 (Bike Buyer),所以只需查看一个树。如果存在更多树,则可以使用“树”**框来选择其他树。
默认情况下,Microsoft 树查看器仅显示树的前三个级别。如果树级别不到三个,则查看器仅显示现有级别。可以使用**“显示级别”滑块或“默认扩展”**列表查看更多级别。有关如何配置查看器的详细信息,请参阅使用 Microsoft 树查看器查看挖掘模型。
修改树
将**“显示级别”**滑块滑到 5。
将**“背景”**列表更改为 1。
通过更改**“背景”**设置,可以迅速查看每个节点中现有数目为 1 的 Bike Buyer 事例。节点的底纹颜色越深,表示节点中的事例越多。
决策树中的每个节点可显示下列信息:
- 要从某节点的前一个节点访问该节点所需的条件。可以在**“挖掘图例”**中查看完整节点路径,也可以将光标停留在节点上以显示 InfoTip。
- 按畅销程度说明可预测列的状态分布的直方图。可以使用**“直方图”**控件控制直方图中显示的状态数。
- 事例集中度,前提是已在**“背景”**控件中指定了可预测属性的状态。
通过右键单击节点,再选择**“钻取”**,可查看每个节点支持的定型事例。
相关性网络
**“相关性网络”**选项卡可以显示决定挖掘模型预测能力的各个属性之间的关系。
相关性网络的中间节点 (Bike Buyer) 表示挖掘模型中的可预测属性。周围的每个节点各表示一个会影响可预测属性的结果的属性。可使用该选项卡左侧的滑块控制显示的链接的强度。向下移动滑块时,仅显示最强链接。
单击网络中的单个节点,然后参考选项卡底部的颜色图例,可查看所选节点预测哪些节点,它本身又是由哪些节点预测的。
Microsoft 聚类分析模型
使用**“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到 TM_Clustering 模型。该模型的查看器(Microsoft 分类查看器)包含四个选项卡:“分类关系图”、“分类剖面图”、“分类特征”和“分类对比”。默认情况下,查看器初次打开时将显示“分类关系图”**选项卡。
有关如何配置 Microsoft 分类查看器的详细信息,请参阅使用 Microsoft 分类查看器查看挖掘模型。
分类关系图
使用**“分类关系图”选项卡,可以浏览算法发现的分类之间的关系。分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。每个分类的实际颜色表示分类中变量和状态的出现频率。可以在节点顶部的“明暗度变量”和“状态”**框中选择变量和状态。默认变量是 Population,不过可将其更改为模型中的任何属性,以发现包含所需属性的成员的分类。通过使用网络左侧的滑块,可筛选掉强度较低的链接,找出具有最接近关系的分类。
例如,将**“明暗度变量”设置为 Bike Buyer,将“状态”**设置为 1。您会看到,分类 5 中自行车购买者的密度最高,分类 4 与分类 7 之间的关系最接近。
分类剖面图
**“分类剖面图”选项卡提供 TM_Clustering 模型的总体视图。您在查看器中可以看到,在“分类剖面图”选项卡中,模型中每个分类都有一个对应的列。第一列列出至少与一个分类关联的属性。查看器的其余部分包含每个分类的某个属性的状态分布。离散变量的分布以彩色条显示,最大条数在“直方图条”**列表中显示。连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。
分类特征
使用**“分类特征”选项卡,您可以更加详细地检查组成分类的特征。例如,如果您在本教程方案中使用“分类”**列表显示分类 5,则可看到此分类中过去已购买自行车的客户常常具有下列特征:他们的上下班距离仅为 0 到 1 英里,没有汽车并且已婚。
分类辨别
使用**“分类辨别”选项卡,可以浏览区分分类的特征。从“分类 1”和“分类 2”**框中选择两个分类后,查看器会确定相应分类之间的区别,并按各分类最独特的属性排序显示。
例如,将 TM_Clustering 中的分类 5 与分类 7 比较。分类 5 包含的自行车购买者的密度最高,分类 7 包含的自行车购买者的密度最低。分类 7 中的人一般来自北美且更年轻,年龄在 23 岁到 31 岁之间;而分类 5 中的人一般来自欧洲且通勤距离较短,在零到一英里之间。
Microsoft Naive Bayes 模型
使用**“挖掘模型查看器”选项卡顶部的“挖掘模型”列表,可切换到 TM_NaiveBayes 模型。该模型的查看器(Microsoft Naive Bayes 查看器)包含四个选项卡:“依赖关系网络”、“属性配置文件”、“属性特征”和“属性对比”**。
有关如何使用 Microsoft Naive Bayes 查看器的详细信息,请参阅使用 Microsoft Naive Bayes 查看器查看挖掘模型。
相关性网络
**“相关性网络”选项卡的功能与 Microsoft 树查看器的“相关性网络”**选项卡的功能相同。查看器中的每个节点代表一个属性,而节点之间的线条代表关系。在查看器中,您可以查看影响可预测属性 (Bike Buyer) 的状态的所有属性。
向下滑动滑块时,将只显示对 Bike Buyer 列影响最大的属性。通过调整滑块,可以发现拥有的汽车数是决定某个人是否购买自行车的最主要因素。
属性配置文件
**“属性配置文件”**选项卡说明输入参数的不同状态对可预测属性结果的影响。
在**“可预测”**框中,确保已选中 Bike Buyer。系统在列出影响该可预测属性状态的属性的同时,还列出每个输入属性状态的值及其在可预测属性的每个状态中的分布。
属性特征
使用**“属性特征”**选项卡,可以选择属性和值,以确定所选值事例中出现其他属性值的频率。
在**“属性”列表中,确保已选中 Bike Buyer,并在“值”**列表中选择 1。在查看器中,您将看到,购买自行车的大都是通勤距离在零到一英里之间的人以及居住在北美地区的人。
属性辨别
使用**“属性辨别”**选项卡,可以查看所选可预测属性的两个离散值与其他属性值之间的关系。由于 TM_NaiveBayes 仅有 1 和 0 两个状态,所以您无需更改查看器。
在查看器中,您会看到,没有汽车的人一般会购买自行车,而有两辆汽车的人一般不会购买自行车。