浏览聚类分析模型(数据挖掘基础教程)

Microsoft 聚类分析算法将事例分组到包含类似特征的群集中。 在浏览数据、标识数据中的异常及创建预测时,这些分组十分有用。

Microsoft 群集查看器提供以下选项卡,用于浏览聚类分析挖掘模型:

“分类关系图”选项卡

“分类关系图”选项卡显示挖掘模型中的所有分类。 分类之间的线条表示“接近程度”,其明暗度取决于分类之间的相似程度。 每个分类的实际颜色表示分类中变量和状态的出现频率。

在“分类关系图”选项卡中浏览模型

  1. 使用“ 挖掘模型 查看器”选项卡顶部的 “挖掘模型 ”列表切换到模型 TM_Clustering

  2. “查看器 ”列表中,选择“ Microsoft 群集查看器”。

  3. 在“ 底纹变量 ”框中,选择“ 自行车购买者”。

    默认变量为 Population,但你可以将此变量更改为模型中的任何属性,以发现哪些分类包含具有所需属性的成员。

  4. 在“状态”框中选择“1”,浏览购买自行车的情况。

    密度图例描述在着色变量和状态中选择的属性状态对的密度。 在此示例中,它告诉我们,底纹最暗的群集具有最高的自行车购买者百分比。

  5. 将鼠标悬停在明暗度最深的分类上。

    工具提示将显示具有 Bike Buyer = 1 属性的事例所占的百分比。

  6. 选择密度最高的群集,右键单击群集,选择“ 重命名群集 ”,然后键入 “自行车购买者高 ”以供以后识别。 单击“确定”。

  7. 查找明暗度最浅(也就是密度最低)的分类。 右键单击群集,选择“ 重命名群集 ”,然后键入 “Bike Buyers Low”。 单击“确定”。

  8. 单击 “自行车购买者高 ”群集,并将其拖动到窗格的某个区域,这样就可以清楚地了解其与其他群集的连接。

    选择某个分类时,将此分类连接到其他分类的线条将突出显示,以便您方便地查看此分类的所有关系。 如果该分类处于未选定状态,则可以通过线条的暗度来确定关系图中所有分类之间关系的紧密程度。 如果明暗度较浅或无明暗度,则表示分类的相似程度较低。

  9. 使用网络左侧的滑块,可筛选掉强度较低的链接,找出关系最接近的分类。 Adventure Works Cycles 营销部门在确定传递目标邮件的最佳方法时,可能希望将类似的群集组合在一起。

“分类剖面图”选项卡

群集配置文件 ”选项卡提供模型的总体视图 TM_Clustering 。 “ 群集配置文件 ”选项卡包含模型中每个分类的列。 第一列列出至少与一个分类关联的属性。 查看器的其余部分包含每个分类的某个属性的状态分布。 离散变量的分布显示为彩色条形图,在 直方图 条形列表中显示的最大条数。 连续属性以菱形图显示,表示每个分类中的平均偏差和标准偏差。

在“分类剖面图”选项卡中浏览模型

  1. 直方图 条形设置为 5

    在我们的模型中,任意一个变量的最大状态数均为 5。

  2. 如果 挖掘图例 阻止显示 属性配置文件,请将其移开。

  3. 选择 “Bike Buyers High ”列,并将其拖到 “人口 ”列的右侧。

  4. 选择 “自行车购买者低 ”列,并将其拖到 “自行车购买者高 ”列的右侧。

  5. 单击 “自行车购买者高 ”列。

    “变量”列按该分类的重要性顺序排序。 滚动浏览该列,查看 Bike Buyer High 分类的特征。 例如,他们上下班路程较短的可能性较大。

  6. 双击“自行车购买者高”列中的“年龄”单元格。

    挖掘图例显示更详细的视图,你可以看到这些客户的年龄范围以及平均年龄。

  7. 右键单击“ 自行车购买者低 ”列,然后选择“ 隐藏列”。

“分类特征”选项卡

使用“ 群集特征 ”选项卡,可以更详细地检查构成群集的特征。 您可以一次浏览一个分类,而不是比较所有分类的特征(就像在“分类剖面图”选项卡中那样)。 例如,如果从“群集”列表中选择“Bike Buyers High”,则可以看到此群集中客户的特征。 尽管显示方式与分类剖面图查看器不同,但查找结果却是相同的。

注意

除非为 holdoutseed 设置初始值,否则每次处理模型时的结果都会有所不同。 有关详细信息,请参阅 HoldoutSeed 元素

“分类对比”选项卡

使用“ 分类歧视 ”选项卡,可以浏览区分一个分类的特征。 选择两个群集后,一个来自 分类 1 列表,一个从 分类 2 列表中,查看器将计算群集之间的差异,并显示最区分群集的属性列表。

在“分类对比”选项卡中浏览模型

  1. “分类 1 ”框中,选择“ 自行车购买者高”。

  2. “分类 2 ”框中,选择“ 低自行车买家”。

  3. 单击“ 变量 ”按字母顺序排序。

    在“自行车购买者低”和“自行车购买者”群集中,客户之间的一些更实质性的差异包括年龄、汽车拥有量、子女数量和地区。

请参阅以下主题以了解其他挖掘模型。

课程中的下一个任务

浏览 Naive Bayes 模型(数据挖掘基础教程)

课程中的前一个任务

浏览决策树模型(数据挖掘基础教程)

另请参阅

使用 Microsoft 分类查看器浏览模型
“分类对比”选项卡(挖掘模型查看器)
“分类剖面图”选项卡(挖掘模型查看器)
“分类特征”选项卡(挖掘模型查看器)
“分类关系图”选项卡(挖掘模型查看器)