使用 浏览打开聚类分析模型时,模型将显示在交互式查看器中,类似于 Analysis Services 中的聚类分析查看器。 查看器可帮助你浏览已创建的群集,并了解群集特征。 你还可以将各个单独的段与其他段或整个人群进行比较和对比。
浏览模型
“ 浏览” 窗口包括以下工具,可帮助你了解聚类分析模型并浏览基础数据组的属性:
若要试验聚类分析模型,可以使用示例数据工作簿的“训练”选项卡上的示例数据,并使用 群集向导(Excel 的数据挖掘加载项) 和所有默认值生成聚类分析模型。
群集图
“ 分类图 ”选项卡显示挖掘模型中的所有分类。 在这里,可以看到数据集中发现了多少个不同的分组,以及它们彼此之间的距离有多近或远。
浏览群集关系图
在关系图中单击“群集 1”。
请注意连接所有簇的灰色线路在连接到选中的簇时会变为亮蓝色以突出显示。
将一个聚类连接到另一个分类的线条强度表示分类的相似性强度。 如果底纹为浅色或不存在,则群集并不非常相似。 当线条变暗时,它表示两个分类之间的相似性更强。
单击滑块并将其拖动到分类图左侧,以调整查看器显示的行数。
向下拖动滑块时,只会显示群集之间的最强链接。 这有助于专注于相关组。
请注意群集关系图窗口右上角的底纹变量控件。
默认情况下,它设置为 人口。 这意味着颜色较深的群集具有更大的支撑。
将光标悬停在任何群集上。
将显示一个工具提示,其中包含该群集的人口。
现在,单击 “底纹变量 ”下拉列表,然后选择 “年龄 ”变量。 执行此作时, “状态 ”文本框中会显示值列表。
用作此模型的输入的 Age 列包含连续数值,但出于聚类分析的目的,算法始终离散化数字。 在这里,你可以看到算法创建的分箱或分组,比如“非常低(<=27)”和“非常高(>=63)”。
在 “状态 ”下拉列表中,选择“ 非常高 ”,并查看关系图的更改方式。
通过更改底纹变量,可以看到哪些分类包含更多此目标年龄组,以及哪些分类包含此年龄组中的极少数客户。
阴影越暗,目标属性和值分布中群集的比例就越大。
当 底纹变量 设置为“年龄 >65”时,找到最暗的群集。
将鼠标悬停在群集上。
工具提示中显示的值现在显示此群集中超过 65 的客户群体。
右键单击群集,然后选择“ 重命名群集”。 键入描述性的新名称,例如 超过 65。 新名称随模型一起保存到服务器,可用于标识其他聚类分析视图中的群集。
群集概要
使用“ 群集配置文件 ”选项卡可以一目了然地比较所有群集的构成。 当你熟悉模型时,这是一个很好的起点。 如果已浏览特定群集并决定需要查找相关群集,则此视图在以后也很有用。
群集配置文件 还让你大致了解群集彼此的区别。 因此,你可能会发现使用此视图为每个群集提供描述性名称很方便。
探索群集概况
单击“职业”的单元格,在 “状态 ”列中查看“职业”的所有值的列表。
现在,把鼠标移到群集配置文件中的“职业”上。
工具提示显示该群集中职业的分布。
请注意,在某些群集(如图形中的群集)中,职业列表不完整,某些职业替换为标签 “其他”。
这是设计造成的,因为很难区分直方图中许多小条形。 默认情况下,只保留重要性最高的条形图,其余条形图将组合成灰色 的“其他 ”存储桶。
若要更改任何直方图中显示的柱数,请使用“直方图柱”选项。
请注意, “年龄 ”列看起来与其他列不同。 单击用于表示年龄的图表中的菱形。
列 “Age” 最初仅包含连续数字。 聚类分析算法需要离散值,因此它根据值的分布将 Age 列中的数值分组为有限的年龄组。
单击集群配置文件中的某个菱形图。
仅当源数据使用连续数值时,才会显示这些菱形图。 菱形图提供了一些有用的描述性统计信息,包括每个分类中该值的平均值和标准偏差:
菱形图中的折线表示属性的值范围。 这些值也显示在“配置文件”图表左侧的“状态”列中。
菱形的中心位于节点的平均值。
菱形的宽度表示该节点上属性的方差。 因此,较薄的菱形表示节点可以创建更准确的预测。
若要在图形中留出更多空间,请右键单击不需要立即查看的群集,然后选择“ 隐藏列”。 这不会将列从模型中删除,只是暂时隐藏。
若要查看已隐藏的群集,可以单击并拖动列边缘,或从列表中选择群集名称“ 更多群集”。
向下滚动属性列表,直到找到 Bike Buyer,然后找到具有最高百分比“是”值的群集。
右键单击要重命名的群集的列标题,选择“ 重命名群集”,然后键入 “自行车购买者”。
新的群集名称将保留在所有视图中,并且保留在服务器上,直到重新处理模型。
提示
单击列标题可按该分类的重要性顺序对属性进行排序。
拖动列以在查看器中对列重新排序。
单击概览图表中的任何单元格,以查看 挖掘图表中的详细统计信息。
右键单击任何单元格并选择 钻取模型列 ,以将基础数据输出到 Excel 中的新工作表。
右键单击群集的列标题,然后选择钻取到详细数据,以获取有关模型中未包含的群集成员的详细信息。
例如,如果你正在分析客户,你可能会将联系人信息保留在基础数据(挖掘结构)中,但不将其包含在模型中,因为它对分析无效。 但是,客户被分配到集群后,可以使用深入分析查看详细数据。
群集特征
通过“分类特征”视图,可以真正探索单个分类,以查找最强特征化这组数据的属性。
探索群集特征
从“群集列表”中选择“65岁以上”群集。
选择群集后,可以详细查看构成该特定群集的特征。
群集包含的属性列在 “变量 ”列中,列出的属性的状态列在 “值 ”列中。
属性状态按重要性顺序列出,并附带此分类中的概率,表示为 Probability 列中的彩色条。
单击“ 变量 ”列以按属性排序。
通过更改排序变量,可以更轻松地查看变量的值(如收入或汽车所有权)在组中的分配方式。
单击“ 复制到 Excel”。
新工作表将添加到工作簿中,其中包含所选群集的特征。
现在,请从列表中选择一个不同的群集, 即“自行车购买者”。
单击“ 复制到 Excel”。
请注意,新分类特征图表将添加到其自己的工作表上。 可以将它移动到与其他个人资料相同的工作表上,这样可以更轻松地比较它们。您将在下一步完成这个操作。
提示
请注意,超过 65 个群集的客户的主要特征是他们不会购买你的产品! 如果想要了解原因,可以浏览分类和比较组,或者可以使用擅长探索原因和结果的算法(例如决策树模型或 Naïve Bayes 模型)创建相关模型。
如果要获取此分类(或所有分类)的属性和概率的完整列表,可以创建查询。 有关聚类分析模型查询的示例,请参阅 聚类分析模型查询示例。
分类歧视
可以使用 “分类歧视 ”选项卡比较两个分类之间的属性,或者在群集与数据集中的所有其他事例之间比较属性。
为了突出显示此查看器的功能,我们将它与基于 群集特征 视图创建的 Excel 中的并行表进行比较。
探索聚类判别
使用 群集 1 和 群集 2 列表选择要比较的群集。
对于群集 1,请选择“65岁以上”。
对于群集 2,请选择“自行车购买者”。
比较应类似于下图。
请注意,在后台,聚类歧视 查看器会向数据挖掘服务器发送复杂查询,提取区别两个群体最重要的属性,使比较两组客户变得更容易。
单击偏好……列中的任意一列。
属性和值列表右侧的条形图显示哪些特征或值作为所选分类的特征最为重要。
现在比较 Excel 中的列表。
由于用于在查看器中生成图像的基础统计信息以表的形式保存到 Excel 中,因此你可以筛选和排序并查看实际概率值。
除了使用 Excel,我们还建议试用 Visio 的群集查看器,这样不仅可以查看数据点,还可以广泛修改和增强图形。 有关详细信息,请参阅群集关系图演练(数据挖掘加载项)。
提示
获取对客户组的一些见解后,请尝试使用 What-If 方案(Excel 表分析工具) 或 “目标查找方案”(适用于 Excel 的表分析工具) 工具,探索模型中可能已更改的因素,以影响结果。