本主题介绍特定于使用Microsoft聚类分析算法的模型的挖掘模型内容。 有关所有模型类型的挖掘模型内容的一般说明,请参阅挖掘模型内容(Analysis Services - 数据挖掘)。
了解聚类分析模型的结构
聚类分析模型具有简单的结构。 每个模型都有一个表示模型及其元数据的父节点,每个父节点都有一个平面列表(NODE_TYPE = 5)。 下图显示了此组织。
每个子节点表示单个群集,并包含有关该群集中事例属性的详细统计信息。 这包括群集中事例数的计数,以及区分群集与其他分类的值的分布。
注释
无需循环访问节点即可获取群集的计数或说明;模型父节点还会计数并列出群集。
父节点包含用于描述所有训练事例的实际分布的有用统计信息。 这些统计信息位于嵌套的表格列 "NODE_DISTRIBUTION" 中。 例如,下表显示了NODE_DISTRIBUTION表中的几行,这些行描述了聚类分析模型的客户人口统计分布, TM_Clustering
这些行是在 基本数据挖掘教程中创建的:
属性名称 | ATRIBUTE_VALUE | Support | 概率 | 方差 | VALUE_TYPE |
---|---|---|---|---|---|
年龄 | 失踪 | 0 | 0 | 0 | 1 (缺失) |
年龄 | 44.9016152716593 | 12939 | 1 | 125.663453102554 | 3 (连续) |
性别 | 失踪 | 0 | 0 | 0 | 1 (缺失) |
性别 | F | 6350 | 0.490764355823479 | 0 | 4 (离散) |
性别 | M | 6589 | 0.509235644176521 | 0 | 4 (离散) |
从这些结果中可以看到,有12939例用于构建模型,男性与女性的比例约为50-50岁,平均年龄为44岁。 描述性统计信息因所报告的属性是连续数值数据类型(如年龄)还是离散值类型(如性别)而异。 统计度量值平均值和方差是针对连续数据类型计算的,而概率和支持是针对离散数据类型计算的。
注释
方差表示群集的总方差。 当方差值较小时,它表示列中的大多数值都与平均值相当接近。 若要获取标准偏差,请计算方差的平方根。
请注意,对于每个属性,都有一个 Missing
值类型,指示有多少事例没有该属性的数据。 缺失的数据可能很重要,并且根据数据类型的不同,以不同的方式影响计算。 有关详细信息,请参阅“缺失值”(Analysis Services - 数据挖掘)。
聚类分析模型的模型内容
本部分仅针对与聚类分析模型相关的挖掘模型内容中的列提供详细信息和示例。
有关架构行集中的常规用途列(如MODEL_CATALOG和MODEL_NAME)的信息,请参阅挖掘模型内容(Analysis Services - 数据挖掘)。
模型目录
存储模型的数据库的名称。
MODEL_NAME
模型的名称。
属性名称
聚类分析模型中始终为空,因为模式中没有可预测的属性。
节点名称
始终与NODE_UNIQUE_NAME相同。
节点_唯一_名称 (NODE_UNIQUE_NAME)
模型中节点的唯一标识符。 此值不能更改。
节点类型
聚类分析模型输出以下节点类型:
节点 ID 和名称 | DESCRIPTION |
---|---|
1 (模型) | 模型的根节点。 |
5 (群集) | 包含群集中的事例计数、群集中事例的特征以及描述群集中值的统计信息。 |
节点标题
用于显示目的的友好名称。 创建模型时,NODE_UNIQUE_NAME的值将自动用作标题。 但是,可以更改NODE_CAPTION的值,以以编程方式或使用查看器更新群集的显示名称。
注释
重新处理模型时,所有名称更改都将被新值覆盖。 不能在模型中保留名称,也不能跟踪不同版本的模型之间的群集成员身份更改。
儿童基数
估计节点具有的子级数。
父节点 指示模型中的分类数。
群集节点 始终为 0。
父级唯一名称
节点父级的唯一名称。
父节点 始终为 NULL
群集节点 通常为 000。
节点描述
节点的说明。
父节点 始终是 (全部)。
群集节点 将群集与其他群集区分开的主要属性的逗号分隔列表。
节点规则
不用于聚类分析模型。
边际规则
不用于聚类分析模型。
节点概率
与此节点关联的概率。
父节点 始终为 1。
群集节点 概率表示属性的复合概率,根据用于创建聚类分析模型的算法进行一些调整。
边际概率
从父节点到达节点的概率。 在聚类分析模型中,边际概率始终与节点概率相同。
节点分布
包含节点概率直方图的表。
父节点 请参阅本主题简介。
群集节点 表示此群集中包含的事例的特性和值的分布。
节点支持
支持此节点的事例数。
父节点 指示整个模型的训练事例数。
群集节点 指示群集的大小(以多个事例表示)。
注意 如果模型使用 K-Means 聚类分析,则每个事例只能属于一个分类。 但是,如果模型使用 EM 聚类分析,则每个事例都可以属于不同的分类,并且为事例分配其所属的每个分类的加权距离。 因此,对于 EM 模型,单个群集的支持总和大于对整体模型的支持。
MSOLAP_MODEL_COLUMN
不用于聚类分析模型。
MSOLAP节点评分
显示与节点关联的分数。
父节点 聚类分析模型的 Bayesian 信息条件 (BIC) 分数。
群集节点 始终为 0。
MSOLAP_节点短标题
用于显示目的的标签。 无法更改此标题。
父节点 模型的类型:分类模型
群集节点 群集的名称。 示例:群集 1。
注解
Analysis Services 提供了多个用于创建聚类分析模型的方法。 如果不知道使用哪种方法创建正在使用的模型,则可以使用 ADOMD 客户端或 AMO 或查询数据挖掘架构行集以编程方式检索模型元数据。 有关详细信息,请参阅 查询用于创建挖掘模型的参数。
注释
无论使用哪种聚类分析方法或参数,模型的结构和内容都保持不变。
另请参阅
挖掘模型内容(Analysis Services - 数据挖掘)
数据挖掘模型查看器
Microsoft聚类分析算法
数据挖掘查询