群集向导可帮助你生成一个模型,该模型可检测共享相似特征的行并对其进行分组,以最大化组之间的距离。 此向导可用于查找所有类型的数据的模式。
群集向导使用Microsoft聚类分析算法,并且可以进行广泛自定义。 它适用于 Excel 表、Excel 范围或 Analysis Services 查询中的现有数据。 类似功能由 “检测类别 ”工具提供,在 Excel 的表分析工具中提供。 但是,无法自定义检测类别工具,并且必须在 Excel 表中使用数据。
使用群集向导
在“数据挖掘”功能区中,单击“ 群集”,然后单击“ 下一步”。
在 “选择源数据 ”页中,选择 Excel 表或区域。 或者指定外部数据源。
如果使用外部数据源,则可以创建自定义视图或粘贴自定义查询文本,并将数据集保存为 Analysis Services 数据源。
在 “聚类分析 ”页上,可以自定义模型生成方式。
对于 段数,可以告知向导创建固定数量的类别,或允许它自动检测最佳分组数。
查看 “输入列 ”列表中的列列表,并取消选择在创建模式时不有用的任何列。 应排除的列包括 ID 号、客户名称等。
(可选)单击“ 参数 ”以更改算法参数并自定义聚类分析模型的行为。
在 “将数据拆分为定型和测试集 ”页中,指定要保留多少数据进行测试。 余数始终用于训练模型。
默认设置为 30% 测试数据和 70% 训练数据。
在 “完成 ”页上,为数据集和模型提供描述性名称,并设置以下选项,用于控制如何使用完成的模型:
浏览模型。 选择此选项后,向导在处理完模型后立即打开 “浏览” 窗口,以帮助你浏览结果。 查看器的内容取决于生成的模型类型。 有关详细信息,请参阅 浏览聚类分析模型。
启用钻取。 选择此选项可查看已完成模型的基础数据。 仅当生成决策树模型时,此选项才可用。
使用临时模型。 如果选择此选项,模型将不会保存到服务器。 关闭 Excel 时会删除临时模型。
有关聚类分析模型的详细信息
可以通过单击“ 高级 ”并使用“算法参数”对话框来更改此向导使用的聚类 分析算法 。
Microsoft聚类分析算法提供了以下聚类分析方法:
K-means - 可扩展或不可扩展。
期望最大化 (EM) - 可缩放或不缩放。
还可以使用 CLUSTER_SEED 参数来控制起始值,并确保使用相同的数据集的重复模型具有相同的结果。
要求
若要使用群集向导,必须连接到 Analysis Services 数据库。 有关详细信息,请参阅“连接到源数据”(Excel 数据挖掘客户端)。