群集向导 (Excel 的数据挖掘加载项)

数据挖掘功能区中的群集向导

群集向导可帮助你生成一个模型,该模型可检测共享相似特征的行并对其进行分组,以最大化组之间的距离。 此向导可用于查找所有类型的数据的模式。

群集向导使用Microsoft聚类分析算法,并且可以进行广泛自定义。 它适用于 Excel 表、Excel 范围或 Analysis Services 查询中的现有数据。 类似功能由 “检测类别 ”工具提供,在 Excel 的表分析工具中提供。 但是,无法自定义检测类别工具,并且必须在 Excel 表中使用数据。

使用群集向导

  1. 在“数据挖掘”功能区中,单击“ 群集”,然后单击“ 下一步”。

  2. “选择源数据 ”页中,选择 Excel 表或区域。 或者指定外部数据源。

    如果使用外部数据源,则可以创建自定义视图或粘贴自定义查询文本,并将数据集保存为 Analysis Services 数据源。

  3. “聚类分析 ”页上,可以自定义模型生成方式。

    • 对于 段数,可以告知向导创建固定数量的类别,或允许它自动检测最佳分组数。

    • 查看 “输入列 ”列表中的列列表,并取消选择在创建模式时不有用的任何列。 应排除的列包括 ID 号、客户名称等。

  4. (可选)单击“ 参数 ”以更改算法参数并自定义聚类分析模型的行为。

  5. “将数据拆分为定型和测试集 ”页中,指定要保留多少数据进行测试。 余数始终用于训练模型。

    默认设置为 30% 测试数据和 70% 训练数据。

  6. “完成 ”页上,为数据集和模型提供描述性名称,并设置以下选项,用于控制如何使用完成的模型:

    • 浏览模型。 选择此选项后,向导在处理完模型后立即打开 “浏览” 窗口,以帮助你浏览结果。 查看器的内容取决于生成的模型类型。 有关详细信息,请参阅 浏览聚类分析模型

    • 启用钻取。 选择此选项可查看已完成模型的基础数据。 仅当生成决策树模型时,此选项才可用。

    • 使用临时模型。 如果选择此选项,模型将不会保存到服务器。 关闭 Excel 时会删除临时模型。

有关聚类分析模型的详细信息

可以通过单击“ 高级 ”并使用“算法参数”对话框来更改此向导使用的聚类 分析算法

Microsoft聚类分析算法提供了以下聚类分析方法:

  • K-means - 可扩展或不可扩展。

  • 期望最大化 (EM) - 可缩放或不缩放。

还可以使用 CLUSTER_SEED 参数来控制起始值,并确保使用相同的数据集的重复模型具有相同的结果。

要求

若要使用群集向导,必须连接到 Analysis Services 数据库。 有关详细信息,请参阅“连接到源数据”(Excel 数据挖掘客户端)。

另请参阅

创建数据挖掘模型
检测类别 (Excel 表分析工具)