分类向导 (Excel 的数据挖掘加载项)

数据挖掘功能区中的分类向导

分类向导可帮助你基于 Excel 表、Excel 范围或外部数据源中的现有数据生成分类模型。

分类模型提取数据中的模式,这些模式指示相似性,并帮助你根据值的分组进行预测。 例如,分类模型可用于根据收入或支出模式预测风险。

使用分类向导

  1. “数据挖掘 ”功能区中,单击“ 分类”,然后单击“ 下一步”。

  2. “选择源数据 ”页中,选择要分析的数据。

    此向导支持多种数据:Excel 表、Excel 范围和外部数据源。 使用外部数据,可以将其添加到 Excel 中,也可以在 Analysis Services 数据源中选择一组表或视图。 还可以添加表和更改列以创建即席数据源。

  3. 在“ 分类 ”页上,选择要分类的列。

    查看列表中的列,输入列,并取消选择任何具有唯一值的列,因为它们对创建模式没有用处,例如ID号、客户名称等。 还应删除实质上重复可分类列的列。

    例如,如果要对预测产品类别进行分类,则应排除子类别字段(如果有已知的业务规则),否则该规则的强度可能会阻止你发现其他关联。

  4. (可选)单击“ 参数 ”以更改算法参数并自定义聚类分析模型的行为。

  5. “将数据拆分为定型和测试集 ”页中,指定要保留多少数据进行测试。 余数始终用于训练模型。

    默认设置为 30% 测试数据和 70% 训练数据。

  6. “完成 ”页上,为数据集和模型提供描述性名称,并设置以下选项,用于控制如何使用完成的模型:

    • 浏览模型。 选择此选项后,向导在处理完模型后立即打开 “浏览” 窗口,以帮助你浏览结果。 查看器的内容取决于生成的模型类型。 有关详细信息,请参阅 浏览决策树模型浏览神经网络模型

    • 启用钻取。 选择此选项可查看已完成模型的基础数据。 仅当生成决策树模型时,此选项才可用。

    • 使用临时模型。 如果选择此选项,模型将不会保存到服务器。 关闭 Excel 时会删除临时模型。

有关分类模型的详细信息

“算法参数 ”对话框中,还可以从 Analysis Services 中提供的这些算法中选择分类方法:

  • Microsoft决策树

  • Microsoft逻辑回归

  • Microsoft天真的贝伊斯

  • Microsoft神经网络

尽管算法可能会产生类似的结果,但它们以不同的方式分析数据,因此我们建议尝试多种算法并比较结果。 默认方法是Microsoft决策树。

“参数 ”列表中,可以更改高级选项,具体取决于所选算法的类型。 SQL Server 联机丛书中更详细地描述了每个算法的参数。

Microsoft决策树算法技术参考

Microsoft逻辑回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft神经网络算法技术参考

要求

若要使用 分类 向导,必须连接到 Analysis Services 数据库。 有关如何创建连接的信息,请参阅“连接到源数据”(Excel 数据挖掘客户端)。

另请参阅

创建数据挖掘模型