分类向导可帮助你基于 Excel 表、Excel 范围或外部数据源中的现有数据生成分类模型。
分类模型提取数据中的模式,这些模式指示相似性,并帮助你根据值的分组进行预测。 例如,分类模型可用于根据收入或支出模式预测风险。
使用分类向导
在 “数据挖掘 ”功能区中,单击“ 分类”,然后单击“ 下一步”。
在 “选择源数据 ”页中,选择要分析的数据。
此向导支持多种数据:Excel 表、Excel 范围和外部数据源。 使用外部数据,可以将其添加到 Excel 中,也可以在 Analysis Services 数据源中选择一组表或视图。 还可以添加表和更改列以创建即席数据源。
在“ 分类 ”页上,选择要分类的列。
查看列表中的列,输入列,并取消选择任何具有唯一值的列,因为它们对创建模式没有用处,例如ID号、客户名称等。 还应删除实质上重复可分类列的列。
例如,如果要对预测产品类别进行分类,则应排除子类别字段(如果有已知的业务规则),否则该规则的强度可能会阻止你发现其他关联。
(可选)单击“ 参数 ”以更改算法参数并自定义聚类分析模型的行为。
在 “将数据拆分为定型和测试集 ”页中,指定要保留多少数据进行测试。 余数始终用于训练模型。
默认设置为 30% 测试数据和 70% 训练数据。
在 “完成 ”页上,为数据集和模型提供描述性名称,并设置以下选项,用于控制如何使用完成的模型:
有关分类模型的详细信息
在 “算法参数 ”对话框中,还可以从 Analysis Services 中提供的这些算法中选择分类方法:
Microsoft决策树
Microsoft逻辑回归
Microsoft天真的贝伊斯
Microsoft神经网络
尽管算法可能会产生类似的结果,但它们以不同的方式分析数据,因此我们建议尝试多种算法并比较结果。 默认方法是Microsoft决策树。
在 “参数 ”列表中,可以更改高级选项,具体取决于所选算法的类型。 SQL Server 联机丛书中更详细地描述了每个算法的参数。
要求
若要使用 分类 向导,必须连接到 Analysis Services 数据库。 有关如何创建连接的信息,请参阅“连接到源数据”(Excel 数据挖掘客户端)。