数据挖掘算法(Analysis Services – 数据挖掘)
“数据挖掘算法”是根据数据创建数据挖掘模型的一组试探法和计算。 为了创建模型,算法将首先分析您提供的数据,并查找特定类型的模式和趋势。 算法使用此分析的结果来定义用于创建挖掘模型的最佳参数。 然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
算法根据您的数据创建的挖掘模型可以采用多种形式,这包括:
说明数据集中的事例如何相关的一组分类。
预测结果并描述不同条件是如何影响该结果的决策树。
预测销量的数学模型。
说明在事务中如何将产品分组到一起的一组规则,以及一起购买产品的概率。
Microsoft SQL Server Analysis Services 提供了多种在数据挖掘解决方案中使用的算法。 这些算法是在数据挖掘中使用的一些最流行方法的实现方式。 通过使用提供的 API 或者使用 SQL Server Integration Services 中的数据挖掘组件,所有 Microsoft 数据挖掘算法都是可以自定义且完全可编程的。
您还可以使用符合 OLE DB for Data Mining 规范的第三方算法,或者开发可注册为服务、然后在 SQL Server 数据挖掘框架中使用的自定义算法。
选择正确的算法
为特定的分析任务选择最佳算法很有挑战性。 您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。 例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。
按类型选择算法
Analysis Services 包括了以下算法类型:
分类算法基于数据集中的其他属性预测一个或多个离散变量。
回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。
分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。
关联算法查找数据集中的不同属性之间的相关性。 这类算法最常见的应用是创建可用于市场篮分析的关联规则。
顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。
但是,限制为您的解决方案中的一种算法是没有必要的。 有经验的分析人员有时候将使用一种算法来确定最高效的输入(即变量),然后应用其他算法以便基于这些数据预测特定结果。 SQL Server 数据挖掘使您可以在单个挖掘结构的基础上生成多个模型,这样,在单个数据挖掘解决方案内,您可以使用聚类分析算法、决策树模型和 naïve Bayes 模型来针对您的数据获取不同视图。 您还可以在单个解决方案内使用多种算法来执行单独的任务:例如,您可以使用回归来获取财务预测,并且使用神经网络算法执行销售影响因素分析。
按任务选择算法
为帮助您选择用于特定任务的算法,下表给出了每种算法在传统上用于的任务类型的建议。
任务示例 |
可使用的 Microsoft 算法 |
---|---|
预测离散属性
|
|
预测连续属性
|
|
预测顺序
|
|
查找事务中常见项的组
|
|
查找相似项的组
|
相关内容
下表提供指向一些学习资源的链接,这些学习资源针对在 Analysis Services 中提供的各数据挖掘算法:
基本算法说明 |
说明了算法用途和工作原理,概述了算法可能有用的可能的业务方案。 |
技术参考 |
提供与算法实施有关的技术细节,并且根据需要提供学术方面的参考。 列出了可在模型中设置以便控制算法行为并自定义结果的参数。 描述数据要求并根据需要提供性能提示。 |
模型内容 |
说明在每种类型的数据挖掘模型内信息是如何组织的,并且说明如何解释在各节点中存储的信息。 |
关联模型的挖掘模型内容(Analysis Services – 数据挖掘) 聚类分析模型的挖掘模型内容(Analysis Services – 数据挖掘) 决策树模型的挖掘模型内容(Analysis Services - 数据挖掘) 线性回归模型的挖掘模型内容(Analysis Services - 数据挖掘) 逻辑回归模型的挖掘模型内容(Analysis Services - 数据挖掘) Naive Bayes 模型的挖掘模型内容(Analysis Services - 数据挖掘) 神经网络模型的挖掘模型内容(Analysis Services - 数据挖掘) |
|
数据挖掘查询 |
提供可用于各模型类型的多个查询。 示例包括可让您了解与模型中的模式有关的详细信息的内容查询以及可帮助您基于这些模式生成预测的预测查询。 |
相关任务
主题 |
说明 |
---|---|
确定数据挖掘模型使用的算法 |
|
创建自定义插件算法 |
|
使用特定于算法的查看器浏览模型 |
|
使用一般的表格式查看模型的内容 |
|
了解如何设置您的数据,并使用算法来创建模型 |