数据挖掘算法(Analysis Services – 数据挖掘)
“数据挖掘算法”是创建数据挖掘模型的机制。为了创建模型,算法将首先分析一组数据并查找特定模式和趋势。算法使用此分析的结果来定义挖掘模型的参数。然后,这些参数应用于整个数据集,以便提取可行模式和详细统计信息。
算法创建的挖掘模型可以采用多种形式,这包括:
说明在交易中如何将产品分组到一起的一组规则。
预测特定用户是否会购买某个产品的决策树。
预测销量的数学模型。
说明数据集中的事例如何相关的一组分类。
Microsoft SQL Server Analysis Services 提供了几个供您在数据挖掘解决方案中使用的算法。这些算法是所有可用于数据挖掘的算法的子集。您还可以使用符合 OLE DB for Data Mining 规范的第三方算法。有关第三方算法的详细信息,请参阅插件算法。
数据挖掘算法的类型
Analysis Services 包括了以下算法类型:
分类算法基于数据集中的其他属性预测一个或多个离散变量。分类算法的一个示例是 Microsoft 决策树算法。
回归算法基于数据集中的其他属性预测一个或多个连续变量,如利润或亏损。回归算法的一个示例是 Microsoft 时序算法。
分割算法将数据划分为组或分类,这些组或分类的项具有相似属性。分割算法的一个示例是 Microsoft 聚类分析算法。
关联算法查找数据集中的不同属性之间的相关性。这类算法最常见的应用是创建可用于市场篮分析的关联规则。关联算法的一个示例是 Microsoft 关联算法。
顺序分析算法汇总数据中的常见顺序或事件,如 Web 路径流。顺序分析算法的一个示例是 Microsoft 顺序分析和聚类分析算法。
应用算法
为特定的业务任务选择最佳算法很有挑战性。您可以使用不同的算法来执行同样的业务任务,每个算法会生成不同的结果,而某些算法还会生成多种类型的结果。例如,您不仅可以将 Microsoft 决策数算法用于预测,而且还可以将它用作一种减少数据集的列数的方法,因为决策树能够识别出不影响最终挖掘模型的列。
您也不必单独使用算法。在一个数据挖掘解决方案中,可以使用一些算法来研究数据,然后使用其他算法,基于这些数据预测特定结果。例如,可以使用聚类分析算法来识别模式,将数据细分成多少有点相似的组,然后使用分组结果来创建更好的决策数模型。可以在一个解决方案中使用多个算法来执行不同的任务,例如,使用回归树算法来获取财务预测信息,使用基于规则的算法来执行市场篮分析。
挖掘模型可以预测值、生成数据摘要并查找隐含的相关性。为帮助您选择用于数据挖掘解决方案的算法,下表给出了可为特定的任务使用哪些算法的建议。
任务 |
可使用的 Microsoft 算法 |
---|---|
预测离散属性。 例如,预测目标邮递活动的收件人是否会购买某个产品。 |
|
预测连续属性。 例如,预测下一年的销售额。 |
|
预测顺序。 例如,执行公司网站的点击流分析。 |
|
查找交易中常见项的组。 例如,使用市场篮分析来建议客户购买其他产品。 |
|
查找相似项的组。 例如,将人口统计数据分组以便更好地理解属性之间的关系。 |
因为各个模型返回不同类型的结果,所以 Analysis Services 为每个算法提供单独的查看器。在 Analysis Services 中浏览挖掘模型时,数据挖掘设计器为该模型选用相应的模型查看器,该模型显示在数据挖掘设计器的**“挖掘模型查看器”**选项卡上。有关详细信息,请参阅查看数据挖掘模型。
算法详细信息
下表提供了适用于每种算法的信息类型的链接:
基本算法说明 提供了对算法用途和工作原理的基本说明,以及该算法非常有用的业务方案。
技术参考 列出了可在模型中设置以便控制算法行为并自定义结果的参数。提供有关算法实现、性能提示和数据要求的其他技术详细信息。
查询模型 给出了可用于每个模型类型的查询的示例。可以查询模型以了解该模型中的模式的更多信息,或根据这些模式做出预测。
挖掘模型内容 说明了如何在所有模型类型的通用结构中存储信息,并介绍了如何解释这些信息。生成模型后,可以使用 BI Development Studio 中提供的查看器浏览该模型,或者可以编写查询以使用 DMX 直接从该模型内容返回信息。
基本算法说明 |
技术参考 |
查询 |
挖掘模型内容 |
---|---|---|---|