自定义数据挖掘模型(Analysis Services - 数据挖掘)

选择满足业务需要的算法后,可以按照以下方式自定义挖掘模型,从而有可能使结果得到改善。

  • 使用模型中的不同数据列,或者更改这些列的用途或内容类型。

  • 对挖掘模型创建筛选器,以限制在定型模型时使用的数据。

  • 设置算法参数以控制阈值、树拆分和其他条件。

  • 更改用于分析数据或做出预测的默认算法。

更改模型使用的数据

关于要在模型中使用哪些数据列以及如何使用和处理这些数据的所做决策可能会大大影响分析结果。以下主题给出的信息有助于理解这些选择。

如果使用数据挖掘向导,则还可以使 Analysis Services 自动选择对于生成特定模型最为有用的数据。

自定义算法设置

算法选择决定将得到哪些类型的结果。有关特定算法的工作方式或从使用特定算法中受益的业务方案的一般信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)

Analysis Services 中提供的数据挖掘算法也可以广泛自定义。可以通过设置算法参数来控制算法行为及其处理数据的方式。以下主题提供有关每个算法支持的参数的详细信息。

Microsoft 决策树算法技术参考

Microsoft 聚类分析算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft 关联算法技术参考

Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)

Microsoft 神经网络算法技术参考

Microsoft 逻辑回归算法技术参考

Microsoft 线性回归算法技术参考

Microsoft 时序算法技术参考

每个算法类型的主题还将列出可以与基于该算法的模型一起使用的预测函数。

算法参数列表

可以使用每个算法支持的参数来自定义算法行为并对模型结果进行微调。有关如何使用每个参数的说明,请参阅以下主题:

属性名称

适用于

AUTO_DETECT_PERIODICITY

Microsoft 时序算法技术参考

CLUSTER_COUNT

Microsoft 聚类分析算法技术参考

Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)

CLUSTER_SEED

Microsoft 聚类分析算法技术参考

CLUSTERING_METHOD

Microsoft 聚类分析算法技术参考

COMPLEXITY_PENALTY

Microsoft 决策树算法技术参考

Microsoft 时序算法技术参考

FORCE_REGRESSOR

Microsoft 决策树算法技术参考

Microsoft 线性回归算法技术参考

建模标志(数据挖掘)

FORECAST_METHOD

Microsoft 时序算法技术参考

HIDDEN_NODE_RATIO

Microsoft 神经网络算法技术参考

HISTORIC_MODEL_COUNT

Microsoft 时序算法技术参考

HISTORICAL_MODEL_GAP

Microsoft 时序算法技术参考

HOLDOUT_PERCENTAGE

Microsoft 逻辑回归算法技术参考

Microsoft 神经网络算法技术参考

注意注意
该参数不同于适用于挖掘结构的维持百分比值。

HOLDOUT_SEED

Microsoft 逻辑回归算法技术参考

Microsoft 神经网络算法技术参考

注意注意
该参数不同于适用于挖掘结构的维持种子值。

INSTABILITY_SENSITIVITY

Microsoft 时序算法技术参考

MAXIMUM_INPUT_ATTRIBUTES

Microsoft 聚类分析算法技术参考

Microsoft 决策树算法技术参考

Microsoft 线性回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft 神经网络算法技术参考

Microsoft 逻辑回归算法技术参考

MAXIMUM_ITEMSET_COUNT

Microsoft 关联算法技术参考

MAXIMUM_ITEMSET_SIZE

Microsoft 关联算法技术参考

MAXIMUM_OUTPUT_ATTRIBUTES

Microsoft 决策树算法技术参考

Microsoft 线性回归算法技术参考

Microsoft 逻辑回归算法技术参考

Microsoft Naive Bayes 算法技术参考

Microsoft 神经网络算法技术参考

MAXIMUM_SEQUENCE_STATES

Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)

MAXIMUM_SERIES_VALUE

Microsoft 时序算法技术参考

MAXIMUM_STATES

Microsoft 聚类分析算法技术参考

Microsoft 神经网络算法技术参考

Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)

MAXIMUM_SUPPORT

Microsoft 关联算法技术参考

MINIMUM_IMPORTANCE

Microsoft 关联算法技术参考

MINIMUM_ITEMSET_SIZE

Microsoft 关联算法技术参考

MINIMUM_DEPENDENCY_PROBABILITY

Microsoft Naive Bayes 算法技术参考

MINIMUM_PROBABILITY

Microsoft 关联算法技术参考

MINIMUM_SERIES_VALUE

Microsoft 时序算法技术参考

MINIMUM_SUPPORT

Microsoft 关联算法技术参考

Microsoft 聚类分析算法技术参考

Microsoft 决策树算法技术参考

Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)

Microsoft 时序算法技术参考

MISSING_VALUE_SUBSTITUTION

Microsoft 时序算法技术参考

MODELLING_CARDINALITY

Microsoft 聚类分析算法技术参考

PERIODICITY_HINT

Microsoft 时序算法技术参考

PREDICTION_SMOOTHING

Microsoft 时序算法技术参考

SAMPLE_SIZE

Microsoft 聚类分析算法技术参考

Microsoft 逻辑回归算法技术参考

Microsoft 神经网络算法技术参考

SCORE_METHOD

Microsoft 决策树算法技术参考

SPLIT_METHOD

Microsoft 决策树算法技术参考

STOPPING_TOLERANCE

Microsoft 聚类分析算法技术参考

其他要求

选择和准备数据是数据挖掘过程的重要组成部分。例如,Microsoft 提供的算法不允许重复键。每个模型所需的数据的类型随算法的不同而不同。有关详细信息,请参阅以下主题的“要求”部分:

使用查询和预测函数自定义结果

生成并处理模型后,可以使用特定于每个模型类型的其中一个查看器来查看信息。也可以使用数据挖掘扩展插件 (DMX) 编写自定义查询来获取有关在数据中找到的模式的更多高级信息或详细信息。

有关如何创建返回模型内容的查询的信息,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)

可以使用函数来扩展挖掘模型返回的结果。某些函数还会返回表示某个结果出现的概率的统计信息或返回其他分数。此外,个别算法还支持其他函数。例如,如果挖掘模型使用聚类分析算法,则可以使用特殊函数来查找有关分类的信息。不过,如果模型基于时序算法,则可以使用另一组函数来做出预测和查询模型内容。有关详细信息,请参阅每个算法的技术参考主题。

有关如何查询挖掘模型及如何使用专用于特定模型类型的预测函数的示例,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)

有关所有算法类型支持的预测函数的列表,请参阅将函数映射到查询类型 (DMX)

评估模型中的更改

当您为了解决业务问题而试用不同的模型时,或者针对某个模型生成变体时,需要度量每个模型的准确性,还需要评估每个模型如何解决业务问题。有关评估数据挖掘模型的一般信息,请参阅验证数据挖掘模型(Analysis Services – 数据挖掘)。有关如何为不同挖掘模型的准确性绘制图表的详细信息,请参阅模型准确性图表工具(Analysis Services - 数据挖掘)