自定义数据挖掘模型(Analysis Services - 数据挖掘)
选择满足业务需要的算法后,可以按照以下方式自定义挖掘模型,从而有可能使结果得到改善。
使用模型中的不同数据列,或者更改这些列的用途或内容类型。
对挖掘模型创建筛选器,以限制在定型模型时使用的数据。
设置算法参数以控制阈值、树拆分和其他条件。
更改用于分析数据或做出预测的默认算法。
更改模型使用的数据
关于要在模型中使用哪些数据列以及如何使用和处理这些数据的所做决策可能会大大影响分析结果。以下主题给出的信息有助于理解这些选择。
挖掘模型(Analysis Services - 数据挖掘)
提供挖掘模型体系结构的概述,包括基础挖掘结构和挖掘列选择。
为挖掘模型创建筛选器(Analysis Services – 数据挖掘)
说明可以如何创建应用于挖掘模型的筛选器,进而基于挖掘结构数据的子集来创建模型。
-
说明 Analysis Services 如何使用名为“功能选择”的进程只选择对于向模型中进行添加最为有用的属性。减少列和属性的数目可以提高模型的性能和质量。可用的功能选择方法随所选算法的不同而不同。
如果使用数据挖掘向导,则还可以使 Analysis Services 自动选择对于生成特定模型最为有用的数据。
自定义算法设置
算法选择决定将得到哪些类型的结果。有关特定算法的工作方式或从使用特定算法中受益的业务方案的一般信息,请参阅数据挖掘算法(Analysis Services – 数据挖掘)。
Analysis Services 中提供的数据挖掘算法也可以广泛自定义。可以通过设置算法参数来控制算法行为及其处理数据的方式。以下主题提供有关每个算法支持的参数的详细信息。
Microsoft 顺序分析和聚类分析算法技术参考(Analysis Services – 数据挖掘)
每个算法类型的主题还将列出可以与基于该算法的模型一起使用的预测函数。
算法参数列表
可以使用每个算法支持的参数来自定义算法行为并对模型结果进行微调。有关如何使用每个参数的说明,请参阅以下主题:
属性名称 |
适用于 |
---|---|
AUTO_DETECT_PERIODICITY |
|
CLUSTER_COUNT |
|
CLUSTER_SEED |
|
CLUSTERING_METHOD |
|
COMPLEXITY_PENALTY |
|
FORCE_REGRESSOR |
|
FORECAST_METHOD |
|
HIDDEN_NODE_RATIO |
|
HISTORIC_MODEL_COUNT |
|
HISTORICAL_MODEL_GAP |
|
HOLDOUT_PERCENTAGE |
注意
该参数不同于适用于挖掘结构的维持百分比值。
|
HOLDOUT_SEED |
注意
该参数不同于适用于挖掘结构的维持种子值。
|
INSTABILITY_SENSITIVITY |
|
MAXIMUM_INPUT_ATTRIBUTES |
|
MAXIMUM_ITEMSET_COUNT |
|
MAXIMUM_ITEMSET_SIZE |
|
MAXIMUM_OUTPUT_ATTRIBUTES |
|
MAXIMUM_SEQUENCE_STATES |
|
MAXIMUM_SERIES_VALUE |
|
MAXIMUM_STATES |
|
MAXIMUM_SUPPORT |
|
MINIMUM_IMPORTANCE |
|
MINIMUM_ITEMSET_SIZE |
|
MINIMUM_DEPENDENCY_PROBABILITY |
|
MINIMUM_PROBABILITY |
|
MINIMUM_SERIES_VALUE |
|
MINIMUM_SUPPORT |
|
MISSING_VALUE_SUBSTITUTION |
|
MODELLING_CARDINALITY |
|
PERIODICITY_HINT |
|
PREDICTION_SMOOTHING |
|
SAMPLE_SIZE |
|
SCORE_METHOD |
|
SPLIT_METHOD |
|
STOPPING_TOLERANCE |
其他要求
选择和准备数据是数据挖掘过程的重要组成部分。例如,Microsoft 提供的算法不允许重复键。每个模型所需的数据的类型随算法的不同而不同。有关详细信息,请参阅以下主题的“要求”部分:
使用查询和预测函数自定义结果
生成并处理模型后,可以使用特定于每个模型类型的其中一个查看器来查看信息。也可以使用数据挖掘扩展插件 (DMX) 编写自定义查询来获取有关在数据中找到的模式的更多高级信息或详细信息。
有关如何创建返回模型内容的查询的信息,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)。
可以使用函数来扩展挖掘模型返回的结果。某些函数还会返回表示某个结果出现的概率的统计信息或返回其他分数。此外,个别算法还支持其他函数。例如,如果挖掘模型使用聚类分析算法,则可以使用特殊函数来查找有关分类的信息。不过,如果模型基于时序算法,则可以使用另一组函数来做出预测和查询模型内容。有关详细信息,请参阅每个算法的技术参考主题。
有关如何查询挖掘模型及如何使用专用于特定模型类型的预测函数的示例,请参阅查询数据挖掘模型(Analysis Services – 数据挖掘)。
有关所有算法类型支持的预测函数的列表,请参阅将函数映射到查询类型 (DMX)。
评估模型中的更改
当您为了解决业务问题而试用不同的模型时,或者针对某个模型生成变体时,需要度量每个模型的准确性,还需要评估每个模型如何解决业务问题。有关评估数据挖掘模型的一般信息,请参阅验证数据挖掘模型(Analysis Services – 数据挖掘)。有关如何为不同挖掘模型的准确性绘制图表的详细信息,请参阅模型准确性图表工具(Analysis Services - 数据挖掘)。