比较预测模型效果(中级数据挖掘教程)

在本教程的前面步骤中,你创建了多个时序模型:

  • 每个区域和模型组合的预测,仅基于单个模型和区域的数据。

  • 基于更新的数据预测每个区域。

  • 基于聚合数据,在全球范围内对所有模型进行预测。

  • 基于聚合模型预测北美区域中的 M200 模型。

若要汇总时序预测的功能,你将查看这些更改,以了解如何使用选项来扩展或替换受影响的预测结果。

扩展_模型_案例

REPLACE_MODEL_CASES

在添加数据后将原始结果与结果进行比较

让我们看看太平洋地区的 M200 生产线的数据,了解使用新数据更新模型如何影响结果。 请记住,原始数据系列于 2004 年 6 月结束,我们获得了 7 月、8 月和 9 月的新数据。

  • 第一列显示已添加的新数据。

  • 第二列基于原始数据系列显示七月及以后月份的预测。

  • 第三列显示基于扩展数据的预测。

M200 Pacific 更新了实际销售数据 在添加数据之前预测 扩展预测
7-25-2008 65 32 65
8-25-2008 54 37 54
9-25-2008 61 32 61
10-25-2008 无数据 36 32
11-25-2008 无数据 31 41
12-25-2008 无数据 34 32

你会注意到,使用扩展数据的预测(以粗体显示)精确重复实际数据点。 重复是设计造成的。 只要有实际数据点使用,预测查询就会返回实际值,并且仅在新的实际数据点用完之后输出新的预测值。

通常,算法对新数据中的更改的权重比模型数据开头的数据更强。 然而,在这种情况下,新销售数据比上一时期仅增长20-30%,因此预计销售额略有上升,之后销售预测再次下降,更符合新数据前几个月的趋势。

比较原始结果和交叉预测结果

请记住,原始挖掘模型揭示了区域与生产线之间的巨大差异。 例如,M200 模型的销售额非常强劲,而 T1000 模型的销售额在所有区域中都相当低。 此外,一些系列没有太多数据。 系列是参差不齐的,这意味着它们没有相同的起点。

预测 M200 和 T1000 数量系列,

那么,当你基于全球销售额的通用模型而不是原始数据集进行预测时,预测结果发生了怎样的变化? 若要向自己保证,您没有丢失任何信息或扭曲预测,可以将结果保存到表中,将预测表联接到历史数据表,然后绘制两组历史数据和预测。

下图仅基于一条产品线 M200。 该图比较了初始挖掘模型的预测与聚合挖掘模型的预测。

Excel 图表比较预测

在此关系图中,可以看到聚合挖掘模型会保留值的总体范围和趋势,同时最大程度地减少单个数据系列的波动。

结论

你已了解如何创建和自定义可用于预测的时序模型。

你已了解如何更新时序模型,而无需重新处理这些模型,方法是添加新数据并使用参数创建预测,EXTEND_MODEL_CASES。

你已了解如何创建可用于交叉预测的模型,方法是使用 REPLACE_MODEL_CASES 参数并将模型应用于其他数据系列。

另请参阅

中间数据挖掘教程 (Analysis Services - 数据挖掘)
时序模型查询示例