予測モデルの予測の比較 (中級者向けデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
このチュートリアルのこれまでの手順では、複数の時系列モデルを作成しました。
個々のモデルと地域のデータのみに基づく地域とモデルの組み合わせごとの予測
集計データに基づく全世界におけるすべてのモデルの予測
集計モデルに基づく北米地域の M200 モデルの予測
時系列予測の機能をまとめるため、変更を検討し、データを拡張または置換するオプションの使用が予測結果に与えた影響を確認します。
EXTEND_MODEL_CASES
REPLACE_MODEL_CASES
元の結果とデータ追加後の結果の比較
太平洋地域の M200 製品ラインのデータだけを見て、新しいデータでのモデルの更新による結果への影響を調べます。 元のデータ系列は 2004 年 6 月に終了し、7 月、8 月、9 月の新しいデータを取得したことに注意してください。
最初の列は、追加された新しいデータを示します。
2 番目の列は、元のデータ系列に基づく 7 月以降の予測を示しています。
3 番目の列は、拡張したデータに基づく予測を示しています。
M200 Pacific | 更新された実売上データ | データを追加する前の予測 | 拡張された予測 |
---|---|---|---|
7-25-2008 | 65 | 32 | 65 |
8-25-2008 | 54 | 37 | 54 |
9-25-2008 | 61 | 32 | 61 |
10-25-2008 | データなし | 36 | 32 |
11-25-2008 | データなし | 31 | 41 |
12-25-2008 | データなし | 34 | 32 |
拡張データを使用した予測 (ここでは太字で表示) が実際のデータ ポイントを正確に繰り返していることがわかります。 この繰り返しは、意図的なものです。 予測クエリは、使用する実データ ポイントがある限りは実際の値を返し、新しい実際のデータ ポイントをすべて使用した後でのみ新しい予測値を出力します。
一般に、アルゴリズムでは、モデル データの開始からのデータより、新しいデータでの変更に、より大きい重みを設定します。 しかし、このケースでは、新しい売上の値は前の期間に対して 20 ~ 30% だけの増加を示しているので、予測される売上にはわずかな上昇しかなく、その後の売上予測は再度下降して、新しいデータの前の数か月の傾向と同じようになっています。
元の結果とクロス予測の結果の比較
元のマイニング モデルでは、地域と製品ラインの間に大きな差が見られました。 たとえば、M200 モデルの売上は非常に強い一方で、T1000 モデルの売上はすべての地域でかなり低くなっています。 また、一部の系列には十分なデータがありませんでした。 系列は不規則であり、開始位置が異なることを意味しました。
元のデータ セットではなく世界的な売上に基づく汎用モデルに基づく予測を行うと、どのように変化したでしょうか。 情報が失われたり予測が偏ったりしていないことを確認するには、結果をテーブルに保存し、予測のテーブルを履歴データのテーブルに結合して、履歴データと予測の 2 セットをグラフ化します。
次の図は、ただ 1 つの製品ライン M200 に基づいています。 グラフでは、初期のマイニング モデルによる予測と、集計されたマイニング モデルによる予測が比較されます。
この図からは、個々のデータ系列の変動を最小限に抑えると同時に、集計マイニング モデルによって値の全体的な範囲と傾向が保持されていることがわかります。
まとめ
予測に使用できる時系列モデルを作成してカスタマイズする方法について学習しました。
新しいデータを追加し、パラメーター EXTEND_MODEL_CASES を使用して予測を作成することによって、時系列モデルを再処理することなく更新する方法を学習しました。
REPLACE_MODEL_CASES パラメーターを使用し、異なるデータ系列にモデルを適用することによって、クロス予測に使用できるモデルを作成する方法について学習しました。
参照
中級者向けデータ マイニングのチュートリアルと #40 です。Analysis Services - データ マイニング & #41 です。
タイム シリーズ モデルのクエリ例