時系列モデルの傾向について (中級者向けデータ マイニング チュートリアル)
集計データに基づいて作成されるさまざまなモデルを調べると、さまざまなモデルや地域の金額や数量を合計するか平均するかによって傾向線や予測線が大きく違って見えることがわかります。
全世界の予測を行うための汎用モデルとして使用するモデルを決定する前に、予測についてより深く理解するために、基になるデータを予測チャートと共に調査します。
既に見たように、傾向線は 2006 年 6 月までは重なっていますが、その時点で数量と金額の線が分かれています。その後さらに、2008 年 7 月にも線が分かれています。
この作業では、数量と価格の関係を追跡できるように、元のデータ ソース ビューに基づく名前付き計算を作成します。次に、傾向線の分割について理解できるように、その比率を含むピボット グラフを作成します。
基になるデータの調査
名前付き計算を作成するには
ソリューション エクスプローラーで、[データ ソース ビュー] を展開し、[SalesByRegion.dsv] をダブルクリックします。
vTimeSeries テーブルを右クリックし、[新しい名前付き計算] をクリックします。
[名前付き計算の作成] ボックスで、名前として「UnitAmt」と入力します。
[式] ボックスに、「Amount/Quantity」と入力します。[OK] をクリックします。
vTimeSeries テーブルに計算列 UnitAmt が追加されます。この計算列は、データ マイニング プロジェクトのデータ ソース ビュー定義にのみ格納され、基になるリレーショナル データベース ビューには影響しません。
名前付き計算を使用してピボット グラフを作成するには
vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。
[vTimeSeries テーブルの探索] タブで、[ピボット テーブル] タブをクリックします。
[ピボット テーブル フィールド リスト] ボックスから TimeIndex フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに列のフィールドをドロップします" と書かれている場所にドロップします。
[ピボット テーブル フィールド リスト] ボックスから ModelRegion フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに行のフィールドをドロップします" と書かれている場所にドロップします。
[ピボット テーブル フィールド リスト] ボックスから UnitAmt フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに詳細のフィールドをドロップします" と書かれている場所にドロップします。
集計モデルの調査
ピボット テーブルからは、いくつかの時点で単位あたりの売上高が (おそらくは製品価格の変更のために) 大きく変化していることがわかります。また、T1000 という新しいバージョンがすべての地域に追加された 2007 年 7 月にも大きな変化が見られます。こうした変化はすべて、モデルで計算される傾向に影響します。汎用モデルは、1 つ 1 つの変化の影響が最小化されるという点で便利ですが、場合によっては、新しい店舗のデータが傾向に影響しないようにそれらの店舗のモデルを別に作成することもあります。
このチュートリアルでは、集計モデルの中から売上の予測に使用するモデルを 1 つ選択します。ここでは既に、それぞれ異なる集計メジャーに基づく 4 つのマイニング モデルを作成してあります。その中から、タイム シリーズ ビューアーに用意されているツールと、先ほど作成したピボット テーブルをガイドとして使用して、売上の予測に使用するモデルを決定します。次の図は、集計モデルのために作成した時系列チャートです。灰色の 2 本の系列線は平均を、緑色の 2 本の系列線は合計を表しています。
売上の予測に使用するマイニング モデルを決定する前に、次の点について調査します。
Amount に基づくマイニング モデルは上昇しているが、Quantity に基づくモデルは周期的に下降している。
平均額 (AvgAmt) に基づく予測と合計数量 (SumQty) に基づく予測がかけ離れている。
3 つのモデルの傾向線は予測期間が 5 を超えると水平になるが、合計数量に基づくモデルの傾向線は急激な上昇を続けている。
より多くの情報を得るために確認できることが 3 つあります。まず、[偏差の表示] チェック ボックスをオンにして、各予測の標準偏差を表示します。誤差範囲が長いほど予測値の偏差が大きいということになります。
次に、Y 軸の単位がパーセントであること、さらには、グラフの倍率がグラフのデータに応じて変化していることに注意する必要があります。Microsoft タイム シリーズ ビューアーでは、グラフをできるだけ見やすくするために、パーセント軸の単位が既定で自動的に調整されます。したがって、特定の倍率に固定するには、予測クエリを使用して値を作成およびエクスポートし、Microsoft Excel などの別のアプリケーションでグラフを作成する必要があります。
最後に、時系列モデルのデシジョン ツリー ビューを使用して、モデル内の分割について調べることができます。時系列モデルのデシジョン ツリーの分割 (分岐) は、ある時点で傾向線の傾きが大きく変化していることを表す場合もあれば、他の何らかの条件に基づいてツリーが分岐したことを表す場合もあります。デシジョン ツリー ビューでは、それらの分割がツリー ビューのノードとして表示され、分割の原因の詳細にドリル ダウンすることができます。
各系列のデシジョン ツリーを表示するには
ソリューション エクスプローラーで、[データ ソース ビュー] を展開し、[AllRegions.dsv] を右クリックします。
vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。
[vTimeSeries テーブルの探索] タブで、[ピボット テーブル] タブをクリックします。
[ピボット テーブル フィールド リスト] ボックスから ReportingDate フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに列のフィールドをドロップします" と書かれている場所にドロップします。
[ピボット テーブル フィールド リスト] ボックスから Region フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに行のフィールドをドロップします" と書かれている場所にドロップします。
[ピボット テーブル フィールド リスト] ボックスから UnitAmt フィールドをドラッグして、ピボット テーブルのデザイン画面の "ここに詳細のフィールドをドロップします" と書かれている場所にドロップします。
そのほか、時系列モデルは移動平均を使用して計算されるため、データ系列の末尾のデータ値が先頭のデータ値より大きく予測に影響する可能性があるということも理解しておく必要があります。さらに、モデルを作成するときに指定した周期性のヒントも、平均の長期的な使用に影響を与えます。
結論
この分析から次のことがわかりました。
数量は、一部の店舗の絶対値が非常に小さくなる可能性があるため、本質的に変化しやすくなります。さらに、グラフ ビューでは数値がパーセントとして表示されるため、差異が誇張される傾向があります。
Amount はさらに変化しやすいようです。これは、Amount は Quantity に依存しているだけでなく、価格の変動の影響も受けるからです。
M200 North America 系列の予測の上昇傾向が強くなっているのは、この製品と地域の組み合わせの売上高が履歴データの末尾にかけて特に高くなっているためです。
データとさまざまなモデルを詳しく調査した結果、信頼できるモデルを見つけることができました。ビジネス ユーザーが分析の根拠を求めている場合は、ヒントに表示される統計情報か、モデル コンテンツの参照またはクエリを通じて、式とサポート データを入手できます。
次のレッスンでは、平均数量に基づくモデルを使用してすべての地域の数量の予測を行います。