[アーティクル]
04/01/2012

時系列モデルの傾向について (中級者向けデータマイニングチュートリアル)

集計データに基づいて作成されるさまざまなモデルを調べると、さまざまなモデルや地域の金額や数量を合計するか平均するかによって傾向線や予測線が大きく違って見えることがわかります。

全世界の予測を行うための汎用モデルとして使用するモデルを決定する前に、予測についてより深く理解するために、基になるデータを予測チャートと共に調査します。

既に見たように、傾向線は 2006 年 6 月までは重なっていますが、その時点で数量と金額の線が分かれています。その後さらに、2008 年 7 月にも線が分かれています。

この作業では、数量と価格の関係を追跡できるように、元のデータソースビューに基づく名前付き計算を作成します。次に、傾向線の分割について理解できるように、その比率を含むピボットグラフを作成します。

基になるデータの調査

名前付き計算を作成するには

ソリューションエクスプローラーで、[データソースビュー] を展開し、[SalesByRegion.dsv] をダブルクリックします。
vTimeSeries テーブルを右クリックし、[新しい名前付き計算] をクリックします。
[名前付き計算の作成] ボックスで、名前として「UnitAmt」と入力します。
[式] ボックスに、「Amount/Quantity」と入力します。[OK] をクリックします。

vTimeSeries テーブルに計算列 UnitAmt が追加されます。この計算列は、データマイニングプロジェクトのデータソースビュー定義にのみ格納され、基になるリレーショナルデータベースビューには影響しません。

名前付き計算を使用してピボットグラフを作成するには

vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。
[vTimeSeries テーブルの探索] タブで、[ピボットテーブル] タブをクリックします。
[ピボットテーブルフィールドリスト] ボックスから TimeIndex フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに列のフィールドをドロップします" と書かれている場所にドロップします。
[ピボットテーブルフィールドリスト] ボックスから ModelRegion フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに行のフィールドをドロップします" と書かれている場所にドロップします。
[ピボットテーブルフィールドリスト] ボックスから UnitAmt フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに詳細のフィールドをドロップします" と書かれている場所にドロップします。

集計モデルの調査

ピボットテーブルからは、いくつかの時点で単位あたりの売上高が (おそらくは製品価格の変更のために) 大きく変化していることがわかります。また、T1000 という新しいバージョンがすべての地域に追加された 2007 年 7 月にも大きな変化が見られます。こうした変化はすべて、モデルで計算される傾向に影響します。汎用モデルは、1 つ 1 つの変化の影響が最小化されるという点で便利ですが、場合によっては、新しい店舗のデータが傾向に影響しないようにそれらの店舗のモデルを別に作成することもあります。

このチュートリアルでは、集計モデルの中から売上の予測に使用するモデルを 1 つ選択します。ここでは既に、それぞれ異なる集計メジャーに基づく 4 つのマイニングモデルを作成してあります。その中から、タイムシリーズビューアーに用意されているツールと、先ほど作成したピボットテーブルをガイドとして使用して、売上の予測に使用するモデルを決定します。次の図は、集計モデルのために作成した時系列チャートです。灰色の 2 本の系列線は平均を、緑色の 2 本の系列線は合計を表しています。

集計メジャーの 4 つのモデル

売上の予測に使用するマイニングモデルを決定する前に、次の点について調査します。

Amount に基づくマイニングモデルは上昇しているが、Quantity に基づくモデルは周期的に下降している。
平均額 (AvgAmt) に基づく予測と合計数量 (SumQty) に基づく予測がかけ離れている。
3 つのモデルの傾向線は予測期間が 5 を超えると水平になるが、合計数量に基づくモデルの傾向線は急激な上昇を続けている。

より多くの情報を得るために確認できることが 3 つあります。まず、[偏差の表示] チェックボックスをオンにして、各予測の標準偏差を表示します。誤差範囲が長いほど予測値の偏差が大きいということになります。

次に、Y 軸の単位がパーセントであること、さらには、グラフの倍率がグラフのデータに応じて変化していることに注意する必要があります。Microsoft タイムシリーズビューアーでは、グラフをできるだけ見やすくするために、パーセント軸の単位が既定で自動的に調整されます。したがって、特定の倍率に固定するには、予測クエリを使用して値を作成およびエクスポートし、Microsoft Excel などの別のアプリケーションでグラフを作成する必要があります。

最後に、時系列モデルのデシジョンツリービューを使用して、モデル内の分割について調べることができます。時系列モデルのデシジョンツリーの分割 (分岐) は、ある時点で傾向線の傾きが大きく変化していることを表す場合もあれば、他の何らかの条件に基づいてツリーが分岐したことを表す場合もあります。デシジョンツリービューでは、それらの分割がツリービューのノードとして表示され、分割の原因の詳細にドリルダウンすることができます。

各系列のデシジョンツリーを表示するには

ソリューションエクスプローラーで、[データソースビュー] を展開し、[AllRegions.dsv] を右クリックします。
vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。
[vTimeSeries テーブルの探索] タブで、[ピボットテーブル] タブをクリックします。
[ピボットテーブルフィールドリスト] ボックスから ReportingDate フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに列のフィールドをドロップします" と書かれている場所にドロップします。
[ピボットテーブルフィールドリスト] ボックスから Region フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに行のフィールドをドロップします" と書かれている場所にドロップします。
[ピボットテーブルフィールドリスト] ボックスから UnitAmt フィールドをドラッグして、ピボットテーブルのデザイン画面の "ここに詳細のフィールドをドロップします" と書かれている場所にドロップします。

そのほか、時系列モデルは移動平均を使用して計算されるため、データ系列の末尾のデータ値が先頭のデータ値より大きく予測に影響する可能性があるということも理解しておく必要があります。さらに、モデルを作成するときに指定した周期性のヒントも、平均の長期的な使用に影響を与えます。

結論

この分析から次のことがわかりました。

数量は、一部の店舗の絶対値が非常に小さくなる可能性があるため、本質的に変化しやすくなります。さらに、グラフビューでは数値がパーセントとして表示されるため、差異が誇張される傾向があります。
Amount はさらに変化しやすいようです。これは、Amount は Quantity に依存しているだけでなく、価格の変動の影響も受けるからです。
M200 North America 系列の予測の上昇傾向が強くなっているのは、この製品と地域の組み合わせの売上高が履歴データの末尾にかけて特に高くなっているためです。

データとさまざまなモデルを詳しく調査した結果、信頼できるモデルを見つけることができました。ビジネスユーザーが分析の根拠を求めている場合は、ヒントに表示される統計情報か、モデルコンテンツの参照またはクエリを通じて、式とサポートデータを入手できます。

次のレッスンでは、平均数量に基づくモデルを使用してすべての地域の数量の予測を行います。

このレッスンの次の作業

平均予測モデルを使用した予測 (中級者向けデータマイニングチュートリアル)

次の方法で共有

時系列モデルの傾向について (中級者向けデータマイニングチュートリアル)

基になるデータの調査

名前付き計算を作成するには

名前付き計算を使用してピボットグラフを作成するには

集計モデルの調査

各系列のデシジョンツリーを表示するには

結論

このレッスンの次の作業

関連項目

参照

その他のリソース

次の方法で共有

時系列モデルの傾向について (中級者向けデータ マイニング チュートリアル)

基になるデータの調査

名前付き計算を作成するには

名前付き計算を使用してピボット グラフを作成するには

集計モデルの調査

各系列のデシジョン ツリーを表示するには

結論

このレッスンの次の作業

関連項目

参照

その他のリソース

時系列モデルの傾向について (中級者向けデータマイニングチュートリアル)

名前付き計算を使用してピボットグラフを作成するには

各系列のデシジョンツリーを表示するには