Microsoft タイム シリーズ アルゴリズム
更新 : 2007 年 9 月 15 日
Microsoft タイム シリーズ アルゴリズムは、Microsoft SQL Server 2005 Analysis Services (SSAS) で提供されている回帰アルゴリズムであり、予測シナリオで製品売上などの連続列を予測するデータ マイニング モデルの作成に使用されます。他の Microsoft アルゴリズムで作成されるデシジョン ツリー モデルなどのモデルは、予測可能列を予測するために指定された入力列に依存しているのに対して、タイム シリーズ モデルの予測は、モデルの作成時に元のデータセットからアルゴリズムが取得した傾向にのみ基づいています。次の図は、ある期間にわたる製品売上を予測するための一般的なモデルを示しています。
図のモデルは、グラフの左側にある履歴情報とグラフの右側にある予測情報という 2 つの部分で構成されています。履歴データは、モデルを作成するためにアルゴリズムによって使用される情報を表し、予測データは、モデルによって行われる予測を表しています。履歴データと予測データの組み合わせによって形成される線は、シリーズと呼ばれます。各予測モデルには、ケース シリーズが含まれている必要があります。これは、シリーズ内のポイントを区別する列です。たとえば、図のデータは数か月間にわたる自転車の売上の履歴および予測のシリーズを示しているので、日付の列がケース シリーズとなります。
Microsoft タイム シリーズ アルゴリズムには、クロス予測を実行できる重要な機能があります。これは、2 つの別個の関連するシリーズを持つアルゴリズムをトレーニングする場合、結果として得られるモデルを使用して、一方のシリーズの結果をもう一方のシリーズの動作に基づいて予測できるということを意味します。たとえば、ある製品の実際の売上が、別の製品の売上の予測に影響を与える場合があります。
例
Adventure Works Cycles 社の経営陣は、来年の自転車の売上を月ごとに予測する必要があります。特に、異なる自転車モデルの売上が互いに関連しているかどうか、つまり、ある自転車モデルの売上が別のモデルの売上を予測するのに使用できるかどうかということに関心があります。過去 3 年間の履歴データに対して Microsoft タイム シリーズ アルゴリズムを使用すると、将来の自転車の売上を予測するデータ マイニング モデルを生成できます。また、クロス予測を実行して、個々の自転車モデルの売上傾向が関連しているかどうかを確認することもできます。
アルゴリズムの動作
Microsoft デシジョン ツリー アルゴリズムでは、自己回帰デシジョン ツリーを使用してモデルがトレーニングされます。各モデルにはキー時刻列があり、モデルによって定義されるタイム スライスを定義します。アルゴリズムによって、過去のアイテムの変数番号が、予測する現在の各アイテムに関連付けられます。
Microsoft タイム シリーズ アルゴリズムの機能方法の詳細については、「タイムシリーズ分析の自動回帰ツリー モデル」を参照してください。
Microsoft タイム シリーズ モデルの入力データを定義するには、次の 2 つの方法があります。最初の方法を理解するには、次の表の入力ケースを検討してください。
TimeID | Product | Sales | Volume |
---|---|---|---|
1/2001 |
A |
1000 |
600 |
2/2001 |
A |
1100 |
500 |
1/2001 |
B |
500 |
900 |
2/2001 |
B |
300 |
890 |
表の TimeID 列には時刻識別子が入っており、1 日あたり 2 つのエントリがあります。Product 列では、データベース内の製品を定義します。Sales 列は 1 日の指定製品の総利益を示し、Volume 列は倉庫に残っている指定製品の数量を示します。この場合、モデルには Sales 列と Volume 列という 2 つの予測可能列が含まれています。
または、タイム シリーズ モデルの入力データを次の表のように定義することもできます。
TimeID | A_Sales | A_Volume | B_Sales | B_Volume |
---|---|---|---|---|
1/2001 |
1000 |
600 |
500 |
900 |
2/2001 |
1100 |
500 |
300 |
890 |
この表では、Sales 列と Volume 列がそれぞれ 2 つの列に分かれており、Product 名が前に付いています。このため、TimeID 列の各日には 1 つのエントリしか存在しません。モデルには、A_Sales、A_Volume、B_Sales、および B_Volume という 4 つの予測可能列が含まれています。
入力データを定義するどちらの方法でも同じ情報がモデルに表示されますが、入力ケースの形式によってマイニング モデルの定義方法が変わります。
アルゴリズムの使用
タイム シリーズ アルゴリズムでは、予測する列は連続している必要があります。各モデルには 1 つのケース シリーズしか使用できません。
次の表のように、Microsoft タイム シリーズ アルゴリズムでは、特定の入力列のコンテンツの種類、予測可能列のコンテンツの種類、およびモデリング フラグがサポートされています。
入力列のコンテンツの種類 |
Continuous、Key、Key Time、Table |
予測可能列のコンテンツの種類 |
Continuous、Table |
モデリング フラグ |
NOT NULL、REGRESSOR |
すべての Microsoft アルゴリズムでは、共通の関数セットがサポートされています。ただし、Microsoft タイム シリーズ アルゴリズムでは、次の表のような追加の関数がサポートされています。
すべての Microsoft アルゴリズムに共通の関数の一覧については、「データ マイニング アルゴリズム」を参照してください。これらの関数の使用方法については、「データ マイニング拡張機能 (DMX) 関数リファレンス」を参照してください。
Microsoft タイム シリーズ アルゴリズムでは、Predictive Model Markup Language (PMML) を使用したマイニング モデルの作成はサポートされていません。
Microsoft タイム シリーズ アルゴリズムでは、結果として得られるマイニング モデルのパフォーマンスおよび精度に影響を与えるいくつかのパラメータがサポートされています。次の表では、各パラメータについて説明します。
パラメータ | 説明 |
---|---|
MINIMUM_SUPPORT |
各タイム シリーズ ツリーで分割を生成するために必要なタイム スライスの最小数を指定します。 既定値は 10 です。 |
COMPLEXITY_PENALTY |
デシジョン ツリーの拡大を制御します。値を小さくすると、分割の可能性が増加します。値を大きくすると、分割の可能性が減少します。 既定値は 0.1 です。 |
PERIODICITY_HINT |
データの周期性に関して、アルゴリズムにヒントを提供します。たとえば、売上が年ごとに異なり、シリーズの単位が月である場合、周期性は 12 です。このパラメータの形式は {n [, n]} です。ここで、n には正の値を指定します。角かっこ ([]) 内の n は省略可能で、必要なだけ繰り返すことができます。 既定値は {1} です。 |
MISSING_VALUE_SUBSTITUTION |
履歴データのギャップを埋めるために使用する方法を指定します。既定では、データ内の不規則なギャップや不規則な枠は許可されていません。不規則なギャップや枠を埋めるには、Previous 値、Mean 値、または特定の数値定数を使用します。 |
AUTO_DETECT_PERIODICITY |
周期性を検出するために使用する 0 から 1 までの数値を指定します。1 に近い値を設定すると、多くのほぼ周期的なパターンの検出と、周期性のヒントの自動生成が行われます。周期性のヒントを多数処理すると、モデルのトレーニングに非常に長い時間がかかりますが、精度の高いモデルになる可能性があります。より 0 に近い値を設定すると、非常に周期的なデータのみを対象にして周期性が検出されます。 既定値は 0.6 です。 |
HISTORIC_MODEL_COUNT |
作成する履歴モデルの数を指定します。 既定値は 1 です。 |
HISTORICAL_MODEL_GAP |
2 つの連続した履歴モデル間のタイム ラグを指定します。たとえば、この値を g に設定すると、g、2*g、3*g などの間隔でタイム スライスによって切り捨てられるデータに対して履歴モデルが作成されます。 既定値は 10 です。 |
メモ : |
---|
周期性のヒントはモデル品質に大きく影響します。指定したヒントが実際の周期性と異なると、結果が悪影響を受けることがあります。 |
変更履歴
リリース | 履歴 |
---|---|
2007 年 9 月 15 日 |
|
参照
概念
データ マイニング アルゴリズム
データ マイニング ウィザード
データ マイニング ツールの使用
Microsoft タイム シリーズ ビューアを使用したマイニング モデルの表示