予測モデルのカスタマイズと処理 (中級者向けデータマイニングチュートリアル)

[アーティクル]
03/13/2017

対象: SQL Server 2016 Preview

Microsoft タイムシリーズアルゴリズムには、モデルの作成方法と時間データの分析方法に影響するいくつかのパラメーターがあります。これらのプロパティを変更すると、マイニングモデルでの予測の作成方法に大きく影響する場合があります。

このチュートリアルでは、次の作業を行ってモデルを変更します。

モデルの新しい値を追加することで期間の処理方法をカスタマイズ、 PERIODICITY_HINT パラメーター。
Microsoft タイムシリーズアルゴリズムの重要な 2 つのパラメーターについて理解します。FORECAST_METHOD では、予測に使用される方法を制御できます。PREDICTION_SMOOTHING では、長期予測と短期予測の組み合わせをカスタマイズできます。
必要に応じて、不足値を帰属させる方法を指定します。
すべての変更が完了したら、モデルを配置して処理します。

時系列のパラメーターの設定

周期性のヒント

PERIODICITY_HINT パラメーターは、データに必要な追加の期間に関する情報をアルゴリズムを提供します。時系列モデルでは、既定でデータのパターンの検出が自動的に試行されますが、予想される周期が既にわかっている場合は、周期性のヒントを指定することでモデルの精度を高めることができます。ただし、適切でない周期性のヒントを指定すると精度が低下することがあるため、どの値を使用すればよいか確信がない場合は、既定値を使用することをお勧めします。

たとえば、このモデルで使用されるビューでは、1 か月ごとに Adventure Works DW Multidimensional 2012 から売上データが集計されます。したがって、このモデルで使用される各タイムスライスは 1 か月を表し、予測もすべて月単位で行われます。年の 12 か月間、売り上げのパターンが多いか少ないを繰り返すことは年単位で設定されますが予想されるので、 PERIODICITY_HINT パラメーターを 12, 12 のタイムスライスを示すために、(月) は、1 つの売上の周期を構成します。

予測方法

FORECAST_METHOD パラメーターは、長期的または短期的な予測のタイムシリーズアルゴリズムを最適化するかどうかを制御します。既定では、 FORECAST_METHOD パラメーターは、つまり 2 つの異なるアルゴリズムがブレンドされ、短期および長期の予測に最適な結果を得るためのバランスが MIXED に設定されています。

ただし、使用するアルゴリズムが決まっている場合は、ARIMA または ARTXP に値を変更することができます。

長期予測と短期予測の重み付け

PREDICTION_SMOOTHING パラメーターを使用して、長期予測と短期予測の組み合わせ方法をカスタマイズすることもできます。既定では、このパラメーターは 0.5 に設定されます。一般には、これが全体的な精度を確保するための最適なバランスです。

アルゴリズムパラメーターを変更するには

マイニングモデル ] タブを右クリックして Forecasting, を選択し、 アルゴリズムパラメーターの設定します。
PERIODICITY_HINT の行、 アルゴリズムパラメーター ダイアログボックスで、をクリックして、値列で、入力し、 {12}, 、波かっこを含みます。

既定では、アルゴリズムに値 {1} は追加もできます。
FORECAST_METHOD 行であることを確認、値テキストボックスは空白のままであるか、設定を MIXEDします。別の値が入力されている場合は、入力 MIXED にパラメーターを既定値に変更します。
PREDICTION_SMOOTHING 行であることを確認、値テキストボックスは空白のままであるか、設定を 0.5 にします。別の値が入力されている場合はクリックして値と種類 0.5 パラメーターを既定値に変更します。

注意

PREDICTION_SMOOTHING パラメーターは、SQL Server Enterprise Edition でのみ使用できます。したがって、SQL Server Standard Edition では PREDICTION_SMOOTHING パラメーターの値を表示または変更できません。ただし、既定の動作では両方のアルゴリズムが使用され、同等の重み付けが行われます。
**[OK]**をクリックします。

不足データの処理 (オプション)

売上データに NULL で埋められたギャップ (途切れ) が含まれていたり、店舗からのレポートが期限に間に合わなかったために系列の終了時点で空のセルが残されたりすることがよくあります。このような場合は、Analysis Services から次のエラーが表示されてモデルが処理されません。

"エラー (データマイニング): 同期されていないで始まるタイムスタンプシリーズ , 、マイニングモデルのです。すべての時系列は同一の時点で終了する必要があります。また、データ消失点をそれぞれが任意に持つこともできません。 MISSING_VALUE_SUBSTITUTION パラメーターを Previous または数値定数に設定すると、可能な場所にデータ消失点が自動的に設定されます。"

このエラーを回避するには、次のいずれかの方法で、ギャップを埋めるための新しい値が Analysis Services から自動的に提供されるように指定します。

平均値を使用する。平均は、同じデータ系列のすべての有効値を使用して計算されます。
前の値を使用する。複数の不足セルに前の値を割り当てることは可能ですが、開始値を埋めることはできません。
指定した定数値を使用する。

値の平均を計算してギャップを埋めるように指定するには

マイニングモデル ] タブで、右クリックし、 Forecasting 列、および選択 アルゴリズムパラメーターの設定します。
アルゴリズムパラメーター ダイアログボックスで、 MISSING_VALUE_SUBSTITUTION の行に、をクリックして、値列、および種類 という意味ではです。

モデルを構築します。

モデルを使用するには、サーバーにモデルを配置し、アルゴリズムを使用してトレーニングデータを実行することでそのモデルを処理する必要があります。

予測モデルを処理するには

マイニングモデルの ] メニューの [ SQL Server Data Tools, [ マイニング構造の処理とすべてのモデルします。
クリックして、プロジェクトをビルドおよび配置するかどうかを確認する警告ではいします。
マイニング構造の処理 - 予測 ダイアログボックスで、をクリックして実行します。

処理の進行状況 ] ダイアログボックスが開き、モデルの処理に関する情報を表示します。モデルの処理には、時間がかかることがあります。
処理が完了したら、クリックして 閉じる を終了する、 処理の進行状況 ] ダイアログボックス。
クリックして 閉じる を終了するには、もう一度、 マイニング構造の処理 - 予測 ] ダイアログボックス。

このレッスンの次の作業

予測モデルと #40; 中級者向けデータマイニングチュートリアル ) の表示

参照

Microsoft タイムシリーズアルゴリズムテクニカルリファレンス
 Microsoft タイムシリーズアルゴリズム
 処理の要件および注意事項 (データマイニング)

次の方法で共有

予測モデルのカスタマイズと処理 (中級者向けデータマイニングチュートリアル)

時系列のパラメーターの設定

アルゴリズムパラメーターを変更するには

不足データの処理 (オプション)

値の平均を計算してギャップを埋めるように指定するには

モデルを構築します。

予測モデルを処理するには

このレッスンの次の作業

参照

その他のリソース

次の方法で共有

予測モデルのカスタマイズと処理 (中級者向けデータ マイニング チュートリアル)

時系列のパラメーターの設定

アルゴリズム パラメーターを変更するには

不足データの処理 (オプション)

値の平均を計算してギャップを埋めるように指定するには

モデルを構築します。

予測モデルを処理するには

このレッスンの次の作業

参照

その他のリソース

予測モデルのカスタマイズと処理 (中級者向けデータマイニングチュートリアル)

アルゴリズムパラメーターを変更するには