予測モデルのカスタマイズと処理 (中級者向けデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
Microsoft タイム シリーズ アルゴリズムには、モデルの作成方法と時間データの分析方法に影響するいくつかのパラメーターがあります。 これらのプロパティを変更すると、マイニング モデルでの予測の作成方法に大きく影響する場合があります。
このチュートリアルでは、次の作業を行ってモデルを変更します。
モデルの新しい値を追加することで期間の処理方法をカスタマイズ、 PERIODICITY_HINT パラメーター。
Microsoft タイム シリーズ アルゴリズムの重要な 2 つのパラメーターについて理解します。FORECAST_METHOD では、予測に使用される方法を制御できます。PREDICTION_SMOOTHING では、長期予測と短期予測の組み合わせをカスタマイズできます。
必要に応じて、不足値を帰属させる方法を指定します。
すべての変更が完了したら、モデルを配置して処理します。
時系列のパラメーターの設定
周期性のヒント
PERIODICITY_HINT パラメーターは、データに必要な追加の期間に関する情報をアルゴリズムを提供します。 時系列モデルでは、既定でデータのパターンの検出が自動的に試行されますが、 予想される周期が既にわかっている場合は、周期性のヒントを指定することでモデルの精度を高めることができます。 ただし、適切でない周期性のヒントを指定すると精度が低下することがあるため、どの値を使用すればよいか確信がない場合は、既定値を使用することをお勧めします。
たとえば、このモデルで使用されるビューでは、1 か月ごとに Adventure Works DW Multidimensional 2012 から売上データが集計されます。 したがって、このモデルで使用される各タイム スライスは 1 か月を表し、予測もすべて月単位で行われます。 年の 12 か月間、売り上げのパターンが多いか少ないを繰り返すことは年単位で設定されますが予想されるので、 PERIODICITY_HINT パラメーターを 12, 12 のタイム スライスを示すために、(月) は、1 つの売上の周期を構成します。
予測方法
FORECAST_METHOD パラメーターは、長期的または短期的な予測のタイム シリーズ アルゴリズムを最適化するかどうかを制御します。 既定では、 FORECAST_METHOD パラメーターは、つまり 2 つの異なるアルゴリズムがブレンドされ、短期および長期の予測に最適な結果を得るためのバランスが MIXED に設定されています。
ただし、使用するアルゴリズムが決まっている場合は、ARIMA または ARTXP に値を変更することができます。
長期予測と短期予測の重み付け
PREDICTION_SMOOTHING パラメーターを使用して、長期予測と短期予測の組み合わせ方法をカスタマイズすることもできます。 既定では、このパラメーターは 0.5 に設定されます。一般には、これが全体的な精度を確保するための最適なバランスです。
アルゴリズム パラメーターを変更するには
マイニング モデル ] タブを右クリックして Forecasting, を選択し、 アルゴリズム パラメーターの設定します。
PERIODICITY_HINT の行、 アルゴリズム パラメーター ダイアログ ボックスで、をクリックして、 値 列で、入力し、 {12}, 、波かっこを含みます。
既定では、アルゴリズムに値 {1} は追加もできます。
FORECAST_METHOD 行であることを確認、 値 テキスト ボックスは空白のままであるか、設定を MIXEDします。 別の値が入力されている場合は、入力 MIXED にパラメーターを既定値に変更します。
PREDICTION_SMOOTHING 行であることを確認、 値 テキスト ボックスは空白のままであるか、設定を 0.5 にします。 別の値が入力されている場合はクリックして 値 と種類 0.5 パラメーターを既定値に変更します。
注意
PREDICTION_SMOOTHING パラメーターは、SQL Server Enterprise Edition でのみ使用できます。 したがって、SQL Server Standard Edition では PREDICTION_SMOOTHING パラメーターの値を表示または変更できません。 ただし、既定の動作では両方のアルゴリズムが使用され、同等の重み付けが行われます。**[OK]**をクリックします。
不足データの処理 (オプション)
売上データに NULL で埋められたギャップ (途切れ) が含まれていたり、店舗からのレポートが期限に間に合わなかったために系列の終了時点で空のセルが残されたりすることがよくあります。 このような場合は、Analysis Services から次のエラーが表示されてモデルが処理されません。
"エラー (データ マイニング): 同期されていないで始まるタイムスタンプ シリーズ , 、マイニング モデルの です。 すべての時系列は同一の時点で終了する必要があります。また、データ消失点をそれぞれが任意に持つこともできません。 MISSING_VALUE_SUBSTITUTION パラメーターを Previous または数値定数に設定すると、可能な場所にデータ消失点が自動的に設定されます。"
このエラーを回避するには、次のいずれかの方法で、ギャップを埋めるための新しい値が Analysis Services から自動的に提供されるように指定します。
平均値を使用する。 平均は、同じデータ系列のすべての有効値を使用して計算されます。
前の値を使用する。 複数の不足セルに前の値を割り当てることは可能ですが、開始値を埋めることはできません。
指定した定数値を使用する。
値の平均を計算してギャップを埋めるように指定するには
マイニング モデル ] タブで、右クリックし、 Forecasting 列、および選択 アルゴリズム パラメーターの設定します。
アルゴリズム パラメーター ダイアログ ボックスで、 MISSING_VALUE_SUBSTITUTION の行に、をクリックして、 値 列、および種類 という意味ではです。
モデルを構築します。
モデルを使用するには、サーバーにモデルを配置し、アルゴリズムを使用してトレーニング データを実行することでそのモデルを処理する必要があります。
予測モデルを処理するには
マイニング モデルの ] メニューの [ SQL Server Data Tools, [ マイニング構造の処理とすべてのモデルします。
クリックして、プロジェクトをビルドおよび配置するかどうかを確認する警告で はいします。
マイニング構造の処理 - 予測 ダイアログ ボックスで、をクリックして 実行します。
処理の進行状況 ] ダイアログ ボックスが開き、モデルの処理に関する情報を表示します。 モデルの処理には、時間がかかることがあります。
処理が完了したら、クリックして 閉じる を終了する、 処理の進行状況 ] ダイアログ ボックス。
クリックして 閉じる を終了するには、もう一度、 マイニング構造の処理 - 予測 ] ダイアログ ボックス。
このレッスンの次の作業
予測モデルと #40; 中級者向けデータ マイニング チュートリアル ) の表示
参照
Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス
Microsoft タイム シリーズ アルゴリズム
処理の要件および注意事項 (データ マイニング)