予測モデルのカスタマイズと処理 (中間データマイニングチュートリアル)

Microsoft Time Series アルゴリズムには、モデルの作成方法と時間データの分析方法に影響するパラメーターが用意されています。これらのプロパティを変更すると、マイニングモデルが予測を行う方法に大きな影響を与える可能性があります。

チュートリアルのこのタスクでは、次のタスクを実行してモデルを変更します。

PERIODICITY_HINT パラメーターの新しい値を追加して、モデルが期間を処理する方法をカスタマイズします。
Microsoft タイムシリーズアルゴリズムの他の 2 つの重要なパラメーターについて学習します。FORECAST_METHOD(予測に使用する方法を制御できます)、PREDICTION_SMOOTHING。これにより、長期予測と短期予測のブレンドをカスタマイズできます。
必要に応じて、欠損値を補完する方法をアルゴリズムに指示します。
すべての変更が行われた後、モデルをデプロイして処理します。

時系列パラメーターの設定

周期性ヒント

PERIODICITY_HINT パラメーターは、データに表示される予定の追加の期間に関する情報をアルゴリズムに提供します。既定では、時系列モデルはデータ内のパターンを自動的に検出しようとします。ただし、予想される時間サイクルが既にわかっている場合は、周期性ヒントを指定すると、モデルの精度が向上する可能性があります。ただし、間違った周期性ヒントを指定すると、精度が低下する可能性があります。そのため、使用する値がわからない場合は、既定値を使用することをお勧めします。

たとえば、このモデルに使用されるビューは、Adventure Works DW 多次元 2012 の売上データを月単位で集計します。そのため、モデルで使用される各タイムスライスは 1 か月を表し、すべての予測も月単位で表されます。 1 年に 12 か月あり、年単位で多かれ少なかれ販売パターンが繰り返されると予想されるため、 PERIODICITY_HINT パラメーターを 12 に設定して、12 個のタイムスライス (月) が 1 つの完全な販売サイクルを構成することを示します。

予測方法

FORECAST_METHOD パラメーターは、時系列アルゴリズムを短期または長期の予測に最適化するかどうかを制御します。既定では、 FORECAST_METHOD パラメーターは MIXED に設定されています。つまり、2 つの異なるアルゴリズムがブレンドされ、バランスが取られ、短期と長期の両方の予測に適した結果が得られます。

ただし、特定のアルゴリズムを使用することがわかっている場合は、ARIMA または ARTXP のいずれかに値を変更できます。

Long-Term予測とShort-Term予測の重み付け比較

また、PREDICTION_SMOOTHING パラメーターを使用して、長期および短期の予測を組み合わせる方法をカスタマイズすることもできます。既定では、このパラメーターは 0.5 に設定されています。通常、全体的な精度に最適なバランスが提供されます。

アルゴリズムパラメーターを変更するには

[ マイニングモデル ] タブで、[ 予測] を右クリックし、[ アルゴリズムパラメーターの設定] を選択します。
[アルゴリズムパラメーター] ダイアログボックスのPERIODICITY_HINT行で、[値] 列をクリックし、中かっこを含む{12}を入力します。

既定では、アルゴリズムによって値 {1}も追加されます。
FORECAST_METHOD行で、[値] テキストボックスが空白であるか、MIXEDに設定されていることを確認します。別の値が入力されている場合は、「 MIXED 」と入力して、パラメーターを既定値に戻します。
PREDICTION_SMOOTHING行で、[値] テキストボックスが空白であるか、0.5 に設定されていることを確認します。別の値が入力されている場合は、[ 値 ] をクリックし、「 0.5 」と入力して、パラメーターを既定値に戻します。

注

PREDICTION_SMOOTHING パラメーターは、SQL Server Enterprise でのみ使用できます。そのため、SQL Server Standard の PREDICTION_SMOOTHING パラメーターの値を表示または変更することはできません。ただし、既定の動作では、アルゴリズムと重みの両方を均等に使用します。
OK をクリックします。

不足しているデータの処理 (省略可能)

多くの場合、売上データに null が入力されているギャップがあるか、ストアがレポートの期限を満たできず、系列の最後に空のセルが残っている可能性があります。このようなシナリオでは、Analysis Services は次のエラーを発生させ、モデルを処理しません。

エラー (データマイニング): タイムスタンプが<系列名>から始まるマイニングモデル<モデル名>で同期されていません。すべての時系列は同時に終了する必要があり、データポイントが任意に欠落していることはできません。 MISSING_VALUE_SUBSTITUTIONパラメーターを Previous または numeric 定数に設定すると、不足しているデータポイントに可能な限り自動的に修正プログラムが適用されます。"

このエラーを回避するには、次のいずれかの方法を使用して、ギャップを埋める新しい値が Analysis Services によって自動的に提供されるように指定できます。

平均値の使用。平均は、同じデータ系列内のすべての有効な値を使用して計算されます。
前の値を使用しています。前の値を複数の欠損セルに置き換えることができますが、開始値を入力することはできません。
指定した定数値を使用します。

平均値でギャップを埋め込むよう指定するには

[ マイニングモデル ] タブで、[予測] 列を右クリックし、[ アルゴリズムパラメーターの設定] を選択します。
[ アルゴリズムパラメーター ] ダイアログボックスの [MISSING_VALUE_SUBSTITUTION ] 行で[ 値 ] 列をクリックし、「 Mean」と入力します。

モデルをビルドする

モデルを使用するには、モデルをサーバーにデプロイし、アルゴリズムを使用してトレーニングデータを実行してモデルを処理する必要があります。

予測モデルを処理するには

SQL Server データツールの [ マイニングモデル ] メニューで、[ マイニング構造の処理] と [すべてのモデル] を選択します。
プロジェクトをビルドして配置するかどうかを確認する警告が表示されたら、[ はい] をクリックします。
[ プロセスマイニング構造 - 予測 ] ダイアログボックスで、[ 実行] をクリックします。

[ プロセスの進行状況 ] ダイアログボックスが開き、モデル処理に関する情報が表示されます。モデルの処理には時間がかかる場合があります。
処理が完了したら、[ 閉じる ] をクリックして [ プロセスの進行状況 ] ダイアログボックスを終了します。
もう一度 [閉じる ] をクリックして、[ プロセスマイニング構造 - 予測 ] ダイアログボックスを終了します。

このレッスンの次の作業

予測モデルの探索 (中間データマイニングチュートリアル)

こちらもご覧ください

Microsoft タイムシリーズアルゴリズム技術リファレンス
 Microsoft タイムシリーズアルゴリズム
 処理の要件と考慮事項 (データマイニング)

Last updated on 2017-03-06