予測モデルで使用するデータを準備する際に、時系列内のステップの識別に使用できる列がデータに含まれていることを確認する必要があります。 その列が Key Time 列として指定されて キーになるため、この列には一意の数値が含まれている必要があります。
Key Time 列の右の単位の選択は、分析を行う上で重要な要素になります。 たとえば、売上データを 1 分ごとに更新するとします。 このとき、必ずしも時系列の単位として分を使用する必要はなく、売上データを日、週、または月ごとにロール アップする方が重要です。 どの時間単位を使用すればよいかわからない場合は、各集計のための新しいデータ ソース ビューを作成し、関連モデルを構築することで、集計の各レベルで異なる傾向があるかどうかを確認できます。
このチュートリアルでは、売上データについてはトランザクション売上データベースで毎日収集しますが、データ マイニングのデータについては、事前にビューを使用して月単位で集計します。
分析を行うときは、データのギャップをできるだけ少なくすることも重要です。 複数の系列のデータを分析する場合は、すべての系列の開始日と終了日をできるだけ同じにするようにしてください。 データにギャップがある場合でも、系列の開始時点と終了時点以外のものであれば、MISSING_VALUE_SUBSTITUTION パラメーターを使用して系列を埋めることができます。 また、Analysis Services には、不足データを平均や定数などの値で置き換えるためのオプションもいくつか用意されています。
注意 |
|---|
以前のバージョンのデータ ソース ビュー デザイナーに付属していたピボットグラフおよびピボットテーブルのツールは廃止されました。 時系列データのギャップを事前に特定するときは、Integration Services に付属の Data Profiler などのツールを使用することをお勧めします。 |
予測モデルの時間キーを特定するには
[SalesByRegion.dsv [Design]] ペインで、vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。
[vTimeSeries テーブルの探索] というタイトルの新しいタブが開きます。
[テーブル] タブで、TimeIndex 列と Reporting Date 列で使用されているデータを確認します。
どちらの列も一意の値を持つシーケンスであり、時系列キーとして使用できますが、列によってデータ型が異なります。 Microsoft タイム シリーズ アルゴリズムでは、datetime データ型は必要なく、値が一意であり、順序付けられていることのみが必要とされます。 したがって、どちらの列も予測モデルの時間キーとして使用できます。
データ ソース ビュー デザイン画面で、Reporting Date 列を選択し、[プロパティ] をクリックします。 次に、TimeIndex 列をクリックし、[プロパティ] をクリックします。
TimeIndex フィールドのデータ型は System.Int32 であるのに対し、Reporting Date フィールドのデータ型は System.DateTime になっています。 多くのデータ ウェアハウスでは、インデックス作成のパフォーマンスを高めるために、日付/時刻の値が整数に変換され、その整数列がキーとして使用されます。 ただし、この列を使用した場合、Microsoft タイム シリーズ アルゴリズムでは、201014、201014 などの将来の値を使用して予測が行われます。 ここでは、売上データの予測をカレンダー日付で表すため、Reporting Date 列を一意の系列 ID として使用します。
データ ソース ビューのキーを設定するには
[SalesByRegion.dsv] ペインで vTimeSeries テーブルをクリックします。
Reporting Date 列を右クリックし、[論理主キーの設定] をクリックします。
不足データの処理 (オプション)
系列に不足データがあると、モデルを処理しようとする際にエラーが表示されます。 不足データには、複数の方法で対処することができます。
Analysis Services で、平均を計算するか、前の値を使用して、不足した値を埋めることができます。 この操作を行うには、マイニング モデルに MISSING_VALUE_SUBSTITUTION パラメーターを設定します。 このパラメーターの詳細については、「Microsoft タイム シリーズ アルゴリズム テクニカル リファレンス」を参照してください。 既存のマイニング モデルのパラメーターを変更する方法の詳細については、「アルゴリズム パラメーターの表示または変更」を参照してください。
データ ソースを変更するか、基になるビューをフィルター処理することで、不規則な系列を除外するか、値を置き換えることができます。 この操作はリレーショナル データ ソースで行うことができます。または、カスタムの名前付きクエリまたは名前付き計算を作成することでデータ ソース ビューを変更できます。 詳細については、「多次元モデルのデータ ソース ビュー」を参照してください。 このレッスンの後半の作業で、名前付きクエリとカスタム計算の両方を作成する例を示します。
このシナリオでは、ある系列の開始時点でデータの一部が不足しています。具体的には、T1000 製品ラインの 2007 年 7 月までのデータがありません。 その点を除けば、すべての系列は同じ日に終了し、不足値はありません。
Microsoft タイム シリーズ アルゴリズムでは、1 つのモデルに含めるすべての系列の終了時点が同じであることが要件となります。 T1000 モデルの自転車は 2007 年に売り出されたため、この系列のデータは他のモデルの自転車よりも開始時点が後になりますが、系列の終了日が同じことにより、データは使用できます。
データ ソース ビュー デザイナーを閉じるには
- [vTimeSeries テーブルの探索] タブを右クリックし、[閉じる] をクリックします。
このレッスンの次の作業
Forecasting 構造およびモデルの作成 (中級者向けデータ マイニング チュートリアル)
注意