時系列モデルの要件について (中級者向けデータマイニングチュートリアル)

予測モデルで使用するデータを準備する際に、時系列内のステップの識別に使用できる列がデータに含まれていることを確認する必要があります。その列が Key Time 列として指定されてキーになるため、この列には一意の数値が含まれている必要があります。

Key Time 列の右の単位の選択は、分析を行う上で重要な要素になります。たとえば、売上データを 1 分ごとに更新するとします。このとき、必ずしも時系列の単位として分を使用する必要はなく、売上データを日、週、または月ごとにロールアップする方が重要です。どの時間単位を使用すればよいかわからない場合は、各集計のための新しいデータソースビューを作成し、関連モデルを構築することで、集計の各レベルで異なる傾向があるかどうかを確認できます。

このチュートリアルでは、売上データについてはトランザクション売上データベースで毎日収集しますが、データマイニングのデータについては、事前にビューを使用して月単位で集計します。

分析を行うときは、データのギャップをできるだけ少なくすることも重要です。複数の系列のデータを分析する場合は、すべての系列の開始日と終了日をできるだけ同じにするようにしてください。データにギャップがある場合でも、系列の開始時点と終了時点以外のものであれば、MISSING_VALUE_SUBSTITUTION パラメーターを使用して系列を埋めることができます。また、Analysis Services には、不足データを平均や定数などの値で置き換えるためのオプションもいくつか用意されています。

注意
以前のバージョンのデータソースビューデザイナーに付属していたピボットグラフおよびピボットテーブルのツールは廃止されました。時系列データのギャップを事前に特定するときは、Integration Services に付属の Data Profiler などのツールを使用することをお勧めします。

予測モデルの時間キーを特定するには

[SalesByRegion.dsv [Design]] ペインで、vTimeSeries テーブルを右クリックし、[データの探索] をクリックします。

[vTimeSeries テーブルの探索] というタイトルの新しいタブが開きます。
[テーブル] タブで、TimeIndex 列と Reporting Date 列で使用されているデータを確認します。

どちらの列も一意の値を持つシーケンスであり、時系列キーとして使用できますが、列によってデータ型が異なります。 Microsoft タイムシリーズアルゴリズムでは、datetime データ型は必要なく、値が一意であり、順序付けられていることのみが必要とされます。したがって、どちらの列も予測モデルの時間キーとして使用できます。
データソースビューデザイン画面で、Reporting Date 列を選択し、[プロパティ] をクリックします。次に、TimeIndex 列をクリックし、[プロパティ] をクリックします。

TimeIndex フィールドのデータ型は System.Int32 であるのに対し、Reporting Date フィールドのデータ型は System.DateTime になっています。多くのデータウェアハウスでは、インデックス作成のパフォーマンスを高めるために、日付/時刻の値が整数に変換され、その整数列がキーとして使用されます。ただし、この列を使用した場合、Microsoft タイムシリーズアルゴリズムでは、201014、201014 などの将来の値を使用して予測が行われます。ここでは、売上データの予測をカレンダー日付で表すため、Reporting Date 列を一意の系列 ID として使用します。

データソースビューのキーを設定するには

[SalesByRegion.dsv] ペインで vTimeSeries テーブルをクリックします。
Reporting Date 列を右クリックし、[論理主キーの設定] をクリックします。

不足データの処理 (オプション)

系列に不足データがあると、モデルを処理しようとする際にエラーが表示されます。不足データには、複数の方法で対処することができます。

Analysis Services で、平均を計算するか、前の値を使用して、不足した値を埋めることができます。この操作を行うには、マイニングモデルに MISSING_VALUE_SUBSTITUTION パラメーターを設定します。このパラメーターの詳細については、「Microsoft タイムシリーズアルゴリズムテクニカルリファレンス」を参照してください。既存のマイニングモデルのパラメーターを変更する方法の詳細については、「アルゴリズムパラメーターの表示または変更」を参照してください。
データソースを変更するか、基になるビューをフィルター処理することで、不規則な系列を除外するか、値を置き換えることができます。この操作はリレーショナルデータソースで行うことができます。または、カスタムの名前付きクエリまたは名前付き計算を作成することでデータソースビューを変更できます。詳細については、「多次元モデルのデータソースビュー」を参照してください。このレッスンの後半の作業で、名前付きクエリとカスタム計算の両方を作成する例を示します。

このシナリオでは、ある系列の開始時点でデータの一部が不足しています。具体的には、T1000 製品ラインの 2007 年 7 月までのデータがありません。その点を除けば、すべての系列は同じ日に終了し、不足値はありません。

Microsoft タイムシリーズアルゴリズムでは、1 つのモデルに含めるすべての系列の終了時点が同じであることが要件となります。 T1000 モデルの自転車は 2007 年に売り出されたため、この系列のデータは他のモデルの自転車よりも開始時点が後になりますが、系列の終了日が同じことにより、データは使用できます。

データソースビューデザイナーを閉じるには

[vTimeSeries テーブルの探索] タブを右クリックし、[閉じる] をクリックします。

このレッスンの次の作業

Forecasting 構造およびモデルの作成 (中級者向けデータマイニングチュートリアル)

次の方法で共有

時系列モデルの要件について (中級者向けデータ マイニング チュートリアル)

予測モデルの時間キーを特定するには

データ ソース ビューのキーを設定するには

不足データの処理 (オプション)

データ ソース ビュー デザイナーを閉じるには

このレッスンの次の作業

関連項目

概念

その他のリソース

時系列モデルの要件について (中級者向けデータマイニングチュートリアル)

データソースビューのキーを設定するには

データソースビューデザイナーを閉じるには