予測モデルで使用するデータを準備する場合は、時系列のステップを識別するために使用できる列がデータに含まれていることを確認する必要があります。 その列は、 Key Time 列として指定されます。 キーであるため、列には一意の数値が含まれている必要があります。
Key Time列に適切な単位を選択することは、分析の重要な部分です。 たとえば、売上データが分単位で更新されるとします。 時系列の単位として分を使用するとは限りません。日、週、または月ごとに売上データをロールアップする方が意味がある場合があります。 使用する時間の単位がわからない場合は、集計ごとに新しいデータ ソース ビューを作成し、関連するモデルを構築して、集計の各レベルで異なる傾向が現れるかどうかを確認できます。
このチュートリアルでは、売上データはトランザクション売上データベースで毎日収集されますが、データ マイニングの場合、データはビューを使用して月ごとに事前に集計されています。
さらに、データのギャップが可能な限り少ない分析に適しています。 複数のデータ系列を分析する場合は、すべての系列を同じ日付に開始して終了することをお勧めします。 データにギャップがあるが、ギャップが系列の先頭または末尾にない場合は、MISSING_VALUE_SUBSTITUTION パラメーターを使用して系列を入力できます。 Analysis Services には、不足しているデータを値に置き換えるオプション (手段や定数の使用など) も用意されています。
警告
以前のバージョンのデータ ソース ビュー デザイナーに含まれていたピボットグラフ ツールとピボットテーブル ツールは提供されなくなりました。 Integration Services に含まれるデータ プロファイラーなどのツールを使用して、時系列データのギャップを事前に特定することをお勧めします。
予測モデルの時間キーを識別するには
ウィンドウの SalesByRegion.dsv [デザイン] で、テーブル vTimeSeries を右クリックし、[ データの探索] を選択します。
新しいタブが開き、「 vTimeSeries テーブルの探索」というタイトルが付きます。
[ テーブル ] タブで、[TimeIndex] 列と [レポート日] 列で使用されているデータを確認します。
どちらも一意の値を持つシーケンスであり、どちらも時系列キーとして使用できます。ただし、列のデータ型は異なります。 Microsoft タイム シリーズ アルゴリズムでは、
datetimeデータ型は必要ありません。値が個別で順序付けされていることだけです。 そのため、どちらの列も予測モデルの時間キーとして使用できます。データ ソース ビューのデザイン画面で、列 [レポートの日付] を選択し、[ プロパティ] を選択します。 次に、TimeIndex 列をクリックし、[プロパティ] を選択 します。
TimeIndex フィールドのデータ型は System.Int32 で、Reporting Date フィールドのデータ型は System.DateTime です。 多くのデータ ウェアハウスでは、日付/時刻値を整数に変換し、キーとして整数列を使用してインデックス作成のパフォーマンスを向上させます。 ただし、この列を使用すると、Microsoft Time Series アルゴリズムは、201014、201014などの将来の値を使用して予測を行います。 カレンダーの日付を使用して売上データ予測を表す必要があるため、レポートの日付列を一意の系列識別子として使用します。
データ ソース ビューでキーを設定するには
SalesByRegion.dsv ペインで、vTimeSeries テーブルを選択します。
[レポート日] 列を右クリックし、[ 論理主キーの設定] を選択します。
不足しているデータの処理 (省略可能)
データが不足している系列がある場合は、モデルを処理しようとしたときにエラーが発生する可能性があります。 不足しているデータを回避するには、いくつかの方法があります。
平均を計算するか、前の値を使用して、Analysis Services に欠損値を入力させることができます。 そのためには、マイニング モデルで MISSING_VALUE_SUBSTITUTION パラメーターを設定します。 このパラメーターの詳細については、「 Microsoft Time Series Algorithm Technical Reference」を参照してください。 既存のマイニング モデルのパラメーターを変更する方法については、「アルゴリズム パラメーターの 表示または変更」を参照してください。
データ ソースを変更したり、基になるビューをフィルター処理して、不規則な系列を排除したり、値を置き換えたりすることができます。 リレーショナル データ ソースでこれを行うか、カスタムの名前付きクエリまたは名前付き計算を作成してデータ ソース ビューを変更できます。 詳細については、「 多次元モデルのデータ ソース ビュー」を参照してください。 このレッスンの後のタスクでは、名前付きクエリとカスタム計算の両方を構築する方法の例を示します。
このシナリオでは、1 つのシリーズの先頭に一部のデータがありません。つまり、2007 年 7 月まで T1000 製品ラインのデータはありません。 それ以外の場合、すべての系列は同じ日付に終了し、欠損値はありません。
Microsoft Time Series アルゴリズムの要件は、1 つのモデルに含めるすべての系列が同じ 終点 を持つ必要があるということです。 T1000自転車モデルは2007年に導入されたため、このシリーズのデータは他の自転車モデルよりも遅く始まりますが、シリーズは同じ日付で終了します。そのため、データは使用できます。
データ ソース ビュー デザイナーを閉じるには
- タブを右クリックし、 vTimeSeries テーブルを調べて、[ 閉じる] を選択します。
このレッスンの次の作業
予測構造とモデルの作成 (中間データ マイニング チュートリアル)