時系列モデルの要件について (中級者向けデータ マイニング チュートリアル)
対象: SQL Server 2016 Preview
予測モデルで使用するデータを準備する際に、時系列内のステップの識別に使用できる列がデータに含まれていることを確認する必要があります。 その列として指定する、 Key Time 列です。 キーになるため、この列には一意の数値が含まれている必要があります。
右の単位を選択する、 Key Time 列は分析の重要な部分です。 たとえば、売上データを 1 分ごとに更新するとします。 このとき、必ずしも時系列の単位として分を使用する必要はなく、売上データを日、週、または月ごとにロール アップする方が重要です。 どの時間単位を使用すればよいかわからない場合は、各集計のための新しいデータ ソース ビューを作成し、関連モデルを構築することで、集計の各レベルで異なる傾向があるかどうかを確認できます。
このチュートリアルでは、売上データについてはトランザクション売上データベースで毎日収集しますが、データ マイニングのデータについては、事前にビューを使用して月単位で集計します。
分析を行うときは、データのギャップをできるだけ少なくすることも重要です。 複数の系列のデータを分析する場合は、すべての系列の開始日と終了日をできるだけ同じにするようにしてください。 データにギャップがある場合でも、系列の開始時点と終了時点以外のものであれば、MISSING_VALUE_SUBSTITUTION パラメーターを使用して系列を埋めることができます。 Analysis Services また平均や定数などの値を持つ不足データを置き換えるためのいくつかのオプションを提供します。
警告
以前のバージョンのデータ ソース ビュー デザイナーに付属していたピボットグラフおよびピボットテーブルのツールは廃止されました。 時系列データのギャップを事前に特定するときは、Integration Services に付属の Data Profiler などのツールを使用することをお勧めします。
予測モデルの時間キーを特定するには
ウィンドウで、 SalesByRegion.dsv [Design], vTimeSeries のテーブルを右クリックし、[ データの探索します。
新しいタブが開き、という vTimeSeries テーブルを調べるします。
テーブル ] タブで、TimeIndex] と [Reporting Date 列で使用されているデータを確認します。
どちらの列も一意の値を持つシーケンスであり、時系列キーとして使用できますが、列によってデータ型が異なります。 Microsoft タイム シリーズ アルゴリズムは不要、 **datetime** データ型を distinct と順序付けられた値であることだけです。 したがって、どちらの列も予測モデルの時間キーとして使用できます。
データ ソース ビュー デザイン画面で、Reporting Date] 列を選択し、[ プロパティします。 次に、[TimeIndex] 列をクリックし、選択 プロパティします。
TimeIndex フィールドでは、Reporting Date フィールドの場合は、データ System.DateTime 型に、System.Int32 データ型があります。 多くのデータ ウェアハウスでは、インデックス作成のパフォーマンスを高めるために、日付/時刻の値が整数に変換され、その整数列がキーとして使用されます。 ただし、この列を使用した場合、Microsoft タイム シリーズ アルゴリズムでは、201014、201014 などの将来の値を使用して予測が行われます。 売上データの予測をカレンダー日付を表すようにするため、Reporting Date 列は一意の系列 id として使用します。
データ ソース ビューのキーを設定するには
ウィンドウで SalesByRegion.dsv, 、vTimeSeries テーブルを選択します。
[Reporting Date 列を右クリックして [論理主キーします。
不足データの処理 (オプション)
系列に不足データがあると、モデルを処理しようとする際にエラーが表示されます。 不足データには、複数の方法で対処することができます。
Analysis Services で、平均を計算するか、前の値を使用して、不足した値を埋めることができます。 この操作を行うには、マイニング モデルに MISSING_VALUE_SUBSTITUTION パラメーターを設定します。 このパラメーターの詳細については、次を参照してください。 Microsoft タイム シリーズ アルゴリズム テクニカル リファレンスします。 既存のマイニング モデルのパラメーターを変更する方法については、次を参照してください。 の表示または変更するアルゴリズム パラメーターします。
データ ソースを変更するか、基になるビューをフィルター処理することで、不規則な系列を除外するか、値を置き換えることができます。 この操作はリレーショナル データ ソースで行うことができます。または、カスタムの名前付きクエリまたは名前付き計算を作成することでデータ ソース ビューを変更できます。 詳細については、「多次元モデルのデータ ソース ビュー」 を参照してください。 このレッスンの後半の作業で、名前付きクエリとカスタム計算の両方を作成する例を示します。
このシナリオでは、ある系列の開始時点でデータの一部が不足しています。具体的には、T1000 製品ラインの 2007 年 7 月までのデータがありません。 その点を除けば、すべての系列は同じ日に終了し、不足値はありません。
Microsoft タイム シリーズ アルゴリズムの要件は同じを 1 つのモデルに含めることのすべての系列で用意する必要があります 終了 ポイントです。 T1000 モデルの自転車は 2007 年に売り出されたため、この系列のデータは他のモデルの自転車よりも開始時点が後になりますが、系列の終了日が同じことにより、データは使用できます。
データ ソース ビュー デザイナーを閉じるには
- タブを右クリックして vTimeSeries テーブルを調べる, を選択し、 閉じるします。
このレッスンの次の作業
Forecasting 構造およびモデル ( 中級者向けデータ マイニング チュートリアル ) を作成します。