當您準備資料以用於預測模型時,您必須確定您的數據包含可用來識別時間序列步驟的數據行。 該欄將被指定為 Key Time 欄。 因為它是索引鍵,因此數據行必須包含唯一的數值。
為數據行選擇正確的單位 Key Time 是分析的重要部分。 例如,假設您的銷售數據會以分鐘為單位重新整理。 您不一定使用分鐘數做為時間序列的單位;您可能會發現在日、周甚至月之前匯總銷售數據更有意義。 如果您不確定要使用的時間單位,您可以為每個匯總建立新的數據源檢視,並建置相關的模型,以查看每個匯總層級是否出現不同的趨勢。
在本教學課程中,銷售資料每天都在交易型銷售資料庫中收集,但在進行資料挖掘時,資料已透過資料庫檢視按月進行預先匯總。
此外,為了更好地進行分析,最好確保數據有盡可能少的缺口。 如果您打算分析多個數據系列,則所有數列最好在同一個日期開始和結束。 如果數據有間距,但間距不在數列的開頭或結尾,您可以使用 MISSING_VALUE_SUBSTITUTION 參數來填入數列。 Analysis Services 也提供數個選項,以值取代遺漏的數據,例如使用表示或常數。
警告
不再提供舊版數據源檢視設計工具中包含的樞紐分析圖和數據透視表工具。 建議您事先識別時間序列數據的間距,方法是使用 Integration Services 中包含的數據分析工具之類的工具。
識別預測模型的時間關鍵要素
在窗格中, SalesByRegion.dsv [設計],以滑鼠右鍵按兩下數據表 vTimeSeries,然後選取 [ 探索數據]。
隨即開啟新的索引標籤,標題為 [探索 vTimeSeries 數據表]。
在 [ 數據表] 索引標籤上,檢閱 TimeIndex 和 Reporting Date 資料行中使用的數據。
兩者都是具有唯一值的序列,兩者都可以當做時間序列索引鍵使用:不過,數據行的數據類型不同。 Microsoft時間序列演算法不需要
datetime數據類型,只有值是相異和排序的。 因此,任一欄都可以作為預測模型的時間鍵。在數據源檢視設計介面中,選取數據行[報告日期],然後選取 [ 屬性]。 接下來,按兩下 [TimeIndex] 資料行,然後選取 [ 屬性]。
欄位 TimeIndex 具有 System.Int32 數據類型,而欄位 Reporting Date 則具有 System.DateTime 數據類型。 許多數據倉儲會將日期/時間值轉換成整數,並使用整數數據行作為索引鍵,以改善索引編製效能。 不過,如果您使用這個數據行,Microsoft時間序列演算法會使用未來的值進行預測,例如201014、201014等等。 因為您想要使用行事曆日期來代表銷售數據預測,因此您會使用 [報表日期] 數據行作為唯一的數列標識符。
若要在數據源檢視中設定主鍵
在 [ SalesByRegion.dsv] 窗格中,選取 vTimeSeries 數據表。
以滑鼠右鍵單擊資料行 [報告日期],然後選取 [設定邏輯主鍵]。
處理遺漏的資料 (選擇性)
如果有任何數列遺失數據,當您嘗試處理模型時,可能會收到錯誤。 您有數種方式可以解決遺漏的資料:
您可以藉由計算平均值或使用先前的值,讓 Analysis Services 填入遺漏的值。 您可以藉由在採礦模型上設定 MISSING_VALUE_SUBSTITUTION 參數來執行此動作。 如需此參數的詳細資訊,請參閱 Microsoft時間序列演算法技術參考。 如需如何變更現有採礦模型參數的資訊,請參閱 檢視或變更演算法參數。
您可以改變數據源或篩選基礎檢視,以排除不完全的數列或取代值。 您可以在關係型數據源中執行此動作,也可以藉由建立自定義具名查詢或具名計算來修改數據源檢視。 如需詳細資訊,請參閱 多維度模型中的數據源檢視。 本課程稍後的工作提供如何建置具名查詢和自定義計算的範例。
在此案例中,一系列開頭缺少一些數據:也就是說,直到 2007 年 7 月,T1000 產品線沒有數據。 否則,所有數列都會在相同的日期結束,而且沒有遺漏的值。
Microsoft時間序列演算法的需求是,您在單一模型中包含的任何數列都應該具有相同 的結束 點。 由於 T1000 自行車模型於 2007 年推出,因此此系列的數據會晚於其他自行車型號開始,但該系列會在相同日期結束:因此,數據是可使用的。
關閉資料來源檢視設計器
- 以滑鼠右鍵按兩下索引標籤[ 探索 vTimeSeries 資料表],然後選取[ 關閉]。