了解時間序列模型的需求 (中繼資料採礦教學課程)
適用於: SQL Server 2016 Preview
當您準備要用於預測模型的資料時,必須確認該資料包含可用於識別時間序列步驟的資料行。 該資料行指定為 Key Time 資料行。 此資料行是索引鍵,因此必須包含唯一的數值。
選擇正確單位 Key Time 資料行是分析的重要部分。 例如,假設銷售資料每分鐘重新整理一次。 您不一定要將分鐘當做時間序列單位使用;您可能會發現,依日、週或甚至月來積存銷售資料可能更有意義。 如果您不確定要使用哪個時間單位,可以為每個彙總建立一個新的資料來源檢視,並建立相關的模型,看看是否在每個彙總層級出現不同的趨勢。
在本教學課程中,每天於交易式銷售資料庫中收集銷售資料,但對於資料採礦,則使用檢視,依月預先彙總資料。
此外,對於分析,資料的間距愈少愈好。 如果您計劃分析多個資料數列,所有數列的開始和結束時間最好應該在同一天。 如果資料有間距,但間距不在數列開頭或結尾處,您可以使用 MISSING_VALUE_SUBSTITUTION 參數來填滿數列。 Analysis Services 也提供數個選項的值,例如平均值或常數取代遺漏資料。
警告
我們不再提供舊版資料來源檢視設計工具隨附的樞紐分析圖和樞紐分析表工具。 建議您使用 Integration Services 隨附的資料分析工具等工具,事先識別時間序列資料的間距。
識別預測模型的時間索引鍵
在窗格中, SalesByRegion.dsv [設計], ,以滑鼠右鍵按一下 vTimeSeries 資料表,並選取 瀏覽資料。
新的索引標籤隨即開啟,標題為 瀏覽 vTimeSeries 資料表。
在 資料表 索引標籤上,檢閱用於 TimeIndex 和 Reporting Date 資料行的資料。
這兩個資料行都是具有唯一值的序列,都可以做為時間序列索引鍵;不過,資料行的資料類型不同。 Microsoft 時間序列演算法不需要 datetime 資料類型,只的值是相異且經過排序。 因此,您可以使用任何一個資料行做為預測模型的時間索引鍵。
在資料來源檢視設計介面中,選取 Reporting Date 資料行,然後選取 屬性。 接下來,按一下 TimeIndex 欄位,然後選取 屬性。
TimeIndex 欄位擁有 System.Int32 資料類型,而 Reporting Date 欄位則擁有 System.DateTime 資料類型。 許多資料倉儲都會將日期/時間值轉換為整數,並將整數資料行做為索引鍵,以改進索引效能。 不過,如果您使用此資料行,Microsoft 時間序列演算法會使用未來值 (例如 201014、201014 等) 做預測。 因為您想要表示銷售資料預測使用日曆日期,您會使用 Reporting Date 資料行做為唯一序列識別碼。
若要設定資料來源檢視中的索引鍵
在窗格中 SalesByRegion.dsv, ,選取 vTimeSeries 資料表。
以滑鼠右鍵按一下資料行中報告的日期,然後選取 設定邏輯主索引鍵。
處理遺漏資料 (選擇性)
如果有任何序列遺漏資料,當您嘗試處理模型時,可能會收到錯誤訊息。 解決遺漏資料的方法有好幾種:
您可以讓 Analysis Services 計算平均值或使用上一個值,藉此填滿遺漏值。 方法是,在採礦模型上設定 MISSING_VALUE_SUBSTITUTION 參數。 如需有關此參數的詳細資訊,請參閱 Microsoft 時間序列演算法技術參考。 如需有關如何變更現有的採礦模型的參數資訊,請參閱 檢視或變更演算法參數。
您可以改變資料來源或是篩選基礎檢視,以便刪除不完全的數列或取代值。 您可以在關聯式資料來源中進行此動作,或是建立自訂具名查詢或具名計算以修改資料來源檢視。 如需詳細資訊,請參閱多維度模型中的資料來源檢視。 此課程稍後的一項工作提供了如何建立具名查詢與自訂計算的範例。
在這個案例中,有一個數列開頭處缺少某些資料:亦即,直到 2007 年 7 月才有 T1000 產品線的資料。 除此之外,所有數列都是在同一天結束,沒有遺漏值。
Microsoft 時間序列演算法的需求是您在單一模型中包含任何數列應該具有相同 結束 點。 由於 T1000 自行車模型從 2007 年引進,這個序列的資料比其他自行車模型開始時間晚,但是結束日期相同,因此這個序列的資料可以使用。
關閉資料來源檢視設計師
- 以滑鼠右鍵按一下索引標籤上, 瀏覽 vTimeSeries 資料表, ,然後選取 關閉。