共用方式為


交叉驗證索引標籤 (採礦精確度圖表檢視)

交叉驗證可讓您將採礦結構分割成跨區段,並反覆地針對每個交叉區段定型和測試模型。 您可以指定數個折疊來分割數據,而每個折疊會接著作為測試數據使用,而其餘的數據則用來定型新的模型。 Analysis Services 接著會為每個模型產生一組標準精確度計量。 藉由比較針對每個交叉區段所產生的模型計量,您可以了解採礦模型對於整個數據集有多可靠。

如需詳細資訊,請參閱交叉驗證(Analysis Services - 數據採礦)。

注意

交叉驗證不能與使用Microsoft時間序列演算法或Microsoft時序群集演算法所建置的模型搭配使用。 如果您在包含這些模型類型的採礦結構上執行報表,則報表中將不會包含模型。

工作清單

  • 指定折疊數。

  • 指定要用於交叉驗證的案例數目上限。

  • 指定可預測的數據行。

  • 選擇性地指定可預測的狀態。

  • 選擇性地設定參數,以控制預測的精確度評估方式。

  • 按兩下 [ 取得結果 ] 以顯示交叉驗證的結果。

UI 元素清單

折疊計數
指定要建立的折疊或分割區數目。 最小值為 2,表示數據集用於測試和定型的一半。

會話採礦結構的最大值為 10。

如果採礦結構儲存在 Analysis Services 實例中,最大值為 256。

注意

當您增加折疊數時,執行交叉驗證所需的時間也會增加 n。 如果案例數目很大,而且折疊計數的值也很大,您可能會遇到效能問題。

最大案例
指定要用於交叉驗證的案例數目上限。 任何特定折疊中的案例數目等於 [最大案例 ] 值除以 [折疊計數 ] 值。

如果您使用 0,源數據中的所有案例都會用於交叉驗證。

沒有預設值。

注意

當您增加案例數目時,處理時間也會增加。

目標屬性
從所有模型中找到的可預測數據行清單中選取數據行。 每次執行交叉驗證時,您只能選取一個可預測的數據行。

若要僅測試叢集模型,請選取 [ 叢集]。

目標狀態
輸入值,或從值的下拉式清單中選取目標值。

預設值為 null,表示要測試所有狀態。

已針對叢集模型停用。

目標臨界值
指定介於 0 和 1 之間的值,指出預測機率高於預測機率,而預測狀態會被視為正確。 此值可以以 0.1 遞增來設定。

預設值為 null,表示最可能的預測會計算為正確。

注意

雖然您可以將值設定為 0.0,但使用此值會增加處理時間,而不會產生有意義的結果。

取得結果
按兩下即可使用指定的參數開始對模型進行交叉驗證。

模型會分割成指定的折疊數目,並針對每個折疊測試個別的模型。 因此,交叉驗證可能需要一些時間才能傳回結果。

如需如何解譯交叉驗證報告結果的詳細資訊,請參閱 交叉驗證報告中的量值

設定精確度閾值

您可以設定目標閾值的值,以控制測量預測精確度的標準。 臨界值代表一種精確度列。 每個預測都會指派預測值正確之機率。 因此,如果您將目標臨界值設定為接近 1,則要求任何特定預測的機率要相當高,才能算作良好的預測。 相反地,如果您將目標臨界值設定為接近 0,即使是機率較低的預測也會算作「良好」預測。

沒有建議的臨界值,因為任何預測的機率取決於您所做的數據量和預測類型。 您應該檢閱不同機率層級的一些預測,以判斷數據的適當精確度列。 請務必這麼做,因為您為目標閾值設定的值會影響模型的測量精確度。

例如,假設針對特定目標狀態進行三個預測,而每個預測的機率為0.05、0.15和0.8。 如果您將閾值設定為 0.5,則只會將一個預測計算為正確。 如果您將 [目標閾值] 設定為 0.10,則會將兩個預測計算為正確。

[目標臨界值] 設定為 null時,這是預設值,每個案例的可能預測都會計算為正確。 在剛才引用的範例中,0.05、0.15 和 0.8 是三種不同案例中預測的機率。 雖然機率非常不同,但每個預測都會計算為正確,因為每個案例只會產生一個預測,而這些預測是這些案例的最佳預測。

另請參閱

測試與驗證 (資料採礦)
交叉驗證 (Analysis Services - 數據採礦)
交叉驗證報告中的量值
資料採礦預存程式 (Analysis Services - 數據採礦)