分享方式:


測試與驗證 (資料採礦)

驗證是評估挖掘模型在實際數據上的表現的過程。 請務必先了解採礦模型的品質和特性,再將其部署至生產環境。

本節介紹一些與模型質量相關的基本概念,並說明Microsoft Analysis Services 中提供的模型驗證策略。 如需模型驗證如何融入較大數據採礦程式的概觀,請參閱 數據採礦解決方案

測試及驗證數據採礦模型的方法

有許多方法可用來評估數據採礦模型的品質和特性。

  • 使用各種統計有效性量值來判斷數據或模型中是否有問題。

  • 將數據分成定型和測試集,以測試預測的正確性。

  • 要求商務專家檢閱數據採礦模型的結果,以判斷探索到的模式在目標商務案例中是否具有意義

所有這些方法在數據採礦方法中都很有用,而且會在您建立、測試和精簡模型時反覆使用,以回答特定問題。 沒有單一完整規則可以告訴您模型是否足夠好,或當您有足夠的數據時。

驗證數據採礦模型的準則定義

數據採礦的量值通常屬於精確度、可靠性和實用性的類別。

精確度 是衡量模型與已提供之數據中屬性的結果相互關聯程度。 精確度有各種量值,但所有精確度量值都相依於所使用的資料。 實際上,值可能遺失或近似值,或數據可能已由多個進程變更。 特別是在探索和開發階段,您可能會決定接受數據中的一定數量錯誤,特別是當數據在其特性中相當一致時。 例如,根據過去銷售預測特定商店銷售額的模型,即使該商店一直使用錯誤的會計方法,仍可能具有很強的關聯性且非常準確。 因此,精確度的測量必須透過可靠性評估來平衡。

可靠性 會評估數據採礦模型在不同數據集上執行的方式。 如果數據採礦模型產生相同類型的預測,或尋找相同的一般模式類型,不論所提供的測試數據為何,數據採礦模型都是可靠的。 例如,您針對使用錯誤會計方法的商店所產生的模型,無法很好地推廣至其他商店,因此是不可靠的。

實用性 包括各種計量,告訴您模型是否提供有用的資訊。 例如,將商店位置與銷售相互關聯的數據採礦模型可能既準確又可靠,但可能不實用,因為您無法在相同位置新增更多商店來將結果一般化。 此外,它並沒有回答為什麼某些地點有更多的銷售的基本商業問題。 您也可能發現,實際上顯示成功的模型毫無意義,因為它是以數據中的相互關聯為基礎。

用於測試和驗證採礦模型的工具

Analysis Services 支援多種驗證數據採礦解決方案的方法,支持數據採礦測試方法的所有階段。

  • 將數據分割成測試集和訓練集。

  • 篩選模型,以定型和測試相同源數據的不同組合。

  • 測量 增益增益增益圖是可視化您從使用數據採礦模型取得的改進方法,當您將其與隨機猜測進行比較時。

  • 執行數據集的交叉驗證

  • 產生 分類矩陣。 這些圖表會將良好和錯誤的猜測排序到數據表中,以便您快速且輕鬆地量測模型預測目標值的方式。

  • 建立 散佈圖 來評估回歸公式的適合度。

  • 建立 利潤圖表 ,將財務收益或成本與採礦模型的使用產生關聯,讓您可以評估建議的值。

這些計量的目的不是回答數據採礦模型是否回答您的商務問題的問題:相反地,這些計量會提供客觀測量,讓您可用來評估數據的可靠性以進行預測性分析,並引導您決定是否要使用特定反覆運算開發程式。

本節中的主題提供每個方法的概觀,並逐步引導您完成測量您使用 SQL Server 數據採礦所建置之模型精確度的程式。

主題 連結
瞭解如何使用精靈或 DMX 命令設定測試數據集 訓練與測試數據集
瞭解如何測試採礦結構中數據的分佈和代表性 交叉驗證 (Analysis Services - 數據採礦)
瞭解 SQL Server 2014 Analysis Services (SSAS) 中提供的精確度圖表類型。 增益圖 (Analysis Services - 數據採礦)

收益圖 (Analysis Services - 數據採礦)

散佈圖 (分析服務 - 資料探勘)
瞭解如何建立分類矩陣,有時稱為混淆矩陣,以評估正類和負類的真判和誤判數目。 分類矩陣 (Analysis Services - 數據採礦)

另請參閱

數據採礦工具
數據採礦解決方案
測試與驗證工作與作說明 (資料採礦)