有時候您的數據可能包含特殊值。 例如,房主的年齡可能列為五歲。 這些值通常稱為 極端值,可能是因為數據輸入錯誤而錯誤,或可能表示不尋常的趨勢。 無論哪種方式,例外狀況都可能會影響分析的品質。 醒目提示例外狀況工具可協助您尋找這些值,並檢閱這些值以進行進一步的動作。
醒目提示例外狀況工具可以使用 Excel 資料表中的整個數據範圍,或者您只能選取幾個數據行。 您也可以調整可控制數據變化的臨界值,以尋找更多或更少的例外狀況。
當工具完成分析後,它會建立一個新的工作表,其中包含每個分析數據列中找到的異常值數量的摘要報告。 此工具也會突出顯示原始數據表中的例外狀況。 因為此工具會分析整體趨勢,所以可能會發現數據列中大部分的值都是正常的,而且只會反白顯示該數據列中的一個單元格。 在上述房主範例中,只有 Age 欄可能被突出顯示。
您也可以變更摘要報告中的例外狀況臨界值。 這個值表示特定儲存格包含異常值的機率。 因此,如果您提高值的範圍,則較少的值會被標示為離群值。 相反地,當您減少值時,您會看到更多被突出顯示的儲存格。
使用高亮顯示例外狀況工具
開啟 Excel 數據表,然後按兩下 [ 醒目提示例外狀況]。
指定要分析的數據行。
按一下 執行。
開啟標題 <為 [極端值] 的工作表,> 以檢視找到的極端值摘要。
若要變更例外狀況的數量,請在提示例外狀況報告的例外狀況閾值資料列中按下向上和向下箭號。
需求
如果這些值包含在預測其他數據列時可能有用的資訊,您可以包含不包含錯誤值的數據行。 不過,您應該取消選取具有許多遺漏或零值的列。
由於所有選取的數據行都用來建立一般模式,因此您應該避免使用您知道有不良資訊的輸入數據行,例如:
包含唯一值的數據行,例如標識符。
包含高百分比錯誤值的數據行。
具有許多遺漏值的數據行。
請注意,在某些情況下,包含有許多遺漏值的輸入數據行會很有用。 例如,如果客戶透過零售商購買位址字段的值一律遺失,則數據採礦演算法可以使用這項資訊來識別其他類似的客戶。 您必須逐案判斷數據是因遺漏而缺失,還是因為缺失狀態具有意義。
不太可能在創建模式時有用的欄。 例如,在每列中每行都具有相同值的情況下,將不會新增任何在建立規律時有用的資訊。
瞭解例外狀況重點報告
當您按下 [ 執行] 時,此工具會執行三件事:
根據數據表中的目前數據建立數據採礦結構。
使用 Microsoft 叢集演算法建立新的數據採礦模型。
根據模式建立預測查詢,以判斷工作表中的任何值是否不可行。
例外狀況閾值的初始值一律為 75,這表示計算的演算法有 75 個% 醒目提示數據錯誤的機會。 此工具會自動設定初始分析階段的這個臨界值,但您可以變更報表中的值。
突出例外狀況 工具會突出顯示原始數據表中可疑的儲存格。 深色高亮顯示表示該數據列需要注意。 亮白顯示表示該特定儲存格中的值已識別為可疑。 如果您變更例外狀況的臨界值,反白顯示的值將會隨之變更。
摘要圖表顯示每個數據行中超出例外狀況閾值的單元格數目。
相關工具
當您清除或檢閱數據以準備數據採礦時,您也可以嘗試數據採礦用戶端 for Excel 中的數據探索功能。 此插件提供更進階的工具,可協助您找出極端值、重新標記數據,或查看數據的分佈。 如需數據採礦用戶端 for Excel 中數據探索工具的詳細資訊,請參閱 探索和清除數據。
醒目提示例外狀況工具會使用Microsoft叢集演算法。 叢集模型會偵測共用類似特性的數據列群組。 適用於 Excel 的數據採礦用戶端提供 [ 瀏覽 ] 視窗,其使用圖形和特性配置檔,讓您探索叢集所建立的數據採礦模型。 如需如何流覽醒目提示例外狀況工具所建立的叢集模型的詳細資訊,請參閱流覽模型(適用於 Excel 的數據採礦用戶端)。
如需Microsoft叢集演算法的詳細資訊,請參閱《SQL Server 在線叢書》中的