評估分類模型
分類模型的定型精確度,比起在提供未曾見過的新資料時該模型的運作程度,較為不重要。 畢竟,我們會將模型定型,使其可用於我們在真實世界中發現的新資料。 因此,在我們將分類模型定型之後,我們會評估其如何在一組未曾見過的新資料上執行。
在先前的單元中,我們建立了一個模型,根據血糖層級來預測患者是否已經有糖尿病。 現在,當我們將其應用於不屬於訓練集的某些資料時,會得到以下預測。
| x | y | ŷ |
|---|---|---|
| 83 | 0 | 0 |
| 119 | 1 | 1 |
| 104 | 1 | 0 |
| 105 | 0 | 1 |
| 86 | 0 | 0 |
| 109 | 1 | 1 |
回想一下,x 指的是血糖層級,y 指的是實際糖尿病,而 ŷ 是指模型的預測是否有糖尿病。
僅僅計算正確的預測數量,有時可能會給人錯誤的印象或過於簡化,使我們難以全面了解它在現實世界中可能出現的各種錯誤。 若要取得更詳細的資訊,我們可以在稱為混淆矩陣的結構中將結果表格化,如下所示:

混淆矩陣會顯示下列案例的總案例數:
- 模型預測為 0,而實際標籤為 0 (確判為否,左上方)
- 模型預測為 1,而實際標籤為 1 (確判為真,右下方)
- 模型預測為 0,而實際標籤為 1 (偽陰性,左下角)
- 模型預測為 1,而實際標籤為 0 (假陽性,右上方)
混淆矩陣中的單元格通常會著色,以使數值越高,陰影越深。 這可讓您更輕鬆地看到從左上到右下的明顯對角線趨勢,並突出顯示預測值與實際值相同的資料格。
從這些核心值計算,您可以計算可協助您評估模型效能的其他計量範圍。 例如:
- 正確性:(TP+TN)/(TP+TN+FP+FN) - 所有的預測中,有多少是正確的?
- 召回率:TP/(TP+FN) - 在所有為正的案例中,模型識別出了多少?
- 精確度:TP/(TP+FP) - 模型預測為確定的所有案例中,實際為確定的有多少?