什麼是分類模型?

已完成

分類模型可用來做決策,或將項目指派至類別。 迴歸模型會輸出連續數字 (例如身高或體重),分類模型則與之不同,其會輸出布林值 (truefalse) 或分類決策 (例如 applebananacherry)。

分類模型有很多種。 有些的運作方式和傳統的迴歸模型類似,有些則從根本上就不相同。 一開始學習時,最適合的模型之一就是羅吉斯迴歸。

什麼是羅吉斯迴歸?

羅吉斯迴歸是一種運作方式類似於線性迴歸的分類模型。 羅吉斯迴歸與線性迴歸的差異在於曲線的形狀。 簡單的線性迴歸會配合資料來調整直線,羅吉斯迴歸模型則會調整 S 形曲線:

顯示羅吉斯迴歸範例圖示的圖表。

羅吉斯迴歸比線性迴歸更適合用來評估布林值結果,因為羅吉斯曲線一律會產生介於 0 (false) 和 1 (true) 之間的值。 兩者之間的任何值可視為機率。

例如,假設我們想要預測今天是否會發生雪崩。 如果我們的羅吉斯迴歸模型給出 0.3 的值,則表示其預估發生雪崩的機率為 30%。

將輸出轉換成類別

由於羅吉斯迴歸會給出這些機率,而不是簡單的 true/false 值,因此我們必須採取額外步驟才能將結果轉換成類別。 執行此轉換最簡單的辦法是套用閾值。 例如在下圖中,我們的閾值會設定為 0.5。 此閾值表示,任何低於 0.5 的 y 值都會轉換成 false (左下方的方塊),而任何高於 0.5 的值都會轉換成 true (右上方的方塊)。

顯示羅吉斯函式圖形的圖表。

查看圖表後我們會發現,當特徵低於 5 時,機率將小於 0.5,因此會轉換成 false。 高於 5 的特徵值會提供超過 0.5 的機率,因此將會轉換成 true。

值得注意的是,我們不需要將羅吉斯迴歸限制為只能是 true/false 的結果,它也可以用在有三個以上可能結果的情況中,例如 rainsnowsun。 此類結果需要稍微複雜名為多項式羅吉斯迴歸的設定。在接下來的幾個練習中,我們不會進行多項式羅吉斯迴歸的練習,但如果您需要進行非二元結果的預測,就可以將其納入考慮。

另外值得注意的是,羅吉斯迴歸可以使用多個輸入特徵:我們很快就會深入說明此案例。