分類モデルとは

完了

分類モデルは、決定を行うため、または項目をカテゴリに割り当てるために使用されます。 高さや重さなどの連続する数値を出力する回帰モジュールとは異なり、分類モデルの出力はブール値 (true または false) またはカテゴリの決定 ("apple"、"banana"、"cherry" など) になります。

さまざまな種類の分類モデルがあります。 従来の回帰モデルと同じように動作するものもありますが、根本的に異なるものもあります。 最初に学習するのに適したモデルの 1 つは、"ロジスティック回帰" と呼ばれるモデルです。

ロジスティック回帰とは

ロジスティック回帰は、線形回帰と同様に動作する "分類" モデルの一種です。 この回帰と線形回帰の違いは、曲線の形状です。 単純線形回帰はデータに直線が適合されますが、ロジスティック回帰モデルは S 字型の曲線が適合されます。

ロジスティック回帰の例のグラフを示す図。

ロジスティック回帰は、常に 0 (false) から 1 (true) の間の値を生成するため、線形回帰よりブール値の結果を推定するのに優れた方法です。 これら 2 つの値の間の値は、確率と考えることができます。

たとえば、今日、雪崩が発生するかどうかを予測しようとしているとします。 ロジスティック回帰モデルの結果が 0.3 という値になる場合、30% の確率で雪崩が発生すると推定されます。

出力をカテゴリに変換する

ロジスティック回帰では、単純な true/false 値ではなく、これらの確率が得られるため、結果をカテゴリに変換する追加の手順が必要です。 この変換を行う最も簡単な方法は、しきい値を適用することです。 たとえば、次のグラフでは、しきい値は 0.5 に設定されています。 このしきい値は、0.5 より下の y 値は false に変換され (左下のボックス)、0.5 より上の値は true に変換される (右上のボックス) ということを意味します。

ロジスティック関数のグラフを示す図。

グラフを見ると、特徴量が 5 未満の場合は、確率が 0.5 未満になり、false に変換されることがわかります。 5 より大きい特徴量の値は確率が 0.5 を超えるので、true に変換されます。

ロジスティック回帰は、true/false の結果に限定する必要はない点が重要です。結果が "rain"、"snow"、"sun" のような 3 つ以上の値になる可能性がある場合にも使用できます。 この種の結果には、多項ロジスティック回帰と呼ばれる、もう少し複雑な設定が必要です。次のいくつかの演習では多項ロジスティック回帰の練習を行いませんが、二項ではない予測を行う必要がある状況では、これを検討する価値があります。

また、ロジスティック回帰では複数の特徴量を入力として使用できることにも注意してください。このケースについてはまもなく説明します。