機械学習の種類

完了

機械学習には複数の種類があり、何を予測しようとしているかに応じて適切な種類を適用する必要があります。 次のダイアグラム内に、一般的な種類の機械学習の内訳を示します。

Diagram showing supervised machine learning (regression and classification) and unsupervised machine learning (clustering).

教師あり機械学習

"教師あり" 機械学習は、トレーニング データに "特徴量" の値および既知の "ラベル" の値の両方が含まれる、機械学習アルゴリズムの一般的な用語です。 教師あり機械学習は、過去の観測値の中で、その特徴量とラベル間の関係を判断することによってモデルをトレーニングするために使用されます。これにより、将来のケース内の特徴量に対して、未知のラベルを予測できます。

Regression (回帰)

"回帰" は教師あり機械学習の一種で、そのモデルによって予測されるラベルは数値です。 次に例を示します。

  • 温度、降水量、風速に基づいた、特定の日に売れたアイスクリームの数。
  • 平方フィートのサイズ、含まれるベッドルームの数、その場所の社会経済指標に基づいた、ある物件の販売価格。
  • エンジンのサイズ、重量、幅、高さ、長さに基づいた、ある自動車の燃費 (1 ガロンあたりのマイル数)。

分類

"分類" は教師あり機械学習の一種で、そのラベルは分類または "クラス" を表します。 一般的な分類のシナリオは 2 つあります。

二項分類

"2 項分類" では、その観測された項目が特定のクラスのインスタンスであるか (または、でないか) が、ラベルによって判断されます。 または、別の言い方をすると、2 項分類モデルは相互に排他的な 2 つの結果のうちの 1 つを予測します。 次に例を示します。

  • 体重、年齢、血糖値などの臨床指標に基づいて、ある患者に糖尿病のリスクがあるかどうか。
  • 収入、信用履歴、年齢、その他の要因に基づいて、ある銀行顧客がローンを債務不履行にするかどうか。
  • 人口統計属性と過去の購入に基づいて、あるメーリング リストの顧客がマーケティング オファーに肯定的に応答するかどうか。

これらすべての例の中で、そのモデルは 1 つの可能なクラスに対して "真/偽" または "正/負" の 2 項を予測します。

多クラス分類

マルチクラス分類は、2 項分類を拡張して、複数の可能なクラスのいずれかを表すラベルを予測します。 次に例を示します。

  • その身体の測定値に基づいた、あるペンギンの種類 ("アデリー"、"ジェンツー"、または "ヒゲ")。
  • その配役、監督、予算に基づいた、ある映画のジャンル ("コメディ"、"ホラー"、"恋愛"、"冒険"、または "SF")。

複数クラスの既知のセットを含むほとんどのシナリオ内では、マルチクラス分類を使用して相互に排他的なラベルを予測します。 たとえば、あるペンギンが "ジェンツー" と "アデリー" の両方になることはできません。 ただし、"マルチラベル" 分類モデルのトレーニングに使用できるアルゴリズムもいくつかあり、1 つの観測値に対して複数の有効なラベルが存在する場合があります。 たとえば、ある映画が "SF" と "コメディ" の両方に分類される場合があります。

教師なし機械学習

"教師なし" 機械学習には、既知のラベルがなく、"特徴量" の値のみで構成されるデータを使用した、モデルのトレーニングが含まれます。 教師なし機械学習アルゴリズムは、そのトレーニング データ内の観測値の特徴量間の関係を判断します。

クラスタリング

教師なし機械学習の最も一般的な種類は、"クラスタリング" です。 クラスタリングのアルゴリズムは、特徴量に基づいて観測値間の類似性を識別し、それらを個別のクラスターにグループ化します。 次に例を示します。

  • サイズ、葉の数、花びらの数に基づいて、類似した花をグループ化する。
  • 人口統計属性と購買行動に基づいて、類似した顧客のグループを識別する。

ある点では、クラスタリングはマルチクラス分類に似ています (観測値を個別のグループに分類する点で)。 その違いは、分類を使用する場合、トレーニング データ内の観測値が属するクラスを既に知っているということです。そのため、そのアルゴリズムは、特徴量と既知の分類ラベル間の関係を判断することにより機能します。 クラスタリングでは、前もって既知のクラスター ラベルは存在せず、そのアルゴリズムは純粋に特徴量の類似性に基づいて、そのデータの観測値をグループ化します。

場合によっては、ある分類モデルをトレーニングする前にクラスタリングを使用して、存在するクラスのセットを判断します。 たとえば、クラスタリングを使用して顧客を複数のグループにセグメント化し、次にそれらのグループを分析して、顧客のさまざまなクラスを識別および分類することができます ("高値 - 少量"、"頻繁な少量購入者" など)。 それから、分類を使用してクラスタリング結果内の観測値にラベル付けし、そのラベル付けされたデータを使用して、ある新しい顧客が属する可能性のある顧客カテゴリを予測する、分類モデルをトレーニングできます。