機械学習の原則を理解する

完了

機械学習は、予測モデルを作成するために使用されるプログラミング手法です。 一般的なプログラミングとは異なり、コードを使用して結果を生成するための特定の手順を記述します。機械学習では、 アルゴリズム を使用して、データ エンティティの 特徴 と、結果のモデルが予測する ラベル の間の関係を反復的に調査します。 機械学習アルゴリズムは確率理論と統計に基づいており、モデルのトレーニングに使用する大量のデータに依存します。

単純なレベルでは、機械学習モデルは、観察されたエンティティ (その特性) の特徴を受け取り、それらに対して計算を実行して予測ラベルを返す関数です。 一般的に、特徴を x、予測ラベルを y として参照するのが一般的です。したがって、実際には、機械学習モデルは式の関数 です。

ラベルの値を計算するために関数が特徴に対して実行する特定の操作は、モデルのトレーニングに使用されるアルゴリズムによって決まります。

機械学習の種類

大まかに言えば、機械学習には次の 2 つの一般的な種類があります。

  • 既知のラベル値を含むデータを使用してモデルをトレーニングする教師あり機械学習 (そのため、アルゴリズムは既存のデータを使用して xy の間のリレーションシップを確立し、x に適用して y を計算できる関数になります)。
  • 教師なし機械学習。モデルが特徴 (x) 値のみを使用してトレーニングされ、類似した特徴を持つグループ (またはクラスター) の観察が使用されます。

教師あり機械学習

このモジュールでは、最も一般的なシナリオである教師あり機械学習に重点を置いています。 教師あり機械学習の広範な定義には、次の 2 つの一般的な種類の機械学習アルゴリズムがあります。

  • ラベルが数値である回帰アルゴリズム (価格、温度、量、測定可能なその他の値など)。 回帰アルゴリズムでは、関数 (f) が特徴 (x) に対して動作し、ラベル (y) の数値を計算するモデルが生成されます

    たとえば、回帰アルゴリズムを使用して、1 年の月、曜日、温度、湿度などの特徴に基づいて、特定の日に公園内のキオスクで販売されるアイスクリームの予想数を予測するモデルをトレーニングできます。

  • ラベルが不連続カテゴリ (またはクラス) である分類アルゴリズム。 分類アルゴリズムでは、関数 (f) が特徴 (x) を操作して、可能な各クラスの確率値を計算し、最も高い 確率 でクラスのラベル (y) を返すモデルが生成されます。

    たとえば、分類アルゴリズムを使用して、患者が血液インスリンレベル、体重、身長、年齢などの特徴に基づいて糖尿病を持っているかどうかを予測するモデルをトレーニングできます。 2 つの可能なクラス (true や false など) のいずれかを識別する分類モデルは、 二項 分類の例です。 多 クラス 分類には、2 つ以上のクラス (たとえば、糖尿病のない患者、1 型糖尿病、または 2 型糖尿病の区別) の確率を予測するアルゴリズムが使用されます。

教師なし機械学習

教師なし学習の最も一般的な形式は クラスタリングであり、データ ケースの特徴は多次元空間の点のベクトルと見なされます。 クラスタリング アルゴリズムの目的は、ポイントをグループ化するクラスターを定義して、類似の特徴を持つケースが互いに近いものの、クラスターが明確に分離されるようにすることです。

クラスタリングは、さまざまなカテゴリのデータを定義する必要があるが、既存のデータ監視が既に割り当てられているカテゴリが事前に定義されていない場合に便利です。 たとえば、プロファイルの類似点に基づいて顧客をセグメント化することができます。 クラスタリングは、分類ソリューションを構築するための最初の手順としても使用できます。基本的には、クラスタリングを使用してデータに適したクラスを決定します。