機械学習の重要な用語の用語集

ML.NET でカスタム モデルをビルドする際に役立つ機械学習の重要な用語を次に示します。

精度

分類における正確度は、正しく分類された項目の数をテスト セット内の項目の総数で割ったものです。 0 (正確度が最も低い) ~ 1 (正確度が最も高い) の値になります。 正確度は、モデル パフォーマンスの評価メトリックの 1 つです。 精度再現率、および F 値と併せて考慮してください。

曲線下面積 (AUC)

二項分類における評価メトリックであり、偽陽性率 (x 軸上) に対する真陽性率 (y 軸上) を描画する曲線下面積の値です。 0.5 (最低) ~ 1 (最高) の値になります。 ROC 曲線 (受信者操作特性曲線) 下面積とも呼ばれます。 詳しくは、Wikipedia の受信者操作特性の記事を参照してください。

二項分類

ラベルが 2 つのクラスのうちの 1 つである分類です。 詳細については、トピック「機械学習のタスク」のセクションの「二項分類」を参照してください。

調整

調整は、二項分類と多クラス分類のために、生のスコアをクラスのメンバーシップにマップするプロセスです。 一部 ML.NET トレーナーには NonCalibrated サフィックスがあります。 これらのアルゴリズムからは、後でクラスの確率にマップする必要がある生のスコアが生成されます。

Catalog

ML.NET では、カタログは、共通の目的でグループ化された拡張機能のコレクションです。

たとえば、各機械学習タスク (二項分類、回帰、ランキングなど) には、利用できる機械学習アルゴリズム (トレーナー) のカタログがあります。 二項分類トレーナー用のカタログは BinaryClassificationCatalog.BinaryClassificationTrainers です。

分類

データを使用してカテゴリを予測する際、教師あり機械学習タスクが分類と呼ばれます。 二項分類とは、2 つのカテゴリだけを予測する (たとえば、画像を猫または犬の写真として分類する) ことです。 多クラス分類とは、複数のカテゴリを予測する (たとえば、画像を特定の犬種の写真として分類する) ことです。

決定係数

回帰における評価メトリックであり、データがモデルにどの程度適合するかを示します。 0 ~ 1 の値になります。 値 0 は、データがランダムであるか、モデルに適合できないことを意味します。 値 1 は、モデルがデータと完全に一致していることを意味します。 多くの場合、これは r2、R2、または r の 2 乗と呼ばれます。

Data

データはあらゆる機械学習アプリケーションの中心です。 ML.NET では、データは IDataView オブジェクトで表されます。 データ ビュー オブジェクト:

  • 列と行で構成されています
  • 遅延評価されます (つまり、操作によって要求されたときにのみデータが読み込まれます)
  • 各列の型、形式、長さを定義するスキーマが含まれます

エスティメーター

IEstimator<TTransformer> インターフェイスを実装する ML.NET のクラス。

エスティメーターは、変換 (データ準備変換と機械学習モデル トレーニング変換の両方) の仕様です。 エスティメーターを連結して、変換のパイプラインにすることができます。 エスティメーターまたはエスティメーターのパイプラインのパラメーターは、Fit が呼び出されたときに学習されます。 Fit の結果はトランスフォーマーです。

拡張メソッド

クラスの一部ですが、クラスの外部で定義されている .NET メソッドです。 拡張メソッドの最初のパラメーターは、その拡張メソッドが属するクラスへの静的な this 参照です。

拡張メソッドは、ML.NET でエスティメーターのインスタンスを構築するために幅広く使用されています。

機能

測定対象となる事象の測定可能なプロパティです。通常は数 (倍精度) 値になります。 複数の特徴は特徴ベクトルと呼ばれ、通常は double[] として格納されます。 特徴では、測定対象となる事象の重要な特性を定義します。 詳しくは、Wikipedia の特徴の記事を参照してください。

機能エンジニアリング

特徴エンジニアリングは、一連の特徴の定義、および使用可能な事象データから特徴ベクトルを生成する (特徴抽出) ソフトウェアの開発を含むプロセスです。 詳しくは、Wikipedia の特徴エンジニアリングの記事を参照してください。

F 値

分類における評価メトリックであり、精度再現率の調和平均を取ります。

ハイパーパラメーター

機械学習アルゴリズムのパラメーターです。 例として、デシジョン フォレストにおける学習するツリー数や勾配降下アルゴリズムにおけるステップ サイズなどがあります。 ハイパーパラメーターの値は、モデルのトレーニング前に設定され、予測関数のパラメーターを検出するプロセスを管理します。例として、デシジョン ツリーにおける比較ポイントや線形回帰モデルにおける重みなどがあります。 詳しくは、Wikipedia のハイパーパラメーターの記事を参照してください。

Label

機械学習モデルで予測される要素です。 たとえば、犬種や将来の株価などです。

対数損失

分類における評価メトリックであり、分類子の正確度を示します。 対数損失が小さいほど、分類子の正確度が高くなります。

損失関数

損失関数は、トレーニング ラベル値とモデルによって行われた予測との差です。 モデルのパラメーターは、損失関数を最小化することで推定されます。

さまざまな損失関数を使用してさまざまなトレーナーを構成できます。

平均絶対誤差 (MAE)

回帰における評価メトリックであり、すべてのモデルの誤差の平均です。モデルの誤差とは、予測されたラベル値と正確なラベル値の間の距離です。

モデル

従来的に予測関数のパラメーターです。 たとえば、線形回帰モデルにおける重みやデシジョン ツリーにおける分割ポイントなどがあります。 ML.NET では、ドメイン オブジェクト (画像、テキストなど) のラベルの予測に必要なすべての情報がモデルに含まれます。 つまり、ML.NET モデルには、必要な特徴付けのステップと予測関数のパラメーターが含まれます。

多クラス分類

ラベルが 3 つ以上のクラスのうちの 1 つである分類です。 詳細については、トピック「機械学習のタスク」のセクション「多クラス分類」を参照してください。

N グラム

テキスト データの特徴抽出スキームです。N 個の単語のシーケンスが特徴値になります。

正規化

正規化とは、浮動小数点データを 0 から 1 の間の値にスケーリングするプロセスです。 ML.NET で使用されるトレーニング アルゴリズムの多くで、入力機能データを正規化する必要があります。 ML.NET では、正規化のために一連の変換を提供します。

数値特徴ベクトル

数値でのみ構成される特徴ベクトルです。 これは double[] に似ています。

パイプライン

モデルをデータ セットに適合させるために必要なすべての操作です。 パイプラインは、データのインポート、変換、特徴付け、および学習の各ステップで構成されます。 トレーニングが完了したパイプラインがモデルになります。

適合率

分類におけるクラスの精度は、そのクラスに属していると正確に予測された項目の数を、クラスに属していると予測された項目の総数で割ったものです。

呼び戻し

分類におけるクラスの再現率は、そのクラスに属していると正確に予測された項目の数を、実際にクラスに属している項目の総数で割ったものです。

正則化

正則化は、複雑すぎるため、線形モデルには適していません。 正則化には 2 つの種類があります。

  • $L_1$ の正則化では、重要でない特徴の重みが 0 になります。 保存されるモデルのサイズは、この種類の正則化の後に小さくなる可能性があります。
  • $L_2$ の正則化では、重要でない特徴の重みの範囲を最小化します。 これは、より一般的なプロセスであり、外れ値の影響を受けにくくなります。

回帰

出力が実際の値 (たとえば、倍精度) である教師あり機械学習タスクです。 例として、株価の予測などがあります。 詳細については、トピック「機械学習のタスク」のセクション「回帰」を参照してください。

相対絶対誤差

回帰における評価メトリックであり、すべての絶対誤差の合計を、正確なラベル値とすべての正確なラベル値の平均との間の距離の合計で割ったものです。

相対平方誤差

回帰における評価メトリックであり、すべての平方絶対誤差の合計を、正確なラベル値とすべての正確なラベル値の平均との間の平方距離の合計で割ったものです。

平均平方誤差の平方根 (RMSE)

回帰における評価メトリックであり、誤差を 2 乗した値の平均値の平方根です。

ポイントの計算

スコアリングは、トレーニング済みの機械学習モデルに新しいデータを適用し、予測を生成するプロセスです。 スコアリングは推論とも呼ばれます。 モデルの種類に応じて、スコアは場合によって、未処理の値、確率、またはカテゴリになります。

教師あり機械学習

機械学習の 1 つの手法であり、目的となるモデルが未知のデータのラベルを予測します。 例として、分類、回帰、構造化予測などがあります。 詳しくは、Wikipedia の教師あり学習の記事を参照してください。

トレーニング

特定のトレーニング データ セットのモデルを識別するプロセスです。 線形モデルの場合、重みの検出を意味します。 ツリーの場合、分割ポイントの識別が含まれます。

トランスフォーマー

ITransformer インターフェイスを実装する ML.NET クラス。

トランスフォーマーでは、ある IDataView が別のものに変換されます。 トランスフォーマーを作成するには、エスティメーターまたはエスティメーター パイプラインをトレーニングします。

教師なし機械学習

機械学習の 1 つの手法であり、目的となるモデルがデータの隠された (潜在的な) 構造を検出します。 例として、クラスタリング、トピック モデリング、次元削減などがあります。 詳しくは、Wikipedia の教師なし学習の記事を参照してください。