重要な用語の機械学習用語集

次の一覧は、ML.NET でカスタムモデルを構築するときに役立つ重要な機械学習用語のコンパイルです。

精度

分類では、精度は、正しく分類された項目の数をテストセット内の項目の合計数で割った値です。 0 (最小精度) から 1 (最も正確) までの範囲です。精度は、モデルのパフォーマンスの評価メトリックの 1 つです。精度、再現率、F スコアと組み合わせて検討してください。

曲線の下の領域 (AUC)

二項分類では、偽陽性率 (x 軸) に対する真陽性率 (y 軸) をプロットする曲線の下の面積の値である評価メトリック。 0.5 (最低) から 1 (最適) までの範囲です。 ROC 曲線の下の面積とも呼ばれ、受信者動作特性曲線とも呼ばれます。詳細については、Wikipedia のレシーバーの動作特性記事を参照してください。

二項分類

分類、ラベルが 2 つのクラスのうちの 1 つだけである場合です。詳細については、機械学習タスクトピックの「二項分類」セクションを参照してください。

キャリブレーション

調整は、二項分類と多クラス分類のために、生のスコアをクラスメンバーシップにマッピングするプロセスです。一部の ML.NET トレーナーには、NonCalibrated サフィックスがあります。これらのアルゴリズムは生のスコアを生成し、その後、クラスの確率にマップする必要があります。

カタログ

ML.NET では、カタログは共通の目的でグループ化された拡張関数のコレクションです。

たとえば、各機械学習タスク (二項分類、回帰、ランク付けなど) には、使用可能な機械学習アルゴリズム (トレーナー) のカタログがあります。二項分類トレーナーのカタログは次のとおりです:BinaryClassificationCatalog.BinaryClassificationTrainers.

分類

データを使用してカテゴリを予測すると、教師あり機械学習タスク分類と呼ばれます。二項分類は、2 つのカテゴリのみを予測することを指します (たとえば、画像を 'cat' または 'dog' の画像として分類します)。多クラス分類は、複数のカテゴリを予測することを指します (たとえば、画像を特定の犬種の画像として分類する場合)。

決定係数

回帰では、データがモデルにどの程度適合するかを示す評価メトリック。範囲は 0 から 1 です。値が 0 の場合は、データがランダムであるか、それ以外の場合はモデルに適合できないことを意味します。値 1 は、モデルがデータと正確に一致することを意味します。これは、多くの場合、r²、R²、または r 2 乗と呼ばれます。

データ

データは、あらゆる機械学習アプリケーションの中心です。 ML.NET では、データは IDataView オブジェクトによって表されます。データビューオブジェクト:

は列と行で構成されます
は遅延評価されます。つまり、操作がデータを呼び出すときにのみデータを読み込みます。
には、各列の型、形式、長さを定義するスキーマが含まれています

推定

IEstimator<TTransformer> インターフェイスを実装する ML.NET 内のクラス。

推定器は、変換の仕様です (データ準備変換と機械学習モデルトレーニング変換の両方)。エスティメーターは、変換のパイプラインに連結できます。推定器または推定器のパイプラインのパラメーターは、Fit が呼び出されたときに学習されます。 Fit の結果は、トランスフォーマーです。

拡張メソッド

クラスの一部であるが、クラスの外部で定義されている .NET メソッド。拡張メソッドの最初のパラメーターは、拡張メソッドが属するクラスへの静的な this 参照です。

拡張メソッドは、推定器のインスタンスを構築するために、ML.NET で広く使用されています。

特徴

測定される現象の測定可能なプロパティ。通常は数値 (double) 値です。複数の特徴は、特徴ベクトル と呼ばれ、通常は double[]として格納されます。特徴は、測定される現象の重要な特性を定義します。詳細については、Wikipedia の機能記事を参照してください。

特徴エンジニアリング

特徴エンジニアリングとは、一連の特徴を定義し、利用可能な現象データ (特徴抽出) から特徴ベクトルを生成するソフトウェアを開発するプロセスです。詳細については、Wikipedia の特徴エンジニアリング記事を参照してください。

F スコア

分類では、精度と再現バランスを取る評価メトリック。

ハイパーパラメーター

機械学習アルゴリズムのパラメーター。たとえば、デシジョンフォレストで学習するツリーの数や、勾配降下アルゴリズムのステップサイズなどがあります。 ハイパーパラメーター の値は、モデルをトレーニングする前に設定され、予測関数のパラメーター (デシジョンツリー内の比較ポイントや線形回帰モデルの重みなど) を検索するプロセスを管理します。詳細については、Wikipedia のハイパーパラメーターに関する記事を参照してください。

ラベル

機械学習モデルで予測される要素。たとえば、犬の品種や将来の株価などです。

ログ損失

分類では、分類子の精度を特徴付けする評価メトリックです。ログ損失が小さいほど、分類子の精度が高くなります。

Loss 関数

損失関数は、トレーニングラベルの値とモデルによって行われた予測の差です。モデルのパラメーターは、損失関数を最小限に抑えることによって推定されます。

異なるトレーナーは、異なる損失機能で構成することができます。

平均絶対誤差 (MAE)

回帰では、すべてのモデルエラーの平均である評価メトリック。モデル誤差は、予測されたラベル値と正しいラベル値の間の距離です。

モデル

従来、予測関数のパラメーター。たとえば、線形回帰モデルの重み、デシジョンツリー内の分割ポイントなどです。 ML.NET では、モデルには、ドメインオブジェクトのラベルを予測するために必要なすべての情報 (画像やテキストなど) が含まれます。つまり、ML.NET モデルには、必要な特徴量化ステップと予測関数のパラメーターが含まれます。

多クラス分類

分類、ラベルが 3 つ以上のクラスのうちの 1 つである場合です。詳細については、機械学習タスクトピックの「多クラス分類」セクションを参照してください。

N-gram

テキストデータの特徴抽出スキーム: N 個の単語のシーケンスは、特徴値に変わります。

正常化

正規化は、浮動小数点データを 0 から 1 の間の値にスケーリングするプロセスです。 ML.NET で使用されるトレーニングアルゴリズムの多くは、入力特徴データを正規化する必要があります。 ML.NET では、正規化のための一連の変換が提供されます。

数値特徴ベクトル

数値のみで構成されるベクトル特徴。これは double[]に似ています。

パイプライン

モデルをデータセットに適合させるために必要なすべての操作。パイプラインは、データのインポート、変換、特徴付け、学習の手順で構成されます。パイプラインがトレーニングされると、モデルに変わります。

精度

分類では、クラスの精度は、そのクラスに属していると正しく予測された項目の数を、クラスに属すると予測された項目の合計数で割った値です。

思い出す

分類では、クラスの再現率は、そのクラスに属していると正しく予測された項目の数を、実際にクラスに属する項目の合計数で割った値です。

本格化

正則化は、複雑すぎるため、線形モデルを罰します。正則化には次の 2 種類があります。

$L_1$ 正則化では、重要でない特徴の重みがゼロになります。保存されたモデルのサイズは、この種の正則化の後に小さくなる可能性があります。
$L_2$ 正則化により、重要でない特徴の重みの範囲が最小限に抑えられます。これはより一般的なプロセスであり、外れ値の影響を受けにくくします。

回帰

教師あり機械学習タスク。出力は実際の値 (double など) です。たとえば、株価の予測などがあります。詳細については、機械学習タスクトピックの「回帰」セクションを参照してください。

相対絶対エラー

回帰では、すべての絶対誤差の合計を、正しいラベル値とすべての正しいラベル値の平均との距離の合計で割った評価メトリックです。

相対二乗誤差

回帰では、すべての二乗絶対誤差の合計を、正しいラベル値とすべての正しいラベル値の平均との間の二乗距離の合計で割った評価メトリックです。

平均二乗誤差の根 (RMSE)

回帰では、エラーの 2 乗の平均の平方根である評価メトリック。

採点

スコアリングは、トレーニング済みの機械学習モデルに新しいデータを適用し、予測を生成するプロセスです。スコアリングは推論とも呼ばれます。モデルの種類に応じて、スコアには生の値、確率、またはカテゴリを指定できます。

教師あり機械学習

目的のモデルが、まだ見えないデータのラベルを予測する機械学習のサブクラス。たとえば、分類、回帰、構造化予測などがあります。詳細については、Wikipedia の教師あり学習記事を参照してください。

訓練

特定のトレーニングデータセットのモデルを識別するプロセス。線形モデルの場合、これは重みを見つけることを意味します。ツリーの場合、分割ポイントの識別が含まれます。

変流器

ITransformer インターフェイスを実装する ML.NET クラス。

トランスフォーマーは、ある IDataView を別の IDataView に変換します。トランスフォーマーは、推定器または推定パイプラインをトレーニングすることによって作成されます。

教師なし機械学習

目的のモデルがデータ内の隠れた (または潜在的な) 構造を見つける機械学習のサブクラス。たとえば、クラスタリング、トピックモデリング、次元の削減などがあります。詳細については、Wikipedia の教師なし学習記事を参照してください。

フィードバック

このページはお役に立ちましたか?

Last updated on 2024-12-21