メトリックを使って ML.NET モデルを評価する

ML.NET モデルの評価に使用されるメトリックを理解します。

評価メトリックは、モデルによって実行される機械学習タスクの種類に固有です。

たとえば、分類タスクの場合、モデルは、予測されたカテゴリと実際のカテゴリがどの程度一致しているかを測定することで評価されます。 また、クラスタリングでの評価は、クラスター化された項目それぞれが相互にどのくらい近いか、またクラスターとクラスターの間がどれくらい離れているかに基づいています。

二項分類の評価メトリック

メトリック 説明 調査項目
精度 正確度は、テスト データ セットでの正しい予測の割合です。 これは、入力サンプルの総数に対する正しい予測数の比率です。 各クラスに属するサンプルの数が同様の場合に適しています。 1.00 に近いほど優れています。 ただし、ぴったりの 1.00 は問題を示しています (通常: ラベル/ターゲットの漏えい、過剰適合、またはトレーニング データによるテスト)。 テスト データのバランスが取れていない場合 (ほとんどのインスタンスがいずれかのクラスに属している場合)、データセットが小さいか、スコアが 0.00 または 1.00 に近く、正確度では実際に分類子の有効性がキャプチャされないので、追加のメトリックを確認する必要があります。
AUC aucROC または "曲線下面積" は、真陽性率と偽陽性率のスイープによって作成される曲線下面積を測定します。 1.00 に近いほど優れています。 モデルが許容されるには、0.50 より大きい必要があります。 AUC が 0.50 以下のモデルは役に立ちません。
AUCPR aucPR または "精度 - 再現率曲線の曲線下面積":クラスが不均衡な (非常に偏ったデータセット) 場合の予測の成功の役に立つ測定。 1.00 に近いほど優れています。 1\.00 に近い高スコアは、分類子が正確な結果を返していること (高精度) と、すべての肯定的な結果の大部分も返していること (高い再現率) を示します。
F1 スコア F1 スコアは "バランスの取れた F スコアまたは F メジャー" とも呼ばれます。 これは精度と再現率の調和平均です。 F1 スコアは、精度と再現率のバランスを取る場合に役立ちます。 1.00 に近いほど優れています。 F1 スコアは 1.00 で最高値に到達し、0.00 で最低スコアに到達します。 分類子の精度がわかります。

二項分類メトリックの詳細については、以下の記事を参照してください。

マルチクラス分類とテキスト分類の評価メトリクス

メトリック 説明 調査項目
マイクロ正確度 マイクロ平均正確度では、すべてのクラスのコントリビューションを集計して平均メトリックが計算されます。 正しく予測されたインスタンスの割合です。 マイクロ平均には、クラスのメンバーシップが考慮されません。 基本的に、すべてのサンプルとクラスのペアが、精度メトリックに均等に作用します。 1.00 に近いほど優れています。 マルチクラス分類タスクでは、クラスの不均衡があると思われる場合は、マクロ性格度よりもマイクロ性格度の方が望ましいです (あるクラスの例が他のクラスの例より多い場合など)。
マクロ正確度 マクロ平均正確度はクラス レベルの平均正確度です。 各クラスの正確度が計算され、マクロ正確度はこれらの正確度の平均です。 基本的に、すべてのクラスが、精度メトリックに均等に作用します。 少数派のクラスは、大規模なクラスと同じ重みが与えられています。 マクロ平均メトリックでは、データセットにそのクラスのインスタンスがいくつ含まれていても、各クラスに同じ重みが与えられます。 1.00 に近いほど優れています。 クラスごとに独立してメトリックを計算してから、平均を受け取ります (そのため、すべてのクラスを平等に扱います)。
対数損失 対数損失では、予測入力が 0.00 と 1.00 の間の確率値である分類モデルのパフォーマンスを測定します。 予測される確率が実際のラベルから分岐すると、対数損失が増加します。 0.00 に近いほど、優れています。 完璧なモデルの対数損失は 0.00 になります。 機械学習モデルの目的はこの値を最小にすることです。
対数損失の減少 対数損失の減少は、ランダム予測よりも優れている分類子の利点と解釈できます。 範囲は -inf から 1.00 です。ここで、1.00 は完璧な予測であり、0.00 は平均の予測を示します。 たとえば、値が 0.20 の場合、"正しい予測の確率は、ランダムな推測よりも 20% 優れている" と解釈できます。

マイクロ正確度は、一般に、ML 予測のビジネス ニーズにより適しています。 多クラス分類タスクの品質を選択するために 1 つのメトリックを選択する場合は、通常、それはマイクロ正確度です。

サポート チケット分類タスクの例: (受け取るチケットをサポート チームに割り当てる)

  • マイクロ正確度 — 受け取るチケットが適切なチームに分類される頻度はどのくらいですか。
  • マクロ正確度 — 平均的なチームの場合、受け取るチケットがそのチームにとって正しい頻度はどのくらいですか。

この例で、マクロ正確度は、小規模なチームには重すぎます。年間 10 枚のチケットのみを取得する小規模なチームが、チケットが年間 10,000 枚の大規模なチームと重要度が同じになります。 このケースのマイクロ正確度は、"チケット ルーティング プロセスを自動化することで、会社がどれくらいの時間/お金を節約できるか" というビジネス ニーズとより相関しています。

多クラス分類メトリックの詳細については、以下の記事を参照してください。

回帰とレコメンデーションの評価メトリック

回帰タスクとレコメンデーション タスクの両方によって数値が予測されます。 回帰の場合、この数値には、入力プロパティの影響を受ける任意の出力プロパティを指定できます。 レコメンデーションの場合、この数値は、通常、評価値 (たとえば 1 から 5) か、はい/いいえのレコメンデーション (1 と0 で表現) です。

メトリック 説明 調査項目
R-2 乗 R-2 乗 (R2)、または "決定係数" では、モデルの予測係数が -inf から 1.00 の間の値として表されます。 1.00 は完全な適合があることを意味します。適合は任意に低くなる可能性があるのでスコアはマイナスになることがあります。 0.00 のスコアは、モデルがラベルの期待値を推測していることを意味します。 負の R2 値は、適合がデータの傾向に合わないことを示し、モデルのパフォーマンスはランダムな推測より劣ります。 これは、非線形回帰モデルまたは制約付き線形回帰でのみ可能です。 R2 では、実際のテスト データ値が予測値にどのくらい近いかを測定します。 1.00 に近いほど、高品質です。 ただし、低い R-2 乗値 (0.50 など) がシナリオにとって完全に正常または十分である場合があり、高い R-2 乗値が常に優れているとは限らず、疑わしい場合もあります。
絶対損失 絶対損失または "平均絶対誤差 (MAE)" では、予測が実際の結果にどのくらい近いかを測定します。 これはすべてのモデルの誤差の平均です。モデルの誤差とは、予測されたラベル値と正確なラベル値の間の絶対的な距離です。 この予測の誤差は、テスト データ セットの各レコードに対して計算されます。 最後に、記録されたすべての絶対誤差について平均値が計算されます。 0.00 に近いほど、高品質です。 平均絶対誤差には、測定されるデータと同じスケールが使用されます (特定の範囲に正規化されません)。 絶対損失、2 乗損失、および RMS 損失は、同じデータセット、またはラベル値の分布が同様のデータセットのモデル間の比較にのみ使用できます。
2 乗損失 2 乗損失または "平均 2 乗誤差 (MSE)" ("平均 2 乗偏差 (MSD)" とも呼ばれます) で、回帰直線が一連のテスト データ値にどのくらい近いかがわかります。これを行うには、点から回帰直線までの距離 (これらの距離が誤差 E です) を受け取り、2 乗します。 2 乗すると、差が大きいほど、重みが大きくなります。 これは常に負以外であり、値が 0.00 に近いほど優れています。 データによっては、平均 2 乗誤差の値を非常に小さくすることができない場合があります。
RMS 損失 RMS 損失または "平均 2 乗誤差平方根 (RMSE)" ("平均 2 乗偏差平方根 (RMSD)" とも呼ばれます) では、モデルによって予測された値と、モデル化されている環境から観察された値の差を測定します。 RMS 損失は 2 乗損失の平方根であり、ラベルと単位が同じです。絶対損失と似ていますが、差が大きいほど、重みが大きくなります。 平均 2 乗誤差平方根は、一般的に、気候学、予測、および回帰分析で実験結果を検証するために使用されます。 これは常に負以外であり、値が 0.00 に近いほど優れています。 RMSD は、スケールに依存するため、データセット間ではなく、特定のデータセットに対する異なるモデルの予測誤差を比較するための正確度の測定です。

回帰メトリックの詳細については、以下の記事を参照してください。

クラスタリングの評価メトリック

メトリック 説明 調査項目
平均距離 データ ポイントと割り当てられたクラスターの中心との距離の平均です。 平均距離は、データ ポイントからクラスターの重心までの近接度を表す測定値です。 これはクラスターがどのくらい "密" であるかを測定します。 0 に近い値ほど適当。 平均距離がゼロに近いほど、データのクラスター化が進んでいることになります。 ただし、クラスター数が増加すると、このメトリックは減少することに注意してください。極端な場合 (個々のデータ ポイントがそれぞれ独自のクラスターである場合)、これはゼロになります。
Davies-Bouldin インデックス クラスター内の距離とクラスター間の距離の平均比率です。 クラスター自体が密であるほど、またクラスター間が離れるほど、この値は小さくなります。 0 に近い値ほど適当。 クラスター同士が相互に離れていて、それほど分散していないと、スコアが良くなります。
正規化された相互情報量 クラスタリング モデルのトレーニングに使用されるトレーニング データに、グラウンド トゥルース ラベル (つまり監視対象クラスタリング) も含まれている場合に使用できます。 正規化された相互情報量メトリックは、類似のデータ ポイントが同じクラスターに割り当てられ、異なるデータ ポイントがそれぞれ別のクラスターに割り当てられるかどうかを測定します。 正規化された相互情報量は 0 から 1 の値です。 1 に近いほど、良い値です。

ランク付けの評価メトリック

メトリック 説明 調査項目
Discounted Cumulative Gain Discounted Cumulative Gain (DCG) は、ランク付けの質を表す測定値です。 これは 2 つの前提から派生しています。 1 つは関連性の高い項目がランキングで高い順位に表示されると、より便利であるということです。 そしてもう 1 つは、有用性は常に関連性と関係している点です。つまり、関連性が高いほど、項目の利便性が高まります。 Discounted Cumulative Gain は、ランキングにおける特定の位置に対して計算され、 ランク付けインデックスの対数で割った関連性グレードを、対象となる位置まで合計します。 これは $\sum_{i=0}^{p} \frac {rel_i} {\log_{e}{i+1}}$ を使用して計算されます。関連性グレードは、グラウンド トゥルース ラベルとして、ランク付けトレーニング アルゴリズムに提供されます。 ランキング テーブルの位置ごとに 1 つの DCG 値が提供されるため、Discounted Cumulative Gain (利得) という名前が付けられています。 大きいほど、良い値です。
Normalized Discounted Cumulative Gains DCG を正規化すると、さまざまな長さのランク付けリストでメトリックを比較できるようになります。 1 に近い値ほど適当

異常検出の評価メトリック

メトリック 説明 調査項目
Area Under ROC Curve 受信者動作曲線下面積は、異常なデータ ポイントと通常のデータ ポイントがモデルによってどの程度切り離されているかを測定します。 1 に近い値ほど適当。 0.5 より大きい値のみが、モデルの効果を示します。 0.5 以下の値は、モデルが入力を異常なカテゴリと通常のカテゴリに、ランダムに割り当てているにすぎないことを示します。
擬陽性数での検出率 擬陽性数での検出率は、テスト セットで正しく特定された異常の数と異常総数の比率で、擬陽性ごとにインデックスが付けられます。 つまり、擬陽性項目ごとに、擬陽性数での検出率の値が存在します。 1 に近い値ほど適当。 擬陽性がない場合、この値は 1 になります。

文の類似性に関する評価メトリクス

メトリック 説明 調査項目
ピアソンの相関関係 ピアソンの相関関係 (相関係数とも呼ばれます) は、2 つのデータ セット間の依存関係またはリレーションシップを測定します。 絶対値が 1 に近いほど似ています。 このメトリックの範囲は -1 から 1 です。 絶対値が 1 の場合、データセットが同一であることを意味します。 値が 0 の場合、2 つのデータ セット間にリレーションシップがないことを意味します。