予測モデルのパフォーマンス
各トレーニングの後、AI Builder ではテスト データセットを使用して、新しいモデルの品質と精度を評価します。 モデルの概要ページには、モデルのトレーニング結果が表示されます。 これらの結果は、パフォーマンスグレード A、B、C、または D として表されます。
パフォーマンスの測定
パフォーマンス グレード
各トレーニングの後、AI Builder では、モデルの精度を評価するのに役立つグレードが表示されます。 モデルの発行準備ができているかどうかの決断は、ユーザーが独自のニーズと状況に基づいて行う必要があります。 AI Builder には、その判断に役立つ次のパフォーマンス グレードが用意されています。
各グレードの見方
グレード | ガイダンス |
---|---|
A | モデルを改善できる余地もありますが、これは取得できる最高グレードです。 |
B | 多くの場合でこのモデルは適切です。 モデルを改善できるかどうかは、 ユーザー独自の状況、データ、および要件によって異なります。 |
C | このモデルは、ランダム推測よりも多少優れています。 一部のアプリケーションでは許容できる可能性がありますが、ほとんどの場合、このモデルは調整と改善を続けることになります。 |
D | 何らかの問題があります。 モデルのパフォーマンスが、実行するランダムな推測で予想されるよりも悪い (アンダーフィット モデル)。 または、パフォーマンスが非常に高い (100% またはほぼ 100%) ため、結果に直接相関するデータ列が取得される可能性がある (オーバーフィット モデル)。 |
- アンダーフィット モデル についての詳細情報。
- オーバーフィット モデル についての詳細情報。
精度範囲はデータによって異なります
2 つ以上の結果を予測する場合、履歴データのデータ分布によっては、上記のグレードに対応する実際の精度が異なる場合があります。 この違いは、ベースラインを移動したときにベースライン レートを基準とした改善度合いが変化するという事実を説明するものです。
たとえば、出荷が時間どおりに到着したかどうかを予測するモデルがあるとします。 履歴データのオンタイム率が 80% の場合、92 のパフォーマンス スコアは B グレードに対応します。 しかし、履歴データのオンタイム率が 50% の場合は、92 は A グレードに対応します。 これは、80% から 92% への改善よりも 50% から 92% への改善の方がはるかに優れており、ランダム推測がそれらのパーセンテージに近いと予想されるためです。
バイナリ履歴データの例
次の例は、履歴データにバイナリ予測に対する異なるオンタイム率が含まれている場合の各グレードの精度範囲を示しています。
グレード | 履歴データのオンタイム率が 25% の精度範囲 | 履歴データのオンタイム率が 50% の精度範囲 | 履歴データのオンタイム率が 80% の精度範囲 | 履歴データのオンタイム率が 95% の精度範囲 |
---|---|---|---|---|
A | 92.5 – <99.3% | 90 – 98% | 93 – <99% | 98.1 – <99.8% |
B | 81.3 – <92.5% | 75 – <90% | 84 – <93% | 95.3 – <98.1% |
C | 66.3 – <81.3% | 55 – <75% | 71 – <84% | 91.5 – <95.3% |
D | <66.3% または ≥99.3% | <55% または ≥98% | <71% または ≥99% | <91.5% または ≥99.8% |
複数の結果の履歴データの例
2 つを超える結果を予測する場合、各グレードに対応する精度も異なります。 モデルが、2 つを超えるオプション: 早い、時間通り、遅い を予測するとします。
各グレードの精度の範囲は、過去のオンタイム レートが変化すると変わります。
グレード | 早い (33.3%) | 早い (20%) | 早い (10%) |
---|---|---|---|
時間どおり (33.3%) | 時間どおり (40%) | 時間どおり (80%) | |
遅い (33.4%) | 遅い (40%) | 遅い (10%) | |
A | 86.7 – <98.7% | 87.2 – <98.7% | 93.2 – <99.3% |
B | 66.7 – <86.7% | 68.0 – <87.2% | 83.0 – <93.2% |
C | 40.0 – <66.7% | 42.4 – <68.0% | 69.4 – <83.0% |
D | 33.3 – <40.0% | 36.0 – <42.4% | 66.0 – <69.4% |
数値予測の例
数値予測の場合、AI Builder は R-二乗の統計測度を使用して、モデルの精度グレードを計算します。 次の表は、各グレードに対応するグレードを示しています。
グレード | R 二乗 |
---|---|
A | 85% - <99% |
B | 60% - <85% |
C | 10% - <60% |
D | ≥99% または <10% |
パフォーマンスの詳細
トレーニングについての詳細は、モデルのグレード ボックスで 詳細を確認する を選択してください。 パフォーマンス タブで、次のパフォーマンス情報が使用できます。
Note
この分野で予定されているその他の機能について詳しくは、リリース計画 に関するページをご覧ください。
- 正確性スコア
- R 二乗
正確性スコア
AI Builder では、テスト データセットの予測結果に基づいて、モデルの正確性スコアを計算します。 トレーニングの前に、AI Builder ではデータ セットを個別のトレーニング データとテスト データセットに分割します。 また、トレーニングの後、AI Builder ではテスト データセットに AI モデルを適用し、精度スコアを計算します。 例: テスト データセットが 200 行ある場合、AI Builder はその 192 を正しく予測します。AI Builder は 96 パーセントの正確性スコアを示しています。
詳細については、モデルを評価する を参照してください。
R 二乗
数値予測の場合、AI Builder は各トレーニング後に R 二乗スコアを計算します。 このスコアは、モデルの '適合度' を測定し、モデルのパフォーマンス グレードを決定するために使用されます。
たとえば、注文の履行、出荷、配送までの日数を予測しているとします。 モデルでは、一連の数値が予測されます。 r 二乗値は、トレーニング データでの予測値と実際の値との距離に基づきます。 これは 0 から 100% の範囲の数値として表され、値が高いほど予測値が実際の値に近いことを示します。 通常、スコアが高いほど、モデルのパフォーマンスはよくなります。 ただし、完璧なスコアまたは完璧に近いスコア (オーバーフィット モデル) は、通常、トレーニング データに問題があることを示します。
概要 タブで、次のパフォーマンス情報が使用できます:
- トレーニング日
- データ ソース
- 過去の実績
- 予測の実行に使用されたテーブル リスト。
予測モデルのパフォーマンスを向上させる
モデルのトレーニングと評価が完了したら、次はモデルを微調整して、そのパフォーマンスを向上させます。 モデルの予測力の向上に役立つように試せることをいくつか以下に示します。
エラーと問題をレビューする
- トレーニングを完了した後エラーがある場合は、それらを修正し、モデルを再トレーニングします。
- エラーがない場合は、トレーニングの詳細を確認します。 できるだけ多くの問題を解決してみてから、モデルを再トレーニングします。
トップ インフルエンサーを確認する
各トレーニングの後、モデルの詳細ページにトップ インフルエンサーのリストが表示されます。 トレーニングで使用された各列には、トレーニングに対するその影響を表すスコアがあります。 これらのスコアは合計で 100% になります。
これは、モデルが予期したとおりトレーニングされているかどうかを示すのに役立ちます。 たとえば、オンライン ショッパーの意図を予測する必要があり、年齢、製品が最も影響力のある列であると予想している場合、モデルの詳細ページの最も影響力のある列リストにそれが表示されます。 そうでない場合は、トレーニング結果が予期したとおりでないことを示している可能性があります。 この場合は、無関係な列または紛らわしい列の選択を解除してモデルを再トレーニングするか、トレーニングの問題を確認してさらに詳細を表示することができます。
データをさらに追加する
トレーニング データの最小要件は 50 行ですが、これは 50 件のデータ行で高度な予測モデルをトレーニングすることを意味するものではありません。 オプション間の現実的な分散を使用して、正しくラベル付けされた、1,000 件以上のデータ行を提供してみてください。
データの分散を確認する
たとえば、はいまたはいいえの 2 つのオプション ラベルを使用していて、データ行のほとんどがこの列ではいになっている場合、モデルではこのデータから学習するのは困難です。 予期されるオプションの分散を大まかに反映する、データのオプションの分散を使用してみてください。 たとえば、cat_owner と dog_owner のデータ列を調べる場合は、50% 前後のデータ分散を使用します。 不正なトランザクションを調べる場合は、より不均衡な分散 (95% から 5% など) を使用します。 何を予期すべきかわからない場合は、この種の情報について、業界標準を参照してください。
さらに列を追加する
たとえば、製品を返品および購入する可能性が高い顧客を予測するとします。 さらに列を追加して、トレーニング データをより充実させることができます。 たとえば、次のようなものです。
- 顧客はどのように製品を評価しているか?
- 顧客は製品をどの程度使用しているか?
- 彼らは既存の顧客か?
選択された列を関連情報に絞り込む
多数のデータ列を含む、正しくラベル付けされた多くのトレーニング データが既にある場合があります。 それでもモデルが適切に動作しない可能性があるのはなぜでしょうか? 不要なバイアスをもたらす列を選択している可能性があります。 選択したすべての列が、予測したい内容への影響に関連することを確認してください。 無関係な列または紛らわしい列を選択解除します。
データの検証
- データ列の欠損値の割合が高く (99%超) ないことを確認します。 欠損値に既定データを設定するか、モデル トレーニングからデータ列を削除します。
- データ列の予測結果との相関関係が高い場合は、モデル トレーニングからそのデータ列を削除します。