Share via


生成 AI の評価と監視メトリック

Note

Azure AI Studio は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

Azure AI Studio を使用すると、シングルターンまたは複雑なマルチターン会話の評価を行ない、生成 AI モデルを特定のデータ (つまり検索拡張生成、RAG) の基礎にすることができます。 また、一般的な単一ターンの質問応答シナリオを評価することもできます。生成 AI モデル (非 RAG) をグランドするためにコンテキストが使用されません。 現在、次のタスク型に対する組み込みメトリックがサポートされています:

質問応答 (シングル ターン)

このセットアップでは、ユーザーが個別の質問やプロンプトを提起し、生成 AI モデルを使用した即座な応答の生成が行なわれます。

このテスト セット形式は、次のデータ形式に従います。

{"question":"Which tent is the most waterproof?","context":"From our product list, the Alpine Explorer tent is the most waterproof. The Adventure Dining Table has higher weight.","answer":"The Alpine Explorer Tent is the most waterproof.","ground_truth":"The Alpine Explorer Tent has the highest rainfly waterproof rating at 3000m"} 

Note

"context" フィールドと "ground truth" フィールドの使用はオプションであり、サポートされるメトリックは指定したフィールドによって異なります

会話 (シングル ターンとマルチ ターン)

このコンテキストでは、ユーザーは一連のターンまたは単一の交換を通じて、会話的な対話を行います。 検索メカニズムを備えた生成 AI モデルは、応答の生成に加え、ドキュメントなどの外部ソースからの情報にアクセスして、それ取り入れることができます。 検索拡張生成 (RAG) モデルは、外部のドキュメントや知識を使用することで、応答の品質と関連性を向上させます。

このテスト セット形式は、次のデータ形式に従います。

{"messages":[{"role":"user","content":"How can I check the status of my online order?"},{"content":"Hi Sarah Lee! To check the status of your online order for previous purchases such as the TrailMaster X4 Tent or the CozyNights Sleeping Bag, please refer to your email for order confirmation and tracking information. If you need further assistance, feel free to contact our customer support at support@contosotrek.com or give us a call at 1-800-555-1234.
","role":"assistant","context":{"citations":[{"id":"cHJvZHVjdF9pbmZvXzYubWQz","title":"Information about product item_number: 6","content":"# Information about product item_number: 6\n\nIt's essential to check local regulations before using the EcoFire Camping Stove, as some areas may have restrictions on open fires or require a specific type of stove.\n\n30) How do I clean and maintain the EcoFire Camping Stove?\n   To clean the EcoFire Camping Stove, allow it to cool completely, then wipe away any ash or debris with a brush or cloth. Store the stove in a dry place when not in use."}]}}]}

サポートされるメトリック

大規模言語モデルを評価するためのメソッド」で説明されているように、測定には手動および自動化されたアプローチがあります。 自動化された測定は、大規模に測定を行なう場合に有用で、対象の範囲を広げることで、より包括的な結果を提供できます。 また、システム、使用状況、軽減策の進化に伴う回帰を監視する継続的な測定にも役立ちます。

生成 AI アプリケーションの自動測定には、主に次の 2 つの手法がサポートされています。

  • 従来の機械学習メトリック
  • AI 支援メトリック

AI 支援測定では、GPT-4 などの言語モデルを活用して、AI によって生成されたコンテンツを評価します。特に、実測値が見つからないため予想される回答が利用できない状況で使用されます。 F1 スコアなどの従来の機械学習メトリックは、AI によって生成された応答と予想される回答の間で、精度と再現率を測定します。

Microsoft の AI 支援メトリックは、生成型 AI アプリケーションの安全性と生成品質を評価します。 これらのメトリックは、次の 2 つの異なるカテゴリに分類されます。

  • リスクと安全性に関するメトリック:

    これらのメトリックは、コンテンツとセキュリティの潜在的なリスクを特定し、生成されたコンテンツの安全性を確保することに焦点を当てています。

    具体的な内容を次に示します。

    • ヘイトフルおよび不公平なコンテンツの欠陥率
    • 性的コンテンツの欠陥率
    • 暴力的コンテンツの欠陥率
    • 自傷行為に関連するコンテンツの欠陥率
    • ジェイルブレイクの欠陥率
  • 生成品質に関するメトリック:

    これらのメトリックは、生成されたコンテンツの全体的な品質と一貫性を評価します。

    具体的な内容を次に示します。

    • 一貫性
    • 流暢性
    • 現実性
    • 関連性
    • 取得スコア
    • Similarity

上記のタスク型に対して、次の AI 支援メトリックがサポートされています。

タスクの種類 質問と生成された回答のみ (コンテキストまたは実測値は必要なし) 質問と生成された回答 + コンテキスト 質問と生成された回答 + コンテキスト + 実測値
質問応答 - リスクと安全性に関するメトリック (AI 支援全体): ヘイトフルおよび不公平なコンテンツの欠陥率、性的コンテンツの欠陥率、暴力的コンテンツの欠陥率、自傷行為関連コンテンツの欠陥率、ジェイルブレイクの欠陥率
- 生成品質に関するメトリック (AI 支援全体): 一貫性、流暢性
前の列のメトリック
+
生成品質に関するメトリック ( AI 支援全体):
- 現実性
- 関連性
前の列のメトリック
+
生成品質に関するメトリック:
類似性 (AI 支援)
F1 スコア (従来の ML メトリック)
会話 - リスクと安全性に関するメトリック (AI 支援全体): ヘイトフルおよび不公平なコンテンツの欠陥率、性的コンテンツの欠陥率、暴力的コンテンツの欠陥率、自傷行為関連コンテンツの欠陥率、ジェイルブレイクの欠陥率
- 生成品質に関するメトリック (AI 支援全体): 一貫性、流暢性
前の列のメトリック
+
生成品質に関するメトリック ( AI 支援全体):
- 現実性
- 検索スコア
該当なし

Note

提供されている包括的な組み込みメトリックのセットは、生成 AI アプリケーションの品質と安全性の簡単かつ効率的な評価を支援するものですが、これらは、特定のタスク型に合わせて適応およびカスタマイズするのがベストプラクティスです。 さらに、まったく新しいメトリックを導入し、新しい角度からアプリケーションを測定し、独自の目的に合わせて調整できるように支援しています。

リスクと安全性に関するメトリック

リスクと安全性に関するメトリックは、GitHub Copilot や Bing など、以前の大規模言語モデル プロジェクトから得られた分析情報を活用します。 これにより、生成された応答のリスクと安全性の重大度スコアについて評価するための、包括的なアプローチが保証されます。 これらのメトリックは、一連の LLM を活用する、Microsoft の安全評価サービスを通じて生成されます。 各モデルの役割は、応答の中に現れる可能性がある特定のリスク (性的コンテンツ、暴力コンテンツなど) を評価することです。 これらのモデルは、リスク定義と重大度スケールと合わせて提供され、それに応じて生成された会話に注釈を付けます。 現時点では、以下のリスクと安全メトリックに対して、"欠陥率" を計算しています。 これらのメトリックごとに、サービスは、対象となる種類のコンテンツが検出されたかどうかと、それらがどの程度の重大度レベルであるのかを測定します。 4 つの種類のそれぞれには、3 つの重大度レベル (非常に低、低、中、高) があります。 ユーザーは許容範囲のしきい値を指定し、サービスは、各しきい値レベル以上で生成されたインスタンスの数に対応した欠陥率を生成します。

コンテンツの種類:

  • ヘイトフルで不公平なコンテンツ
  • 性的なコンテンツ
  • 暴力的なコンテンツ
  • 自傷行為に関連するコンテンツ

上記の種類のコンテンツに加えて、評価全体の比較ビューにおいて、モデル応答の中にジェイルブレイクがどの程度あるかを測定するメトリックである、“ジェイルブレイクの欠陥率” もサポートしています。 ジェイルブレイクとは、モデルの応答がそれに課された制限をバイパスしている状態のことです。 またジェイルブレイクは、LLM が目的のタスクまたはトピックから逸脱した場合にも発生します。

ユーザーは、これらのリスクと安全性のメトリックを独自のデータについて測定したり、Azure AI SDK を使用して、生成 AI アプリケーションとのさまざまな攻撃的対話をシミュレートして、テスト用に出力したりできます (コンテンツ リスク データセットと呼ばれます)。 次に、このシミュレートされたテスト データセットの評価を行ない、コンテンツ リスクの重大度レベル (非常に低、低、中、高) で注釈されたテスト データセットを出力し、Azure AI でこの結果を表示できます。これは、テスト データセット全体の欠陥率と各コンテンツ リスクのラベルと理由に関する、実例的なビューを提供します。

表の中の他のメトリックとは異なり、ジェイルブレイクに対する脆弱性は、LLM による注釈では確実に測定できません。 ただし、ジェイルブレイクでの脆弱性は、2 つの異なる自動データセット、 (1) コンテンツ リスク データセットと、(2) 最初のターンでのジェイルブレイク インジェクションを含むコンテンツ リスク データセットを、比較することで測定できます。 その後、ユーザーは、2 つのデータセットのコンテンツ リスク欠陥率を比較することで、ジェイルブレイクの脆弱性を評価します。

Note

AI 支援によるリスクと安全性のメトリックは、Azure AI Studio の安全性評価バックエンド サービスによってホストされ、米国東部 2、フランス中部、英国南部、スウェーデン中部のリージョンでのみご使用になれます。

使用可能なリージョンの容量は次のとおりです。

リージョン TPM
スウェーデン中部 450k
フランス中部 380k
英国南部 280k
米国東部 2 80k

ヘイトフルで不公平なコンテンツの定義と重大度スケール

警告

コンテンツ リスクの定義と重大度スケールには、一部のユーザーを不愉快にする可能性のある説明が含まれています。

性的コンテンツの定義と重大度スケール

警告

コンテンツ リスクの定義と重大度スケールには、一部のユーザーを不愉快にする可能性のある説明が含まれています。

暴力的コンテンツの定義と重大度スケール

警告

コンテンツ リスクの定義と重大度スケールには、一部のユーザーを不愉快にする可能性のある説明が含まれています。

警告

コンテンツ リスクの定義と重大度スケールには、一部のユーザーを不愉快にする可能性のある説明が含まれています。

生成品質メトリック

生成品質メトリックは、生成 AI アプリケーションによって生成されるコンテンツの、全体的な品質を評価するために使用されます。 これらのメトリックに伴って生じる結果の内訳を次に示します。

AI 支援: グランド度

現実性のために、次の 2 つのバージョンが提供されています。

  • Azure AI Studio の安全性評価への統合を通じて、Azure AI Content Safety Service (AACS) を利用する現実性検出。 バックエンド サービスが、スコアとその理由付けを出力するためのモデルを提供するので、ユーザーからのデプロイは必要ありません。 現在サポートされているリージョンは、米国東部 2 とスウェーデン中部です。
  • スコアのみを出力するために独自のモデルを使用する、プロンプトのみに基づく現実性。 現在、すべてのリージョンでサポートされています。

AACS ベースの現実性

スコアの特性 スコアの詳細
スコアの範囲 1 から 5 (1 は現実性なし、5 は現実的)
このメトリックとは ソース データからの情報 (RAG の質問と回答で取得されたドキュメント、要約用のドキュメントなど) と、モデルで生成された回答がどの程度一致しているかを測定し、生成された特定の文に根拠がないことの理由を出力します。
それはどのように機能しますか? 現実性検出は、自然言語推論 (NLI) と呼ばれる自然言語処理タスク向けに微調整された、Azure AI Content Safety Service のカスタム言語モデルを活用します。これにより、主張の内容がソース ドキュメントに含まれているか、または含まれていないかが評価されます。 
使用するタイミング AI によって生成された応答が提供されたコンテキストに合わせて検証されることを確認する必要がある場合は、グランド度メトリックを使用します。 情報の取得、質問への回答、コンテンツの要約など、事実に基づく正確性とコンテキストの精度が重要なアプリケーションにとっては不可欠です。 このメトリックは、AI によって生成された回答がコンテキストで十分にサポートされることを保証します。
必要な入力 質問、コンテキスト、生成された回答

プロンプトのみに基づく現実性

スコアの特性 スコアの詳細
スコアの範囲 1 から 5 (1 は現実性なし、5 は現実的)
このメトリックとは モデルの生成した回答がソース データ (ユーザー定義のコンテキスト) からの情報とどの程度合致しているかが評価されます。
それはどのように機能しますか? グランド度の測定では、AI によって生成された回答の要求とソース コンテキストの間の対応を評価し、これらの要求がコンテキストによって実証されていることを確認します。 LLM からの応答が実際には正しい場合でも、指定されたソース (入力ソースやデータベースなど) に対して検証できない場合、それらはグランドではないと見なされます。
使用するタイミング AI によって生成された応答が提供されたコンテキストに合わせて検証されることを確認する必要がある場合は、グランド度メトリックを使用します。 情報の取得、質問への回答、コンテンツの要約など、事実に基づく正確性とコンテキストの精度が重要なアプリケーションにとっては不可欠です。 このメトリックは、AI によって生成された回答がコンテキストで十分にサポートされることを保証します。
必要な入力 質問、コンテキスト、生成された回答

このメトリックをスコア付けするために、大規模言語モデルによる判定で使用される組み込みのプロンプト:

You will be presented with a CONTEXT and an ANSWER about that CONTEXT. You need to decide whether the ANSWER is entailed by the CONTEXT by choosing one of the following rating: 

1. 5: The ANSWER follows logically from the information contained in the CONTEXT. 

2. 1: The ANSWER is logically false from the information contained in the CONTEXT. 

3. an integer score between 1 and 5 and if such integer score does not exist,  

use 1: It is not possible to determine whether the ANSWER is true or false without further information. 

Read the passage of information thoroughly and select the correct answer from the three answer labels. 

Read the CONTEXT thoroughly to ensure you know what the CONTEXT entails.  

Note the ANSWER is generated by a computer system, it can contain certain symbols, which should not be a negative factor in the evaluation. 

AI 支援: 関連性

スコアの特性 スコアの詳細
スコアの範囲 整数 [1 から 5]: 1 が悪いで、5 が良い
このメトリックとは モデルの生成された応答が、与えられた質問に対してどの程度適切で、直接的な関連性があるかを測定します。
それはどのように機能しますか? 関連性の測定では、コンテキストの重要なポイントをキャプチャする回答の能力を評価します。 高い関連性スコアは、入力に対する AI システムの理解と、一貫性のあるコンテキストに応じた適切な出力を生成する能力を示します。 逆に、関連性スコアが低い場合は、生成された応答がトピックと無関係か、コンテキストに欠けているか、ユーザーの意図したクエリに対処するのに不十分である可能性があることを示します。
使用するタイミング AI システムの入力を理解し、コンテキストに応じて適切な応答を生成するパフォーマンスを評価するときに関連性メトリックを使用します。
必要な入力 質問、コンテキスト、生成された回答

大規模言語モデルによる判定で、このメトリックをスコア付けするために使用される組み込みのプロンプト (質問応答のデータ形式の場合)。

Relevance measures how well the answer addresses the main aspects of the question, based on the context. Consider whether all and only the important aspects are contained in the answer when evaluating relevance. Given the context and question, score the relevance of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks relevance 

Two stars: the answer mostly lacks relevance 

Three stars: the answer is partially relevant 

Four stars: the answer is mostly relevant 

Five stars: the answer has perfect relevance 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

大規模言語モデルによる判定で、このメトリックをスコア付けするために使用される組み込みのプロンプト (会話データ形式の場合) (使用できる実測値なし)。

You will be provided a question, a conversation history, fetched documents related to the question and a response to the question in the {DOMAIN} domain. Your task is to evaluate the quality of the provided response by following the steps below:  
 
- Understand the context of the question based on the conversation history.  
 
- Generate a reference answer that is only based on the conversation history, question, and fetched documents. Don't generate the reference answer based on your own knowledge.  
 
- You need to rate the provided response according to the reference answer if it's available on a scale of 1 (poor) to 5 (excellent), based on the below criteria:  
 
5 - Ideal: The provided response includes all information necessary to answer the question based on the reference answer and conversation history. Please be strict about giving a 5 score.  
 
4 - Mostly Relevant: The provided response is mostly relevant, although it might be a little too narrow or too broad based on the reference answer and conversation history.  
 
3 - Somewhat Relevant: The provided response might be partly helpful but might be hard to read or contain other irrelevant content based on the reference answer and conversation history.  
 
2 - Barely Relevant: The provided response is barely relevant, perhaps shown as a last resort based on the reference answer and conversation history.  
 
1 - Completely Irrelevant: The provided response should never be used for answering this question based on the reference answer and conversation history.  
 
- You need to rate the provided response to be 5, if the reference answer can not be generated since no relevant documents were retrieved.  
 
- You need to first provide a scoring reason for the evaluation according to the above criteria, and then provide a score for the quality of the provided response.  
 
- You need to translate the provided response into English if it's in another language. 

- Your final response must include both the reference answer and the evaluation result. The evaluation result should be written in English.  

大規模言語モデルによる判定で、このメトリックをスコア付けするために使用される組み込みのプロンプト (会話データ形式の場合) (実測値あり)


Your task is to score the relevance between a generated answer and the question based on the ground truth answer in the range between 1 and 5, and please also provide the scoring reason.  
 
Your primary focus should be on determining whether the generated answer contains sufficient information to address the given question according to the ground truth answer.   
 
If the generated answer fails to provide enough relevant information or contains excessive extraneous information, then you should reduce the score accordingly.  
 
If the generated answer contradicts the ground truth answer, it will receive a low score of 1-2.   
 
For example, for question "Is the sky blue?", the ground truth answer is "Yes, the sky is blue." and the generated answer is "No, the sky is not blue.".   
 
In this example, the generated answer contradicts the ground truth answer by stating that the sky is not blue, when in fact it is blue.   
 
This inconsistency would result in a low score of 1-2, and the reason for the low score would reflect the contradiction between the generated answer and the ground truth answer.  
 
Please provide a clear reason for the low score, explaining how the generated answer contradicts the ground truth answer.  
 
Labeling standards are as following:  
 
5 - ideal, should include all information to answer the question comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
4 - mostly relevant, although it might be a little too narrow or too broad comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
3 - somewhat relevant, might be partly helpful but might be hard to read or contain other irrelevant content comparing to the ground truth answer, and the generated answer is consistent with the ground truth answer  
 
2 - barely relevant, perhaps shown as a last resort comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  
 
1 - completely irrelevant, should never be used for answering this question comparing to the ground truth answer, and the generated answer contradicts with the ground truth answer  

AI 支援: 一貫性

スコアの特性 スコアの詳細
スコアの範囲 整数 [1 から 5]: 1 が悪いで、5 が良い
このメトリックとは 言語モデルが流暢で、自然に読めて、人間の言葉に近い出力をどの程度上手く生成できるかが評価されます。
それはどのように機能しますか? 一貫性の測定は、言語モデルの応答が自然に読めて、流暢に流れ、人間の言葉に近いテキストを生成する能力を評価します。
使用するタイミング 実際のアプリケーションにおいてモデルの生成した応答の読みやすさと使いやすさをテストしたい場合に使用します。
必要な入力 質問、生成された回答

このメトリックをスコア付けするために、大規模言語モデルによる判定で使用される組み込みのプロンプト:

Coherence of an answer is measured by how well all the sentences fit together and sound naturally as a whole. Consider the overall quality of the answer when evaluating coherence. Given the question and answer, score the coherence of answer between one to five stars using the following rating scale: 

One star: the answer completely lacks coherence 

Two stars: the answer mostly lacks coherence 

Three stars: the answer is partially coherent 

Four stars: the answer is mostly coherent 

Five stars: the answer has perfect coherency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI 支援: 流暢性

スコアの特性 スコアの詳細
スコアの範囲 整数 [1 から 5]: 1 が悪いで、5 が良い
このメトリックとは 生成 AI の予測した回答の文法的な熟練度を測定します。
それはどのように機能しますか? 流暢性の測定では、生成されたテキストが文法規則、構文構造、および適切なボキャブラリ使用法にどの程度準拠しているかが評価され、言語的に正しい応答が得られます。
使用するタイミング これは、AI によって生成されたテキストの言語的正確性を評価するときに使用し、生成された応答で適切な文法規則、構文構造、およびボキャブラリの使用法に準拠していることを確認します。
必要な入力 質問、生成された回答

このメトリックをスコア付けするために、大規模言語モデルによる判定で使用される組み込みのプロンプト:

Fluency measures the quality of individual sentences in the answer, and whether they are well-written and grammatically correct. Consider the quality of individual sentences when evaluating fluency. Given the question and answer, score the fluency of the answer between one to five stars using the following rating scale: 

One star: the answer completely lacks fluency 

Two stars: the answer mostly lacks fluency 

Three stars: the answer is partially fluent 

Four stars: the answer is mostly fluent 

Five stars: the answer has perfect fluency 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

AI 支援: 取得スコア

スコアの特性 スコアの詳細
スコアの範囲 浮動 [1 から 5]: 1 が悪いで、5 が良い
このメトリックとは モデルの取得したドキュメントが、与えられた質問に対してどの程度適切で、直接的な関連性があるかを測定します。
それはどのように機能しますか? 取得スコアは、取得したドキュメントの品質とユーザーの質問との関連性を測定します (会話履歴全体に要約されます)。 手順: 手順 1: ユーザー クエリを意図に分割し、「Azure Linux VM と Azure Windows VM はいくら?」などのユーザー クエリから意図を抽出する -> 意図は、[“Azure Linux VM の価格は何ですか?”、“Azure Windows VM” の価格は何ですか?”] です。 手順 2: ユーザー クエリの意図ごとに、意図自体または意図に対する回答が存在するか、取得したドキュメントから推論できるかをモデルに評価するように依頼します。 回答は、“いいえ”、または “はい、ドキュメント [doc1]、[doc2]...” である可能性があります。 “はい” は、取得されたドキュメントが意図または回答に関連し、その逆もそうです。 手順 3: 答えが [“はい”] で始まる意図の割合を計算します。 この場合、すべての意図は同じ重要度を持っています。 手順 4: 最後に、スコアを 2 乗してミスにペナルティを与える。
使用するタイミング 取得したドキュメントがユーザーの質問に対して非常に関連性が高いことを保証したい場合は、取得スコアを使用します。 このスコアは、取得したコンテンツの品質と妥当性を保証するのに役立ちます。
必要な入力 質問、コンテキスト、生成された回答

このメトリックをスコア付けするために、大規模言語モデルによる判定で使用される組み込みのプロンプト:

A chat history between user and bot is shown below 

A list of documents is shown below in json format, and each document has one unique id.  

These listed documents are used as contex to answer the given question. 

The task is to score the relevance between the documents and the potential answer to the given question in the range of 1 to 5.  

1 means none of the documents is relevant to the question at all. 5 means either one of the document or combination of a few documents is ideal for answering the given question. 

Think through step by step: 

- Summarize each given document first 

- Determine the underlying intent of the given question, when the question is ambiguous, refer to the given chat history  

- Measure how suitable each document to the given question, list the document id and the corresponding relevance score.  

- Summarize the overall relevance of given list of documents to the given question after # Overall Reason, note that the answer to the question can soley from single document or a combination of multiple documents.  

- Finally, output "# Result" followed by a score from 1 to 5.  

  

# Question 

{{ query }} 

# Chat History 

{{ history }} 

# Documents 

---BEGIN RETRIEVED DOCUMENTS--- 

{{ FullBody }} 

---END RETRIEVED DOCUMENTS--- 

AI 支援: GPT-類似性

スコアの特性 スコアの詳細
スコアの範囲 整数 [1 から 5]: 1 が悪いで、5 が良い
このメトリックとは ソース データ (グラウンド トゥルース) 文と AI モデルによって生成された応答の類似性を測定します。
それはどのように機能しますか? GPT 類似性はグラウンド トゥルース文 (またはドキュメント) と AI モデルによって生成された予測文の類似性を評価します。 この計算では、グラウンド トゥルースとモデルの予測の両方に対して文レベルの埋め込みを作成します。これは、文のセマンティックな意味とコンテキストをキャプチャする高次元ベクトル表現です。
使用するタイミング グラウンド トゥルースの望ましい応答にアクセスできるテキスト生成タスクについて AI モデルのパフォーマンスを客観的に評価したい場合に使用します。 GPT 類似性を使用すると、生成されたテキストのセマンティックアラインメントを目的のコンテンツと評価し、モデルの品質と精度を測定できます。
必要な入力 質問、グラウンド トゥルースの回答、生成された回答

このメトリックをスコア付けするために、大規模言語モデルによる判定で使用される組み込みのプロンプト:

GPT-Similarity, as a metric, measures the similarity between the predicted answer and the correct answer. If the information and content in the predicted answer is similar or equivalent to the correct answer, then the value of the Equivalence metric should be high, else it should be low. Given the question, correct answer, and predicted answer, determine the value of Equivalence metric using the following rating scale: 

One star: the predicted answer is not at all similar to the correct answer 

Two stars: the predicted answer is mostly not similar to the correct answer 

Three stars: the predicted answer is somewhat similar to the correct answer 

Four stars: the predicted answer is mostly similar to the correct answer 

Five stars: the predicted answer is completely similar to the correct answer 

This rating value should always be an integer between 1 and 5. So the rating produced should be 1 or 2 or 3 or 4 or 5. 

従来の機械学習メトリック: F1 スコア

スコアの特性 スコアの詳細
スコアの範囲 浮動 [0-1]
このメトリックとは モデルの予測とグラウンド トゥルース回答の間で共有している単語数の割合を測定します。
それはどのように機能しますか? F-1 スコアはモデルの予測とグラウンド トゥルース回答の間で共有している単語数の割合を計算します。 生成された応答の個々の単語に対して、グラウンド トゥルースの答えの中の単語に対する比率が計算されます。 生成とトゥルースの間の共有単語の数は、F1 スコアの基礎です: 精度は、生成された単語の合計数に対する共有単語の数の比率であり、再現率は、グラウンド トゥルースの単語の合計数に対する共有単語の数の比率です。
使用するタイミング モデルの応答で再現率と精度の両方を組み合わせた 1 つの包括的なメトリックが必要な場合は、F1 スコアを使用します。 応答で正確な情報をキャプチャするという点で、モデルのパフォーマンスをバランスよく評価できます。
必要な入力 質問、グラウンド トゥルースの回答、生成された回答

次のステップ