JavaScript でチャットアプリの回答を評価する

[アーティクル]
02/07/2024

この記事では、チャットアプリの回答を正しい回答または理想的な回答 (グラウンドトゥルースと呼ばれる) のセットと比較して評価する方法について説明します。回答に影響を与えるような方法でチャットアプリケーションを変更するたびに、評価を実行して変更を比較します。このデモアプリケーションでは、評価を簡単に実行できるツールを提供しています。

この記事の手順に従うことで、次の操作を行います。

関心領域に合わせて調整したサンプルプロンプトを使用します。これらのプロンプトは既にリポジトリにあります。
独自のドキュメントから、ユーザーへのサンプルの質問とそれらのグラウンドトゥルースの回答を生成します。
生成されたユーザーへの質問を含むサンプルプロンプトを使用して評価を実行します。
回答の分析を確認します。

アーキテクチャの概要

アーキテクチャの主なコンポーネントは次のとおりです:

Azure ホステッドチャットアプリ: チャットアプリは Azure App Service で実行されます。チャットアプリはチャットプロトコルに準拠しているため、このプロトコルに準拠する任意のチャットアプリに対して評価を実行できます。
Azure AI Search: チャットアプリは Azure AI Search を使用して、独自のドキュメントのデータを保存します。
サンプル質問生成ツール: ドキュメントごとに複数の質問とそれらのグラウンドトゥルースを生成できます。質問が多いほど、評価時間は長くなります。
評価ツール は、サンプルの質問とプロンプトをチャットアプリに対して実行し、結果を返します。
確認ツール により、評価の結果を確認できます。
差分ツール により、評価間で回答を比較できます。

前提条件

Azure のサブスクリプション。無料で作成できます
目的の Azure サブスクリプション内の Azure OpenAI に付与されたアクセス権。

現時点では、このサービスへのアクセスは申請によってのみ許可されます。 Azure OpenAI へのアクセスを申請するには、 https://aka.ms/oai/accessのフォームに入力してください。
前述のチャットアプリの手順を完了して、チャットアプリを Azure にデプロイします。この手順では、データを Azure AI Search リソースに読み込みます。このリソースは、評価が機能するために必要です。前の手順の「リソースのクリーンアップ」セクションを完了しないでください。

そのデプロイ (この記事では チャットアプリ と呼んでいます) から次の Azure リソース情報が必要になります。
- Web API URI: デプロイしたチャットアプリ API の URI。
- Azure AI Search。次の値が必要です。
  - リソース名: Azure AI Search リソースの名前。
  - インデックス名: ドキュメントが保存されている Azure AI Search インデックスの名前。
  - クエリキー: Search インデックスに対してクエリを実行するためのキー。
- チャットアプリが認証を求める場合は、評価アプリがチャットアプリにアクセスできるように、ユーザー認証を無効にしておく必要があります。
これらの情報を収集したら、もう チャットアプリ の開発環境を使用する必要はありません。ただし、この記事の後半で、 チャットアプリ を 評価アプリがどのように利用するかを示すために、チャットアプリについて言及します。この記事の手順をすべて完了するまでは、 チャットアプリ のリソースを削除しないでください。
開発コンテナー環境は、この記事を完了するために必要なすべての依存関係と共に使用できます。開発コンテナーは、(ブラウザーで) GitHub Codespaces で実行することも、Visual Studio Code を使用してローカルで実行することもできます。
- Codespaces (推奨)
- Visual Studio Code
- GitHub アカウント
- Azure Developer CLI
- Docker Desktop - Docker Desktop がまだ実行されていない場合は起動します
- Visual Studio Code
- 開発コンテナー拡張機能

開発環境を開く

この記事を完了するため、すべての依存関係がインストールされている開発環境から始めます。このドキュメントと開発環境の両方を同時に表示できるように、モニターのワークスペースを配置する必要があります。

GitHub Codespaces (推奨)
Visual Studio Code

GitHub Codespaces は、 Visual Studio Code for the Web をユーザーインターフェイスとして使用して、GitHub によって管理される開発コンテナーを実行します。最も簡単な開発環境では、GitHub Codespaces を使用して、この記事を完了するために正しい開発者ツールと依存関係がプレインストールされるようにします。

重要

すべての GitHub アカウントでは、2 つのコアインスタンスで毎月最大 60 時間無料で Codespaces を使用できます。詳細については、「GitHub Codespaces に月単位で含まれるストレージとコア時間」を参照してください。

main GitHub リポジトリの Azure-Samples/ai-rag-chat-evaluator ブランチに新しい GitHub Codespace を作成するプロセスを開始します。
次のボタンを右クリックします。 [リンクを新しいウィンドウで開く] を選択して、開発環境とドキュメントを同時に表示できるようにします。

GitHub Codespaces でこのプロジェクトを開く
[codespace の作成] ページで、codespace の構成設定を確認した後に、 [新しい codespace の作成]を選択します
Codespace が起動するまで待ちます。この起動プロセスには数分かかることがあります。
画面の下部にあるターミナルで、Azure Developer CLI を使用して Azure にサインインします。
```
azd auth login --use-device-code
```
ターミナルからコードをコピーし、ブラウザーに貼り付けます。手順に従って、Azure アカウントで認証します。
評価アプリに必要な Azure リソース、Azure OpenAI をプロビジョニングします。
```
azd up
```
これにより、評価アプリはデプロイされませんが、開発環境で Azure OpenAI リソースが作成されます。このリソースには、評価アプリをローカルで実行するために必要な GPT-4 のデプロイが含まれます。
この記事の残りのタスクは、この開発コンテナーのコンテキストで行われます。
GitHub リポジトリの名前が検索バーに表示されます。これは、この評価アプリとチャットアプリを区別するのに役立ちます。この記事では、この ai-rag-chat-evaluator リポジトリを 評価アプリ と呼んでいます。

Visual Studio Code の Dev Containers 拡張機能では、ローカルマシンに Docker がインストールされている必要があります。この拡張機能では、Docker ホストを使用して開発コンテナーをローカルにホストし、適切な開発者ツールと依存関係をプレインストールして、この記事を完成させます。

Azure-Samples/ai-rag-chat-evaluator GitHub リポジトリをローカルマシンに複製します。
```
git clone https://github.com/Azure-Samples/ai-rag-chat-evaluator
```
複製したリポジトリのコンテキストで Visual Studio Code を開きます。
```
cd ai-rag-chat-evaluator
code .
```
Visual Studio Code に Dev Containers 拡張機能がインストールされていることを確認します。
[コマンドパレット] を開き、 Dev Containers コマンドを検索し、 [Dev Containers: コンテナーで再度開く (Reopen in Container)] を選択します。

ヒント

Visual Studio Code では、開発コンテナー内で既存のフォルダーを再度開くよう自動的に求められる場合があります。これは、コマンドパレットを使用してコンテナー内で現在のワークスペースを再度開くのと機能的には同じです。
画面の下部にあるターミナルで、Azure Developer CLI を使用して Azure にサインインします。
```
azd auth login --use-device-code
```
手順に従って、Azure アカウントで認証します。
評価アプリに必要な Azure リソース、Azure OpenAI をプロビジョニングします。
```
azd up
```
これにより、評価アプリはデプロイされませんが、 Azure OpenAI リソースが作成されます。このリソースは、評価アプリを開発環境でローカルに実行するために必要になります。
このプロジェクトの残りの演習は、この開発コンテナーのコンテキストで行われます。
GitHub リポジトリの名前が Visual Studio Code の左下隅に表示されます。これは、この評価アプリとチャットアプリを区別するのに役立ちます。この記事では、この ai-rag-chat-evaluator リポジトリを 評価アプリ と呼んでいます。

環境値と構成情報を準備する

評価アプリ用に前提条件で収集した情報を使用して、環境値と構成情報を更新します。

次のコマンドを使用して、評価アプリのリソース情報を .env ファイルに取り込みます。
```
azd env get-values > .env
```
チャットアプリ からの、その Azure AI Search インスタンスに対する次の値を .env に追加します。これらの値は、前提条件のセクションで収集したものです。
```
AZURE_SEARCH_SERVICE="<service-name>"
AZURE_SEARCH_INDEX="<index-name>"
AZURE_SEARCH_KEY="<query-key>"
```
AZURE_SEARCH_KEY 値は Azure AI Search インスタンスに対する クエリキー です。
評価アプリ のルートフォルダーにある example_config.json ファイルを新しいファイル my_config.jsonにコピーします。

my_config.json の既存の内容を次の内容に置き換えます。

{
    "testdata_path": "my_input/qa.jsonl",
    "results_dir": "my_results/experiment<TIMESTAMP>",
    "target_url": "http://localhost:50505/chat",
    "target_parameters": {
        "overrides": {
            "semantic_ranker": false,
            "prompt_template": "<READFILE>my_input/prompt_refined.txt"
        }
    }
}

target_url を チャットアプリからの URI 値に変更します。この値は、前提条件のセクションで収集したものです。チャットアプリはチャットプロトコルに準拠している必要があります。 URI の形式は https://CHAT-APP-URL/chat です。プロトコルと chat ルートが URI の一部であることを確認してください。

サンプルデータを作成する

新しい回答を評価するには、特定の質問に対する理想的な回答である「グラウンドトゥルース」回答と比較する必要があります。 チャットアプリ用に Azure AI Search に保存されているドキュメントから質問と回答を生成します。

example_input フォルダーをmy_inputという名前の新しいフォルダーにコピーします。
ターミナルで、次のコマンドを実行してサンプルデータを生成します。
```
python3 -m scripts generate --output=my_input/qa.jsonl --numquestions=14 --persource=2
```

質問と回答のペアが生成され、次のステップで使用される評価ツールへの入力として my_input/qa.jsonl (JSONL 形式) に保存されます。本番の評価では、このデータセットに対してより多くの QA ペア (おそらく 200 を超える) を生成することになります。

Note

ソースごとの質問と回答の数が少ないのは、この手順をすばやく完了できるようにするためです。これは本番の評価を意図したものではなく、本番の評価ではソースごとにより多くの質問と回答が必要になります。

調整したプロンプトを使用して最初の評価を実行する

my_config.json 構成ファイルのプロパティを編集します。

results_dir を変更して、プロンプトの名前 my_results/experiment_refined を含めるようにします。
prompt_template を <READFILE>my_input/experiment_refined.txt に変更して、調整したプロンプトテンプレートが評価で使用されるようにします。

調整したプロンプトは関心領域について非常に具体的です。

If there isn't enough information below, say you don't know. Do not generate answers that don't use the sources below. If asking a clarifying question to the user would help, ask the question.

Use clear and concise language and write in a confident yet friendly tone. In your answers ensure the employee understands how your response connects to the information in the sources and include all citations necessary to help the employee validate the answer provided.

For tabular information return it as an html table. Do not return markdown format. If the question is not in English, answer in the language used in the question.

Each source has a name followed by colon and the actual information, always include the source name for each fact you use in the response. Use square brackets to reference the source, e.g. [info1.txt]. Don't combine sources, list each source separately, e.g. [info1.txt][info2.pdf].

ターミナルで、次のコマンドを実行して評価を実行します。
```
python3 -m scripts evaluate --config=my_config.json --numquestions=14
```
これにより、評価を含む新しい実験フォルダーが my_results に作成されました。このフォルダーには、次のような評価結果が含まれています。
- eval_results.jsonl: 各質問と回答、および各 QA ペアの GPT メトリック。
- summary.json: 平均 GPT メトリックなどの全体的な結果。

質の低いプロンプトを使用して 2 つ目の評価を実行する

my_config.json 構成ファイルのプロパティを編集します。
- results_dir を my_results/experiment_weak に変更します。
- 質の低いプロンプトテンプレートを次の評価で使用するために、 prompt_template を <READFILE>my_input/prompt_weak.txt に変更します。
その質の低いプロンプトには、関心領域に関するコンテキストがありません。
```
You are a helpful assistant.
```
ターミナルで、次のコマンドを実行して評価を実行します。
```
python3 -m scripts evaluate --config=my_config.json --numquestions=14
```

特定の温度で 3 つ目の評価を実行する

より創造的な回答を得るためのプロンプトを使用します。

my_config.json 構成ファイルのプロパティを編集します。
- results_dir を my_results/experiment_ignoresources_temp09 に変更します。
- prompt_template を <READFILE>my_input/prompt_ignoresources.txt に変更します。
- 新しい設定として、 "temperature": 0.9 を追加します (既定の温度は 0.7 です)。温度が高いほど、回答はより創造的になります。
無視を指示する短いプロンプト:
```
Your job is to answer questions to the best of your ability. You will be given sources but you should IGNORE them. Be creative!
```

構成オブジェクトは次のようにしますが、 results_dirは独自のものを使用してください。

{
    "testdata_path": "my_input/qa.jsonl",
    "results_dir": "my_results/experiment_ignoresources_temp09",
    "target_url": "https://YOUR-CHAT-APP/chat",
    "target_parameters": {
        "overrides": {
            "temperature": 0.9,
            "semantic_ranker": false,
            "prompt_template": "<READFILE>my_input/prompt_ignoresources.txt"
        }
    }
}

ターミナルで、次のコマンドを実行して評価を実行します。
```
python3 -m scripts evaluate --config=my_config.json --numquestions=14
```

評価の結果を確認する

さまざまなプロンプトとアプリ設定に基づいて 3 つの評価を実行しました。結果は my_results フォルダーに保存されています。設定に基づいて結果がどのように異なるかを確認します。

確認ツールを使用して、評価の結果を確認します。
```
python3 -m review_tools summary my_results
```
結果は、次のようになります。

各値は数値とパーセンテージとして返されます。

以下の表を使用して、値の意味を理解します。

Value	説明
現実性	これは、モデルの回答がどの程度、事実に基づいた検証可能な情報に基づいているかを指します。回答が事実に基づき現実を反映している場合、その回答は根拠があると見なされます。
関連性	これは、モデルの回答がどの程度、コンテキストまたはプロンプトに関連しているかを指します。回答がユーザーの質問や発言に過不足なく対処している場合、関連性があると見なされます。
一貫性	これは、モデルの回答がどの程度、論理的に一貫しているかを指します。回答が一貫していて論理的な流れを保っている場合、矛盾しないと見なされます。
引用	これは、モデルの回答がどの程度、プロンプトで求められた形式で返されたかを指します。
Length	これは、モデルの回答の長さを測るものです。

結果として、3 つのすべての評価で関連性が高くなったものの、 experiment_ignoresources_temp09 の関連性が最も低くなりました。
評価の構成を表示するフォルダーを選択します。
Ctrl + C を入力してアプリを終了し、ターミナルに戻ります。

回答を比較する

評価から返された回答を比較します。

比較する評価を 2 つ選択し、同じ評価ツールを使用して回答を比較します。

python3 -m review_tools diff my_results/experiment_refined my_results/experiment_ignoresources_temp09

結果を確認します。
Ctrl + C を入力してアプリを終了し、ターミナルに戻ります。

さらなる評価のための提案

my_input のプロンプトを編集して、関心領域や長さなど、回答をカスタマイズします。
my_config.json ファイルを編集して、 temperature や semantic_ranker などのパラメーターを変更し、実験を再実行します。
さまざまな回答を比較して、プロンプトと質問が回答の質にどのような影響を与えるかを理解します。
Azure AI Search インデックス内のドキュメントごとに、質問とグラウンドトゥルースの回答の個別のセットを生成します。その後、評価を再実行して、回答がどのように異なるかを確認します。
プロンプトの最後に要件を追加することで、より短いまたは長い回答を示すようにプロンプトを変更します。たとえば、 Please answer in about 3 sentences.のように指定します。

リソースをクリーンアップする

Azure リソースをクリーンアップする

この記事で作成した Azure リソースは、Azure サブスクリプションに課金されます。今後これらのリソースが必要になるとは思わない場合は、削除して、より多くの料金が発生しないようにします。

次の Azure Developer CLI コマンドを実行して、Azure リソースを削除し、ソースコードを削除します:

azd down --purge

GitHub Codespaces 環境を削除すると、アカウントに対して取得するコアごとの無料時間エンタイトルメントの量を最大化できることが保証されます。

重要

GitHub アカウントのエンタイトルメントの詳細については、「 GitHub Codespaces に月単位で含まれるストレージとコア時間」を参照してください。

GitHub Codespaces ダッシュボード (https://github.com/codespaces) にサインインします。
Azure-Samples/ai-rag-chat-evaluator GitHub リポジトリをソースとして現在実行中の Codespaces を見つけます。
codespace のコンテキストメニューを開いた後に、 [削除]を選択します。

チャットアプリの記事に戻り、それらのリソースをクリーンアップします。

次のステップ

評価リポジトリ
エンタープライズチャットアプリの GitHub リポジトリ
ベストプラクティスソリューションアーキテクチャを使用して Azure OpenAI でチャットアプリを構築する
Azure AI 検索を使用した生成 AI アプリでのアクセス制御
Azure API Management を使用してエンタープライズ対応の OpenAI ソリューションを構築する
ハイブリッド検索とランク付け機能を使用した優れたベクトル検索

Share via

JavaScript でチャットアプリの回答を評価する

アーキテクチャの概要

前提条件

開発環境を開く

環境値と構成情報を準備する

サンプルデータを作成する

調整したプロンプトを使用して最初の評価を実行する

質の低いプロンプトを使用して 2 つ目の評価を実行する

特定の温度で 3 つ目の評価を実行する

評価の結果を確認する

回答を比較する

さらなる評価のための提案

リソースをクリーンアップする

Azure リソースをクリーンアップする

GitHub Codespaces をクリーンアップする

次のステップ

フィードバック

フィードバック

その他のリソース

Share via

JavaScript でチャット アプリの回答を評価する

アーキテクチャの概要

前提条件

開発環境を開く

環境値と構成情報を準備する

サンプル データを作成する

調整したプロンプトを使用して最初の評価を実行する

質の低いプロンプトを使用して 2 つ目の評価を実行する

特定の温度で 3 つ目の評価を実行する

評価の結果を確認する

回答を比較する

さらなる評価のための提案

リソースをクリーンアップする

Azure リソースをクリーンアップする

GitHub Codespaces をクリーンアップする

次のステップ

フィードバック

フィードバック

その他のリソース

JavaScript でチャットアプリの回答を評価する

サンプルデータを作成する