この記事では、Copilot Studioの分析機能で使用される AI 機能についてよく寄せられる質問に回答します。
ジェネレーティブ AI は分析にどのように使用されますか?
Copilot Studioでは、AI を使用して生成応答の品質を評価し、クラスタリングを使用してユーザー クエリのパターンを識別します。 これらのクラスターは、エージェントのパフォーマンスに関する分析情報を提供します。
生成応答では、 選択したナレッジ ソースを使用して応答を生成します。 この機能では、提供したフィードバックも収集されます。 分析では、大規模な言語モデル (LLM) を使用して、ユーザーとエージェント間のチャット メッセージを生成応答の品質を示すレベルに分類します。 これらの分類は、エージェントのパフォーマンスの概要を提供するために集計されます。
クラスタリングは LLM を使用して、ユーザーのメッセージを共通の主題に基づいてグループに分類し、各グループに説明的な名前を付けます。 Copilot Studio では、これらのクラスターの名前を使用して、エージェントの改善に使用できるさまざまな種類の分析情報を提供します。
生成回答の応答の品質
応答の品質の用途は何ですか?
応答分析の品質を使用して、エージェントのパフォーマンスを理解し、改善点を特定します。 現時点では、分析を使用して、エージェントの生成応答の品質が期待値を満たしているかどうかを把握できます。
全体的な品質に加えて、応答分析の品質は、エージェントのパフォーマンスが低い、または目的の目標を実行できない領域を識別します。 生成的な回答のパフォーマンスが低い場所を特定し、その品質を向上させるための手順を実行します。
パフォーマンスの低下を特定する場合は、品質の向上に役立つベスト プラクティスに従ってください。 たとえば、パフォーマンスの低いナレッジ ソースを特定した後は、ナレッジ ソースを編集したり、ナレッジ ソースを複数のより重点的なソースに分割して品質を向上させることができます。
応答の品質に関する分析を作成するために使用されるデータは何ですか?
応答分析の品質は、 生成的な回答 の相互作用のサンプルに基づいています。 これには、ユーザー クエリ、エージェント応答、および生成モデルが生成応答に使用する関連するナレッジ ソースが必要です。 応答分析の品質では、その情報を使用して、生成応答の品質が良好かどうか、そうでない場合は品質が低い理由を評価します。 たとえば、応答の質によって、不完全な応答、関連性のない応答、あるいは十分に根拠付けられていない応答を特定できます。
応答分析の品質にはどのような制限があり、ユーザーはこれらの制限の影響を最小限に抑えることができますか?
応答分析の品質では、生成されたすべての応答が使用されるわけではありません。 代わりに、分析はユーザー エージェント セッションのサンプルを測定します。 生成応答の成功数が最小数未満のエージェントは、品質の応答分析の概要を受け取ることはできません。
分析では個々の応答が正確に評価されない場合があります。 集計レベルでは、ほとんどのケースで正確である必要があります。
応答の質分析は、低品質パフォーマンスを引き起こした具体的なクエリの内訳を提供しません。 また、低品質な回答が発生した際に使用された、一般的なナレッジソースやトピックの内訳も提供していません。
生成的な知識を使用する回答については、分析は計算されません。
回答の完全性は回答の質を評価する指標の一つです。 この指標は、回答が検索された文書の内容にどれだけ完全に対応しているかを測定します。
もしシステムが質問に追加情報を含む関連文書を取得しなければ、その文書の完全性指標は評価されません。
責任ある AI のために、Copilot Studio 内で応答分析の品質に対してどのような保護が実施されていますか?
エージェントのユーザーには分析結果が表示されません。 結果は、エージェント作成者と管理者のみが使用できます。
作成者と管理者は、応答の品質に関する分析機能を使用して、良質な回答の割合と、低品質な回答の事前定義された理由を確認することのみが可能です。 結果は集計され、パーセンテージと定義済みのカテゴリとして表示されます。
開発時に応答の品質に関する分析を徹底的にテストし、優れたパフォーマンスを確保しました。 しかし、稀に反応の質評価が不正確になることがあります。
会話セッションにおける感情分析
感情分析の意図された用途は何ですか?
感情分析を使用して、エージェントへのユーザー メッセージの AI 分析に基づいて、会話セッションでのユーザー満足度のレベルを理解します。 セッションの全体的なセンチメント (肯定的、否定的、または中立) を理解し、理由を調査し、それに対処するための対策を講じることができます。
感情分析に使用されるデータは何ですか?
感情分析では、会話セッションのサンプル セットに対してエージェントへのユーザー メッセージを使用します。
センチメント分析はその情報をもとに、セッション中のユーザーの満足度が肯定的か否定的か中立的かを評価します。 例えば、ユーザーはエージェントとのやり取りに基づいて、フラストレーションや不満を示す言葉や口調を使うことができます。 この場合、そのセッションはネガティブセンチメントとして分類されます。
感情分析の限界は何であり、ユーザーはこれらの制約をどのように緩和できるのでしょうか?
感情分析はすべての会話セッションで計算されるわけではありません。 代わりに、分析はユーザー エージェント セッションのサンプルを測定します。 1日の成功した生成回答数を最低限満たさないエージェントは、感情スコアを受け取ることができません。
感情分析は現在、生成回答に依存しており、エージェントの感情スコアを計算するために最低限の1日の成功回答数が必要です。
セッションのセンチメントを計算するには、少なくとも2つのユーザーメッセージが必要です。 さらに、現在の技術的制約により、合計26件を超えるセッション(ユーザーメッセージとエージェントメッセージの両方を含む)では感情分析は行われません
センチメント分析は、センチメントスコアに至った特定のユーザーメッセージの内訳を提供しません。
責任ある AI に対して Copilot Studio 内で感情分析を行う場合、どのような保護が実施されていますか?
エージェントのユーザーには分析結果が表示されません。 結果は、エージェント作成者と管理者のみが使用できます。
感情分析を使用して、すべてのセッションのセンチメントの内訳を確認することしかできません。
開発中に感情分析を徹底的にテストし、良好なパフォーマンスを確保しました。 しかし、稀に感情評価が正確でないこともあります。
ユーザーの質問のテーマ
テーマの用途は何ですか?
テーマ別のクラスタリングとテーマ レベルの分析は、ユーザーが大規模に何を求めているかをすぐに理解するのに役立ちます。 この機能は、大量のユーザー クエリを分析し、ユーザーが関心を持つ主な対象を表す高レベルのトピック ("テーマ") を表示します。 この分析は、個々の会話の検査から、より広範なパターン、新たなニーズ、関心領域の特定に移行するのに役立ちます。
ユーザー アクティビティの構造化されたデータドリブンの概要を提供することで、テーマ レベルの分析は次のことに役立ちます。
ユーザーが関心を持つ最も一般的なトピックを特定します。
網羅性の不足や、分かりにくいユーザー体験を検出します。
時間の経過に伴うユーザーの関心の変化を監視します。
実際のユーザーの需要に基づいて改善点に優先順位を付けます。
テーマ分析は大まかにどのように機能しますか?
この機能は、ユーザー クエリを意味のあるグループに継続的に整理するマルチステージ プロセスとして機能します。 大まかに言えば、このプロセスには次の 2 つの重要なフェーズが含まれます。
テーマ候補の生成
システムは、最近の一連のユーザー クエリを分析し、個別の概要トピックを表す候補テーマを識別します。 システムは、これらの候補を導き出すために、クエリ全体でパターン、類似点、および定期的なサブジェクトを検出します。
テーマへのクエリの関連付け
候補テーマが生成されると、個々のクエリが最も関連性の高いテーマに関連付けられます。 各テーマは、関連するユーザーの質問のコレクションを表し、システムが新しいクエリを処理するにつれて進化します。 システムは、セマンティック類似性やユーザー フィードバックなどのシグナルを使用して、これらのテーマを時間の経過と同時に調整します。 この絞り込みプロセスにより、ユーザーの動作の変化に合わせて表現を調整できます。
テーマの作成に使用されるデータは何ですか?
ユーザーは、生成的な回答を生成するクエリからテーマを生成します。 このプロセスでは、最新のアクティビティ ウィンドウに焦点を当てて、テーマに現在のユーザーの関心と進化する傾向が反映されるようにします。 新しいデータが使用可能になると、テーマが更新され、関連性が維持されます。
テーマはユーザー クエリのパターンに依存するため、この機能は分析するアクティビティの量に依存します。 データが限られている場合や、クエリが非常に断片化している状況では、システムがテーマを生成しないか、限られた分析情報を提供する可能性があります。
テーマ分析の制限事項と、それらを軽減する方法
テーマ分析はデータドリブン クラスタリング システムであり、その有効性はユーザー クエリの性質と量によって異なります。 いくつかの潜在的な制限事項は次のとおりです。
データが不十分であったり、多様性が高かったりすると、テーマが広すぎたり狭すぎたりする可能性があります。
密接に関連するトピックは、個別のテーマに分割される場合があります。
関連のないクエリは、グループ化されることがあります。
時間の経過に伴うユーザー言語の変更は、テーマの一貫性に影響する可能性があります。
テーマから最大限の価値を得るには:
生成されたテーマを定期的に確認します。
品質向上のため、フィードバック(例: 高評価または低評価)をお寄せください。
テーマは、正確な分類ではなく、方向分析情報として解釈します。
どのような責任ある AI 保護が実施されていますか?
テーマ クラスタリングと分析は、責任ある AI の原則を念頭に置いて設計されています。
承認された作成者と管理者は、テーマを表示できる唯一のユーザーです。
ユーザー クエリを表示する権限を持つユーザーのみが、テーマへの内訳を表示できます。
テーマにはユーザー クエリの内容が反映されるため、作成者と管理者が確認できる正直な概要が提供されます。
これらのセーフガードは、テーマが安全で制御されたエクスペリエンスを維持しながら、有用な分析情報を提供するのに役立ちます。
カスタム メトリック分析
カスタム メトリックの使用目的は何ですか?
カスタム メトリック分析を使用して、会話エージェントがビジネス成果に与える影響を把握します。 これらのメトリックは、節約分析を補完します。 カスタム メトリックの例には、解決率、顧客の意図の分類、およびその他のドメイン固有の結果が含まれます。
カスタム メトリックは、エージェントが意図した目標を見逃している場所を示すことができます。 測定対象を定義し、実際のセッション データに対してメトリックをテストし、結果に基づいて定義を調整します。
カスタム メトリックの計算に使用されるデータは何ですか?
過去のエージェント セッションのサンプルを使用してカスタム メトリックを計算します。 この計算では、セッション中に交換された会話型メッセージが使用されます。
AI モデルは、メトリック定義に基づいてセッション データを分類します。 エージェントは、サンプル全体の結果を集計して、選択した期間の全体的なメトリック パフォーマンスを表示します。
カスタム メトリックの制限事項と、ユーザーが制限の影響を最小限に抑える方法
カスタム メトリックでは、すべてのエージェント セッションが使用されるわけではありません。 代わりに、選択した期間のセッションのサンプルを測定します。 結果はサンプルに基づいているため、正確な数値ではなく、方向インジケーターとして扱います。
メトリックの計算は、メトリックを解釈するときのメッセージトランスクリプトに基づいていると考えてください。 トピックやツールなど、主にメッセージの外部で発生する動作に関する結論を出さないようにします。
AI モデルによってセッションが誤って分類される可能性があります。 集計結果は一般に正確です。 定義されたカテゴリと一致しないセッションは、フォールバック (その他) カテゴリに配置されます。 テスト結果が予想される結果と一致しない場合は、メトリックの説明とカテゴリ定義を更新できます。
メトリックを定義した後にエージェントの指示または構成を大幅に変更した場合、メトリックはエージェントの更新された動作を正確に反映しなくなる可能性があります。 エージェントに実質的な変更を加えた後で、カスタムメトリクスを確認してください。
責任ある AI のCopilot Studio内のカスタム メトリックに対してどのような保護が実施されていますか?
カスタム メトリックの結果にアクセスできるのは、エージェント作成者と管理者だけです。 エージェントのユーザーは、分析結果にアクセスできません。
保存する前に、すべてのカスタム メトリックを確認して承認します。 メトリック定義中に、サンプル セッション データに対してメトリックをテストし、個々の結果とモデルの推論を確認します。 結果が期待を満たさない場合は、メトリックを更新または破棄できます。 メトリックは、明示的な確認なしでは適用されません。
セッションの分類に使用される AI によって生成されたプロンプトが UI に表示されるので、モデルがメトリック定義をどのように解釈するかを理解できます。 カスタム メトリックはいつでも編集または削除できます。
まれに、個々のセッション分類が不正確になる場合があります。 結果は、個々のセッション レベルではなく集計で解釈する必要があります。