[この記事はプレリリース ドキュメントであり、変更されることがあります。]
人間による監視機能により、コンピューター操作ツールは、現在悪意のある指示 カテゴリ内にある潜在的な安全上の懸念を検出した場合に、人間による監視の設定で設定したレビュー担当者にエスカレーションできます。
注意
この機能は、米国地域の初期リリース サイクル環境に段階的に展開されており、お客様の環境ではまだ利用できない可能性があります。
重要
この記事には Microsoft Copilot Studio プレビュー ドキュメントが含まれ、変更される可能性があります。
プレビュー機能は運用環境での使用を想定しておらず、機能が制限される可能性があります。 これらの機能は公式リリースの前に使用できるため、一足先にアクセスして フィードバックを送る ことができます。
運用に対応したエージェントを構築する場合は Microsoft Copilot Studio の概要 を参照してください。
AI モデルは、モデルの動作を変更する可能性がある敵対的なコンテンツのスクリーンショット画像を評価することによって検出を実行します。 モデルが実行中にこのような指示にフラグを設定すると (以前は即時停止が発生していました)、検証のために要求が人間に転送されるようになりました。 人間のレビュー担当者は、フラグが設定された安全性の問題が本物であり、実行を停止する必要があるかどうか、またはモデルによって誤ってフラグが設定され、プロセスを安全に続行できるかどうかを判断します。 このようなイベントでは、システムはメール (Outlook) を介して構成された人間のレビュー担当者にレビュー要求を発行します。 指定したタイムアウト期間内に応答が受信されない場合、コンピューター操作の実行は、その時間制限に達すると停止します。
重要
- コンピューター操作エージェントでは、スクリーンショット、Web ページ、またはその他の入力の非表示の指示が意図しない方法でアクションに影響を与えようとする、プロンプト インジェクション攻撃が発生する可能性があります。 このリスクを最小限に抑えるには、信頼された分離された環境内でこれらのエージェントを操作し、手順を実行する前に堅牢な検証チェックを適用します。 人間の監督を有効にすると、モデルが潜在的に有害または悪意のある指示を検出したときに、承認された人間のレビュー担当者がフラグ付きアクションを検証できるようになり、意図しない動作が発生する可能性が減り、可視性と制御が追加されます。
- コンピューター操作エージェントによって実行される安全性チェックは、1 つの応答、入力、またはスクリーンショットによって、またはそのようなコンテキストの複数の部分によってトリガーされる場合があります。 安全チェックは、コンピューター操作エージェントによって取り消し不可能または承認されていない可能性のあるアクションが実行される前に、人間によるレビューを促すことを目的としていますが、コンピューター操作エージェントはチェックの実行時に間違いを犯す可能性があります。 たとえば、コンピューター操作エージェントが特定のアクションを検出しない場合や、安全性が問題ではない場所の確認を求める場合があります。 安全性チェックは、エージェントの責任ある設計とガイダンスに代わるものではありません。
- 人間の監督機能は、取り消し不可能または承認されていない可能性のあるアクションのレビューを求めますが、現在のところ、一般的な確認要求、不足している情報のプロンプト、またはその他の種類の安全チェックはサポートされていません。
エージェントとコンピューター操作アクティビティを確認する
コンピューター操作エージェントが悪意のある、または有害な可能性のある指示を検出すると、構成されたレビュー担当者は Outlook メールを受け取ります。 応答する前に、どのエージェント アクティビティであるか、どのコンピューター操作アクティビティに要求が関連するかを確認することが重要です。
注意
各エージェントの実行とそのアクティビティは、それを開始したユーザーに関連付けられます。 コンピューター操作エージェントを実行しているユーザー以外のレビュー担当者を選択した場合、実行を開始していないため、アクティビティが表示されない可能性があります。 複数の人間のレビュー担当者を構成した場合、各レビュー担当者はメールを受信しますが、アクティビティの詳細にアクセスできるのは実行のイニシエーターだけです。
次の表は、ヒューマン レビュー メール要求に含まれる主な情報を示しています。
| フィールド | 説明 |
|---|---|
| ツールを使用するエージェント | Copilot Studio エージェントの名前。 |
| コンピューター操作ツール | 要求をトリガーしたコンピューター操作ツールの名前。 |
| 会話 ID | 特定のアクティビティを検索するために使用できる会話 ID。 |
| 要求タイムアウト | 要求タイムアウトの日付と時刻。 |
| 要求者 | コンピューター操作ツールの作成者 (接続所有者)。 |
| 送信 (オプションあり) | 最終レビュー担当者は、コンピューター操作の実行を続行するか停止するかをはいまたはいいえで決定します。 |
コンピューター操作に関する人間によるレビュー要求を確認する
注意
エージェントのアクティビティ マップのコンピューター操作アクション サイド パネルで人間によるレビュー要求を確認するには、環境で高度なコンピューター操作アクティビティ機能を有効にする必要があります。 高度なコンピューター操作アクティビティ エクスペリエンスがアクティビティ マップに表示されない場合は、管理者が環境に対してこの機能をオフにしている可能性があります。 詳細については、高度なコンピューター操作アクティビティ を参照してください。
人間によるレビュー要求を確認するには:
- 人間によるレビュー要求のメール本文から会話 ID (GUID) をコピーします。
- メール内のツールを使用するエージェント リンクを選択し、Microsoft Copilot Studio でエージェントの概要ページを開きます。
- 活動に移動します。
- アクティビティ リストの上部で、ID で実行を検索を選択し、コピーした会話 ID を入力します。
- 構成済みのコンピューター操作ツールの名前でコンピューター操作アクションを見つけて、そのサイド パネルを開きます。
- サイド パネルの活動セクションで、アクティビティの一覧を確認します。 人間によるレビューを待機しているアクティビティには、モデルの応答テキストの横に待機中のシンボルが表示されます。 コンピューター操作エージェントによって実行される安全性チェックは、単一の応答、入力、またはスクリーンショットによって、またはそのようなコンテキストの複数の部分によってトリガーされる場合があります。 したがって、人間のレビュー要求に表示されるスクリーンショットには、悪意のある可能性のあるコンテンツが含まれていない可能性があります。
- アクティビティ履歴とスクリーンショットを慎重に確認して、コンピューター操作モデルの安全性チェックが有効かどうかを判断します。
- 完了したら、Outlook のメール通知に戻り、結果に基づいて適切なアクションを実行します。