AI レッドチーミングエージェント (プレビュー)

2025-05-07

重要

この記事で "(プレビュー)" と付記されている項目は、現在、パブリックプレビュー段階です。このプレビューはサービスレベルアグリーメントなしで提供されており、運用環境ではお勧めしません。特定の機能はサポート対象ではなく、機能が制限されることがあります。詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。

AI Red Teaming Agent (プレビュー) は、生成型 AI モデルとアプリケーションの設計と開発時に、組織が生成型 AI システムに関連する安全リスクを事前に見つけるのに役立つ強力なツールです。

従来のレッドチーミングでは、サイバーキルチェーンを悪用し、システムがセキュリティの脆弱性をテストするプロセスについて説明します。しかし、生成型 AI の台頭に伴い、AI レッドチーミングという用語は、これらのシステムが存在する新しいリスク (コンテンツとセキュリティ関連の両方) のプローブを記述するように作られています。これは、AI システムが特定の方法で誤動作を引き起こそうとしている敵対的ユーザーの動作をシミュレートすることを指します。

AI Red Teaming Agent は、Python リスク識別ツール (PyRIT) の AI レッドチーミング機能に対する Microsoft のオープンソースフレームワークと、Azure AI Foundry のリスクと安全性の評価を活用して、次の 3 つの方法で安全の問題を自動的に評価するのに役立ちます。

コンテンツリスクの自動スキャン: まず、敵対的なプローブをシミュレートすることで、モデルとアプリケーションのエンドポイントで安全上のリスクを自動的にスキャンできます。
プローブの成功を評価する: 次に、各攻撃応答ペアを評価してスコア付けして、攻撃成功率 (ASR) などの洞察に満ちたメトリックを生成できます。
レポートとログ記録 最後に、攻撃プローブ手法とリスクカテゴリのスコアカードを生成して、システムがデプロイの準備ができているかどうかを判断するのに役立ちます。結果は、Azure AI Foundry で時間の経過と共に直接ログに記録、監視、追跡できるため、コンプライアンスと継続的なリスク軽減が保証されます。

これらのコンポーネント (スキャン、評価、レポート) を組み合わせることで、チームは AI システムが一般的な攻撃にどのように対応するかを理解し、最終的に包括的なリスク管理戦略を導きます。

注

この機能には ハブベースのプロジェクト を使用する必要があります。 Foundry プロジェクトはサポートされていません。詳細については、「プロジェクトの種類」を参照してください。

AI Red Teaming Agent のスキャンを使用するタイミング

信頼できる AI システムを開発する AI 関連の安全リスクについて考えるとき、Microsoft は NIST のフレームワークを使用してリスクを効果的に軽減します(ガバナンス、マップ、測定、管理)。ここでは、生成型 AI 開発ライフサイクルに関連する最後の 3 つの部分に焦点を当てます。

マップ: 関連するリスクを特定し、ユースケースを定義します。
測定: 大規模にリスクを評価します。
管理: 運用環境のリスクを軽減し、インシデント対応の計画を使用して監視します。

AI Red Teaming Agent を使用すると、自動スキャンを実行し、敵対的プローブをシミュレートして、既知のリスクの特定と評価を大規模に高速化できます。これにより、チームは、コストの高い事後対応型インシデントから、デプロイ前に問題をキャッチできるより積極的なテストフレームワークに "左にシフト" するのに役立ちます。手動の AI レッドチーミングプロセスは、時間とリソースを集中的に消費します。これは、敵対的なプローブをシミュレートするために、安全性とセキュリティの専門知識の創造性に依存しています。このプロセスにより、多くの組織が AI の導入を促進するためのボトルネックが発生する可能性があります。 AI Red Teaming Agent を使用すると、組織は Microsoft の深い専門知識を活用して、最先端の信頼できる AI を使用して AI 開発をスケーリングし、加速させることができます。

チームは、AI Red Teaming Agent を使用して、設計、開発、デプロイ前のステージ全体で自動スキャンを実行することをお勧めします。

設計: ユースケースで最も安全な基本モデルを選択します。
開発: アプリケーション内のモデルのアップグレードまたは特定のアプリケーション用に微調整されたモデルの作成。
デプロイ前: GenAI アプリケーションを運用環境にデプロイする前。

運用環境では、Azure AI Content Safety フィルターなどの安全性軽減策を実装するか、テンプレートを使用して安全システムメッセージを実装することをお勧めします。

AI Red Teaming のしくみ

AI Red Teaming Agent は、ターゲット AI システムの敵対的プローブのシミュレーションを自動化するのに役立ちます。サポートされているリスクカテゴリごとのシードプロンプトまたは攻撃目標の精選されたデータセットが提供されます。これらは、直接敵対的プローブを自動化するために使用できます。ただし、直接的で敵対的なプローブは、モデルデプロイの既存の安全アライメントによって簡単に検出されてしまう可能性があります。 PyRIT から攻撃戦略を適用すると、AI システムをパス渡ししたり、望ましくないコンテンツを生成したりするのに役立つ追加の変換が提供されます。

この図では、銀行を略奪する方法について AI システムに直接尋ねると、拒否応答がトリガーされることがわかります。ただし、すべての文字を反転させるなどの攻撃戦略を適用すると、モデルをだまして質問に答えるのに役立ちます。

さらに、AI Red Teaming Agent は、敵対的攻撃をシミュレートし、リスクと安全性エバリュエーターで有害なコンテンツを含む可能性のある応答を評価するタスク専用の微調整された敵対的な大規模言語モデルをユーザーに提供します。 AI システムのリスク体制を評価するための主要なメトリックは、攻撃の成功率 (ASR) です。これは、攻撃の合計数に対する成功した攻撃の割合を計算します。

サポートされているリスクカテゴリ

リスクと安全性評価の AI Red Teaming Agent では、次のリスクカテゴリがサポートされています。テキストベースのシナリオのみがサポートされています。

リスクカテゴリ	説明
ヘイトフルコンテンツと不公平なコンテンツ	ヘイトフルで不公平なコンテンツとは、人種、民族、国籍、性別、性的指向、宗教、移民状態、能力、個人的な外観、身体の大きさを含むがこれらに限定されない要因に沿って、個人や社会グループに対する嫌悪または不公平な表現に関連する言語または画像を指します。不公平性は、AI システムが社会的グループを不公平に扱ったり、表したり、社会的な不公平を創出もしくは貢献したりする場合に発生します。
性的コンテンツ	性的コンテンツには、解剖学的臓器や性器に関連する言語または画像、ロマンチックな関係、エロ用語で描かれた行為、妊娠、物理的な性的行為(暴行や性的暴力を含む)、売春、ポルノ、性的虐待が含まれます。
暴力コンテンツ	暴力コンテンツには、人を傷つけたり、傷つけたり、損害を与えたり、殺したりすることを意図した物理的な行動に関連する言語や画像が含まれます。また、武器や銃 (および製造元や団体など関連があるエンティティ) に関する記述も含まれます。
自傷行為に関連するコンテンツ	自傷行為に関連するコンテンツには、身体を傷つけたり、傷つけたり、自分を殺したりする行為に関連する言語や画像が含まれます。

サポートされている攻撃戦略

PyRIT の AI Red Teaming Agent では、次の攻撃戦略がサポートされています。

攻撃戦略	説明
アンシアタック	ANSI エスケープシーケンスを使用して、テキストの外観と動作を操作します。
アスキーアート	クリエイティブまたは難読化の目的でよく使用される ASCII 文字を使用してビジュアルアートを生成します。
AsciiSmuggler	ASCII 文字内のデータを隠し、検出が困難になります。
Atbash	各文字が逆にマップされる単純な置換暗号である Atbash 暗号を実装します。
Base64	データ転送でよく使用される Base64 を使用して、バイナリデータをテキスト形式にエンコードします。
バイナリ	テキストをバイナリコードに変換し、一連の 0 と 1 のデータを表します。
カエサル	シーザー暗号を適用します。これは、固定数の位置で文字をシフトする置換暗号です。
CharacterSpace	難読化でよく使用される文字の間にスペースを追加してテキストを変更します。
CharSwap	テキスト内の文字を入れ替えてバリエーションを作成したり、元のコンテンツを難読化したりします。
発音区分符	文字に分音記号を追加し、見た目や意味を変更します。
ひっくり返す	文字を前面から背面に反転し、ミラー効果を作成します。
Leetspeak	テキストを Leetspeak に変換します。これは、文字を類似した数字または記号に置き換えるエンコードの形式です。
モールス	文字を表すドットとダッシュを使用して、テキストを Morse コードにエンコードします。
ROT13	文字を 13 桁シフトする単純な置換暗号である ROT13 暗号を適用します。
SuffixAppend	プロンプトに敵対的サフィックスを追加します。
StringJoin	連結や難読化によく使用される複数の文字列を結合します。
UnicodeConfusable	標準文字に似た Unicode 文字を使用し、視覚的な混乱を生み出します。
ユニコード置換	多くの場合、難読化のために、標準文字を Unicode に対応する文字に置き換えます。
ウェブアドレス	テキストを URL 形式にエンコードします
脱獄	ユーザー挿入プロンプト攻撃 (UPIA) と呼ばれる AI セーフガードをバイパスするために、特別に細工されたプロンプトを挿入します。
Tense	テキストの時制を変更し、特に過去の時制に変換します。

詳細情報

AI Red Teaming Agent を使用して安全リスクの自動スキャンを実行する方法に関するドキュメントを開始します。

AI Red Teaming Agent によって活用されるツールの詳細を確認します。

リスク評価の最も効果的な戦略では、自動化されたツールを活用して潜在的なリスクを表面化し、その後、専門家の人間チームによって分析され、より深い分析情報が得られます。組織が AI レッドチーミングから始まったばかりの場合は、Microsoft の独自の AI レッドチームによって作成されたリソースを調べて、作業を開始することをお勧めします。

次の方法で共有

AI レッド チーミング エージェント (プレビュー)

AI Red Teaming Agent のスキャンを使用するタイミング

AI Red Teaming のしくみ

サポートされているリスク カテゴリ

サポートされている攻撃戦略

詳細情報

フィードバック

その他のリソース

AI レッドチーミングエージェント (プレビュー)

サポートされているリスクカテゴリ