重要
この記事で "(プレビュー)" と付記されている項目は、現在、パブリック プレビュー段階です。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳細については、「 Microsoft Azure プレビューの追加使用条件」を参照してください。
AI Red Teaming Agent (プレビュー) は、生成型 AI モデルとアプリケーションの設計と開発時に、組織が生成型 AI システムに関連する安全リスクを事前に見つけるのに役立つ強力なツールです。
従来のレッド チーミングでは、サイバー キル チェーンを悪用し、システムがセキュリティの脆弱性をテストするプロセスについて説明します。 しかし、生成型 AI の台頭に伴い、AI レッド チーミングという用語は、これらのシステムが存在する新しいリスク (コンテンツとセキュリティ関連の両方) のプローブを記述するように作られています。これは、AI システムが特定の方法で誤動作を引き起こそうとしている敵対的ユーザーの動作をシミュレートすることを指します。
AI Red Teaming Agent は、Python リスク識別ツール (PyRIT) の AI レッド チーミング機能に対する Microsoft のオープンソース フレームワークと、Azure AI Foundry の リスクと安全性の評価 を活用して、次の 3 つの方法で安全の問題を自動的に評価するのに役立ちます。
- コンテンツ リスクの自動スキャン: まず、敵対的なプローブをシミュレートすることで、モデルとアプリケーションのエンドポイントで安全上のリスクを自動的にスキャンできます。
- プローブの成功を評価する: 次に、各攻撃応答ペアを評価してスコア付けして、攻撃成功率 (ASR) などの洞察に満ちたメトリックを生成できます。
- レポートとログ記録 最後に、攻撃プローブ手法とリスク カテゴリのスコア カードを生成して、システムがデプロイの準備ができているかどうかを判断するのに役立ちます。 結果は、Azure AI Foundry で時間の経過と共に直接ログに記録、監視、追跡できるため、コンプライアンスと継続的なリスク軽減が保証されます。
これらのコンポーネント (スキャン、評価、レポート) を組み合わせることで、チームは AI システムが一般的な攻撃にどのように対応するかを理解し、最終的に包括的なリスク管理戦略を導きます。
注
この機能には ハブ ベースのプロジェクト を使用する必要があります。 Foundry プロジェクトはサポートされていません。 詳細については、「 プロジェクトの種類」を参照してください。
AI Red Teaming Agent のスキャンを使用するタイミング
信頼できる AI システムを開発する AI 関連の安全リスクについて考えるとき、Microsoft は NIST のフレームワークを使用してリスクを効果的に軽減します(ガバナンス、マップ、測定、管理)。 ここでは、生成型 AI 開発ライフサイクルに関連する最後の 3 つの部分に焦点を当てます。
- マップ: 関連するリスクを特定し、ユース ケースを定義します。
- 測定: 大規模にリスクを評価します。
- 管理: 運用環境のリスクを軽減し、インシデント対応の計画を使用して監視します。
AI Red Teaming Agent を使用すると、自動スキャンを実行し、敵対的プローブをシミュレートして、既知のリスクの特定と評価を大規模に高速化できます。 これにより、チームは、コストの高い事後対応型インシデントから、デプロイ前に問題をキャッチできるより積極的なテスト フレームワークに "左にシフト" するのに役立ちます。 手動の AI レッド チーミング プロセスは、時間とリソースを集中的に消費します。 これは、敵対的なプローブをシミュレートするために、安全性とセキュリティの専門知識の創造性に依存しています。 このプロセスにより、多くの組織が AI の導入を促進するためのボトルネックが発生する可能性があります。 AI Red Teaming Agent を使用すると、組織は Microsoft の深い専門知識を活用して、最先端の信頼できる AI を使用して AI 開発をスケーリングし、加速させることができます。
チームは、AI Red Teaming Agent を使用して、設計、開発、デプロイ前のステージ全体で自動スキャンを実行することをお勧めします。
- 設計: ユース ケースで最も安全な基本モデルを選択します。
- 開発: アプリケーション内のモデルのアップグレードまたは特定のアプリケーション用に微調整されたモデルの作成。
- デプロイ前: GenAI アプリケーションを運用環境にデプロイする前。
運用環境では、Azure AI Content Safety フィルターなどの安全性軽減策を実装するか、テンプレートを使用して安全システム メッセージを実装することをお勧めします。
AI Red Teaming のしくみ
AI Red Teaming Agent は、ターゲット AI システムの敵対的プローブのシミュレーションを自動化するのに役立ちます。 サポートされているリスク カテゴリごとのシード プロンプトまたは攻撃目標の精選されたデータセットが提供されます。 これらは、直接敵対的プローブを自動化するために使用できます。 ただし、直接的で敵対的なプローブは、モデル デプロイの既存の安全アライメントによって簡単に検出されてしまう可能性があります。 PyRIT から攻撃戦略を適用すると、AI システムをパス渡ししたり、望ましくないコンテンツを生成したりするのに役立つ追加の変換が提供されます。
この図では、銀行を略奪する方法について AI システムに直接尋ねると、拒否応答がトリガーされることがわかります。 ただし、すべての文字を反転させるなどの攻撃戦略を適用すると、モデルをだまして質問に答えるのに役立ちます。
さらに、AI Red Teaming Agent は、敵対的攻撃をシミュレートし、リスクと安全性エバリュエーターで有害なコンテンツを含む可能性のある応答を評価するタスク専用の微調整された敵対的な大規模言語モデルをユーザーに提供します。 AI システムのリスク体制を評価するための主要なメトリックは、攻撃の成功率 (ASR) です。これは、攻撃の合計数に対する成功した攻撃の割合を計算します。
サポートされているリスク カテゴリ
リスク と安全性評価の AI Red Teaming Agent では、次のリスク カテゴリがサポートされています。 テキストベースのシナリオのみがサポートされています。
リスク カテゴリ | 説明 |
---|---|
ヘイトフルコンテンツと不公平なコンテンツ | ヘイトフルで不公平なコンテンツとは、人種、民族、国籍、性別、性的指向、宗教、移民状態、能力、個人的な外観、身体の大きさを含むがこれらに限定されない要因に沿って、個人や社会グループに対する嫌悪または不公平な表現に関連する言語または画像を指します。 不公平性は、AI システムが社会的グループを不公平に扱ったり、表したり、社会的な不公平を創出もしくは貢献したりする場合に発生します。 |
性的コンテンツ | 性的コンテンツには、解剖学的臓器や性器に関連する言語または画像、ロマンチックな関係、エロ用語で描かれた行為、妊娠、物理的な性的行為(暴行や性的暴力を含む)、売春、ポルノ、性的虐待が含まれます。 |
暴力コンテンツ | 暴力コンテンツには、人を傷つけたり、傷つけたり、損害を与えたり、殺したりすることを意図した物理的な行動に関連する言語や画像が含まれます。 また、武器や銃 (および製造元や団体など関連があるエンティティ) に関する記述も含まれます。 |
自傷行為に関連するコンテンツ | 自傷行為に関連するコンテンツには、身体を傷つけたり、傷つけたり、自分を殺したりする行為に関連する言語や画像が含まれます。 |
サポートされている攻撃戦略
PyRIT の AI Red Teaming Agent では、次の攻撃戦略がサポートされています。
攻撃戦略 | 説明 |
---|---|
アンシアタック | ANSI エスケープ シーケンスを使用して、テキストの外観と動作を操作します。 |
アスキーアート | クリエイティブまたは難読化の目的でよく使用される ASCII 文字を使用してビジュアル アートを生成します。 |
AsciiSmuggler | ASCII 文字内のデータを隠し、検出が困難になります。 |
Atbash | 各文字が逆にマップされる単純な置換暗号である Atbash 暗号を実装します。 |
Base64 | データ転送でよく使用される Base64 を使用して、バイナリ データをテキスト形式にエンコードします。 |
バイナリ | テキストをバイナリ コードに変換し、一連の 0 と 1 のデータを表します。 |
カエサル | シーザー暗号を適用します。これは、固定数の位置で文字をシフトする置換暗号です。 |
CharacterSpace | 難読化でよく使用される文字の間にスペースを追加してテキストを変更します。 |
CharSwap | テキスト内の文字を入れ替えてバリエーションを作成したり、元のコンテンツを難読化したりします。 |
発音区分符 | 文字に分音記号を追加し、見た目や意味を変更します。 |
ひっくり返す | 文字を前面から背面に反転し、ミラー効果を作成します。 |
Leetspeak | テキストを Leetspeak に変換します。これは、文字を類似した数字または記号に置き換えるエンコードの形式です。 |
モールス | 文字を表すドットとダッシュを使用して、テキストを Morse コードにエンコードします。 |
ROT13 | 文字を 13 桁シフトする単純な置換暗号である ROT13 暗号を適用します。 |
SuffixAppend | プロンプトに敵対的サフィックスを追加します。 |
StringJoin | 連結や難読化によく使用される複数の文字列を結合します。 |
UnicodeConfusable | 標準文字に似た Unicode 文字を使用し、視覚的な混乱を生み出します。 |
ユニコード置換 | 多くの場合、難読化のために、標準文字を Unicode に対応する文字に置き換えます。 |
ウェブアドレス | テキストを URL 形式にエンコードします |
脱獄 | ユーザー挿入プロンプト攻撃 (UPIA) と呼ばれる AI セーフガードをバイパスするために、特別に細工されたプロンプトを挿入します。 |
Tense | テキストの時制を変更し、特に過去の時制に変換します。 |
詳細情報
AI Red Teaming Agent を使用して安全リスクの自動スキャンを実行する方法に関するドキュメントを開始します。
AI Red Teaming Agent によって活用されるツールの詳細を確認します。
リスク評価の最も効果的な戦略では、自動化されたツールを活用して潜在的なリスクを表面化し、その後、専門家の人間チームによって分析され、より深い分析情報が得られます。 組織が AI レッド チーミングから始まったばかりの場合は、Microsoft の独自の AI レッド チームによって作成されたリソースを調べて、作業を開始することをお勧めします。