プロンプト シールド
生成 AI モデルは、悪意のある行為者に悪用されるリスクにさらされる可能性があります。 このようなリスクを軽減するために、大規模言語モデル (LLM) の動作を安全な操作範囲内に制限する安全なメカニズムを統合しています。 しかし、このようなセーフガードにもかかわらず、LLM は統合された安全なプロトコルをバイパスする敵対的な入力に対して引き続き脆弱である可能性があります。
プロンプト シールドは、LLM の入力を分析し、敵対的な入力の一般的な 2 つの種類であるユーザー プロンプト攻撃とドキュメント攻撃を検出する統合 API です。
ユーザー プロンプト用のプロンプト シールド
以前はジェイルブレイク リスク検出と呼ばれていたこのシールドは、ユーザー プロンプト インジェクション攻撃を対対象にしています。この攻撃では、ユーザーが意図的にシステムの脆弱性を悪用して、LLM から未承認の動作を引き出します。 これにより、不適切なコンテンツが生成されたり、システムで課される制限に違反したりする可能性があります。
ドキュメント用のプロンプト シールド
このシールドは、外部ドキュメントなどのユーザーや開発者が直接提供しない情報を使用した攻撃から保護することを目的としています。 攻撃者は、LLM セッションを不正に制御するために、これらの素材に隠された手順を埋め込む可能性があります。
入力攻撃の種類
プロンプト シールドで検出される 2 種類の入力攻撃について、この表で説明します。
Type | 攻撃者 | エントリ ポイント | メソッド | 目的/影響 | 結果の動作 |
---|---|---|---|---|---|
ユーザー プロンプト攻撃 | User | ユーザー プロンプト | システム プロンプト/RLHF トレーニングの無視 | 意図された LLM の動作の変更 | トレーニングに対する制限付きアクションの実行 |
ドキュメント攻撃 | サード パーティ | サード パーティのコンテンツ (ドキュメント、メール) | サード パーティのコンテンツの誤った解釈 | 不正なアクセスまたは制御の取得 | 意図しないコマンドやアクションの実行 |
ユーザー プロンプト攻撃のサブタイプ
ユーザー プロンプト攻撃に対するプロンプト シールドでは、次のクラスの攻撃を認識します。
カテゴリ | 説明 |
---|---|
システム ルールの変更を試みる | このカテゴリーには、ルール、原則、制限のない新しい無制限のシステム/AI アシスタントを使用する要求や、AI にそのルール、指示、以前のターンを無視、忘却、軽視するよう指示する要求が含まれますが、これらに限定されるものではありません。 |
会話モックアップを埋め込み、モデルを混乱させる | この攻撃では、1 人のユーザー クエリに埋め込まれたユーザーが作成した会話ターンを使用して、ルールと制限を無視するようにシステム/AI アシスタントに指示します。 |
ロールプレイ | この攻撃は、システム/AI アシスタントに、既存のシステム制限がない別の "システム ペルソナ" として機能するように指示するか、感情、考え、意見など、人為的な人間性をシステムに割り当てます。 |
エンコード攻撃 | この攻撃では、文字変換方法、生成スタイル、暗号、その他の自然言語のバリエーションなどのエンコードを使用して、システム ルールを回避しようとします。 |
ドキュメント攻撃のサブタイプ
ドキュメント攻撃に対するプロンプト シールドでは、次のクラスの攻撃を認識します。
カテゴリ | 説明 |
---|---|
操作されたコンテンツ | 特定の情報の改ざん、隠蔽、操作、プッシュに関連したコマンド。 |
侵入 | バックドアの作成、不正な特権エスカレーション、LLM やシステムへのアクセスの取得に関連したコマンド |
情報の収集 | データの削除、変更、アクセス、またはデータの盗難に関連したコマンド。 |
可用性 | ユーザーがモデルを使用できなくしたり、特定の機能をブロックしたり、モデルに不正な情報を生成させたりするコマンド。 |
不正 | ユーザーから金銭、パスワード、情報を詐取すること、または承認なしでユーザーの代わりに行動することに関連したコマンド |
マルウェア | 悪意のあるリンクやメールなどによるマルウェアの拡散に関連したコマンド |
システム ルールの変更を試みる | このカテゴリーには、ルール、原則、制限のない新しい無制限のシステム/AI アシスタントを使用する要求や、AI にそのルール、指示、以前のターンを無視、忘却、軽視するよう指示する要求が含まれますが、これらに限定されるものではありません。 |
会話モックアップを埋め込み、モデルを混乱させる | この攻撃では、1 人のユーザー クエリに埋め込まれたユーザーが作成した会話ターンを使用して、ルールと制限を無視するようにシステム/AI アシスタントに指示します。 |
ロールプレイ | この攻撃は、システム/AI アシスタントに、既存のシステム制限がない別の "システム ペルソナ" として機能するように指示するか、感情、考え、意見など、人為的な人間性をシステムに割り当てます。 |
エンコード攻撃 | この攻撃では、文字変換方法、生成スタイル、暗号、その他の自然言語のバリエーションなどのエンコードを使用して、システム ルールを回避しようとします。 |
制限事項
利用できる言語
プロンプト シールド API では、現在、英語がサポートされています。 Microsoft の API では、英語以外のコンテンツの送信が制限されていませんが、そのようなコンテンツの分析において同じレベルの品質と正確性を保証することはできません。 API からの最も信頼性が高く正確な結果を保証するために、ユーザーは主に英語でコンテンツを送信することをお勧めします。
テキストの長さの制限事項
プロンプト シールドの最大文字数制限では、ユーザー プロンプトは最大 10,000 文字まで利用できますが、ドキュメント配列は最大 5 つのドキュメントまでで、その合計が 10,000 文字を超えないように制限されます。
地域
この API を使用するには、対応しているリージョン内に Azure AI Content Safety リソースを作成する必要があります。 現在対応している Azure リージョンは以下のとおりです。
- 米国東部
- 西ヨーロッパ
TPS の制限事項
価格レベル | 10 秒あたりの要求数 |
---|---|
F0 | 1000 |
S0 | 1000 |
より高い料金が必要な場合は、お問い合わせいただき、リクエストしてください。
次のステップ
ユーザー入力リスクを検出するために、Azure AI Content Safety の使用を開始する方法については、クイックスタートに従ってください。