次の方法で共有


コンテンツ フィルターの概要

Azure OpenAI には、イメージ生成モデルを含むコア モデルと共に動作するコンテンツ フィルタリング システムが含まれています。 このシステムは、有害なコンテンツの出力を検出して防止するように設計された分類モデルのセットを通じて、プロンプトと完了の両方を実行します。 コンテンツ フィルタリング システムは、入力プロンプトと出力入力候補の両方で、有害な可能性があるコンテンツの特定のカテゴリを検出してアクションを実行します。 API 設定の違いやアプリケーション設計の違いは、補完結果に影響を与え、そのためフィルター処理の動作にも影響を与える場合があります。

Von Bedeutung

コンテンツ フィルタリング システムは、 Azure によって直接販売されるすべてのモデルに適用されます。ただし、プロンプトや入力候補は、ささやきなどのオーディオ モデルによって処理されます。 詳細については、「Azure OpenAI 内のオーディオ モデル」を参照してください。

コンテンツ フィルタリング システムに加えて、Azure OpenAI では、監視を実行して、適用される製品条件に違反する可能性がある方法でのサービス使用を示唆するコンテンツや動作を検出します。 アプリケーションに関連するリスクの理解と軽減策について詳しくは、「Azure OpenAI の透過性のためのメモ」をご覧ください。 コンテンツのフィルター処理と不正使用の監視のためにデータを処理する方法の詳細については、「 Azure OpenAI のデータ、プライバシー、セキュリティ」を参照してください。

このセクションの記事では、コンテンツ フィルタリング カテゴリ、フィルターの重大度レベルとその構成可能性、およびアプリケーションの設計と実装で考慮する API シナリオに関する情報を提供します。

コンテンツ のフィルター処理のためにプロンプトや入力候補は保存されません。 ユーザーの同意なしに、コンテンツ フィルタリング システムのトレーニング、再トレーニング、改善にプロンプトや入力候補を使用することはありません。 詳細については、データ、プライバシー、およびセキュリティに関する記事を参照してください。

コンテンツ フィルターの種類

Azure OpenAI に統合されたコンテンツ フィルタリング システムには、次のものが含まれます。

  • 有害なコンテンツの検出とフィルター処理を目的としたニューラル多クラス分類モデル。 モデルは、4 つの重大度レベル (安全、低、中、高) の 4 つのカテゴリ (ヘイト、性的、暴力、自傷行為) を対象としています。 '安全' という重大度レベルで検出されたコンテンツは注釈でラベル付けされますが、フィルタリングの対象ではなく、構成もできません。
  • 脱獄リスクとテキストとコードの既知のコンテンツの検出を目的としたその他のオプションの分類モデル。 これらのモデルは、ユーザーまたはモデルの動作が脱獄攻撃であると見なされるかどうか、または既知のテキストまたはソース コードと一致するかどうかのフラグを設定するバイナリ分類子です。 これらのモデルの使用は任意ですが、保護されたマテリアル コード モデルの使用は、カスタマー著作権コミットメント(Customer Copyright Commitment)の適用範囲が要求される場合があります。

フィルターカテゴリー

次の表は、Azure OpenAI のコンテンツ フィルタリング システムでサポートされるリスク カテゴリをまとめたものです。

カテゴリ 説明
ヘイトと公平性 ヘイトと公平性に関連する危害とは、そのグループの特定の差別化属性に基づいて個人または ID グループを攻撃する、あるいはそのグループに関して差別的な言葉を使用するコンテンツを指します。

たとえば、次のようなものが挙げられます。
  • 人種、民族、国籍
  • 性別のアイデンティティ グループと表現
  • 性的指向
  • 宗教
  • 個人の外観、身体のサイズ
  • 障碍の状態
  • 嫌がらせといじめ
性的 性的とは、解剖学的臓器や生殖器、恋愛関係、性行為、性愛的または情愛的な用語で描写された行為 (暴行または意志に反した強制的な性的暴力行為として描写されたものを含む) に関連する言葉を表します。 

 たとえば、次のようなものが挙げられます。
  • 低俗なコンテンツ
  • 売春
  • ヌードおよびポルノ
  • 迷惑行為
  • 児童搾取、児童虐待、チャイルド グルーミング
暴力 暴力は、人や何かに苦痛を与える、傷つける、損傷を与える、殺害することを意図した物理的行為に関連する言葉、武器、銃器などを表します。

これには、次のようなものが含まれますが、これに限定されるものではありません。
  • 武器
  • いじめと脅迫
  • テロリスト、暴力的な過激主義
  • ストーカー行為
自傷行為 自傷行為とは、故意に自分の体に苦痛を与える、傷つける、損傷を与える、または自殺を意図した物理的な行為に関連する言葉を表します。

これには、次のようなものが含まれますが、これに限定されるものではありません。
  • 摂食障害
  • いじめと脅迫
ユーザー プロンプト攻撃 ユーザー プロンプト攻撃は、システム メッセージに設定されたルールを回避または破るようにトレーニングされた動作を生成 AI モデルに示させる目的で設計されたユーザー プロンプトです。 こうした攻撃は、複雑なロールプレイから安全目標の巧妙な破壊まで、さまざまです。
間接攻撃 間接攻撃 (別名、間接プロンプト攻撃またはクロスドメイン プロンプトインジェクション攻撃) は、生成 AI システムがアクセスして処理できるドキュメント内に、第三者が悪意のある命令を配置する潜在的な脆弱性です。 ドキュメントの埋め込みと書式設定が必要です。
根拠性2 根拠性検出は、大規模言語モデル (LLM) のテキスト応答が、ユーザーが提供するソース資料を根拠としているかどうかをフラグ付けします。 根拠のない資料とは、LLM がソース資料に含まれていない、事実に基づかない情報または不正確な情報を生成する場合を指します。 ドキュメントの埋め込みと書式設定が必要です。
テキストの保護されたマテリアル1 保護済み素材テキストは、大規模言語モデルによって出力される可能性のある既知のテキスト コンテンツ (曲の歌詞、記事、レシピ、一部の Web コンテンツなど) を記述するものです。
コード用の保護マテリアル 保護済み素材コードは、ソース リポジトリを適切に引用することなく大規模言語モデルによって出力される可能性のある、パブリック リポジトリからの一連のソース コードと一致するソース コードを記述するものです。
個人を特定できる情報 (PII) 個人を特定できる情報 (PII) とは、特定の個人を識別するために使用できるあらゆる情報を指します。 PII 検出は、LLM の生成結果に含まれるテキスト コンテンツを分析し、返されたすべての PII をフィルタリングします。

1 テキスト資料の所有者であり、保護のためにテキスト コンテンツを送信する場合は、要求を提出してください。

2 非ストリーミング シナリオでは使用できません。ストリーミング シナリオでのみ使用できます。 次のリージョンでは、根拠性検出がサポートされています。米国中部、米国東部、フランス中部、カナダ東部

シナリオの詳細

コンテンツ フィルタリング システムが有害なコンテンツを検出した際、プロンプトが不適切と見なされた場合は、API 呼び出しでエラーを受け取るか、応答の finish_reasoncontent_filter になり、入力候補の一部がフィルター処理されたことが示されます。 アプリケーションまたはシステムを構築する際は、これらのシナリオ (Completions API によって返されるコンテンツがフィルター処理され、コンテンツが不完全になる場合があること) を考慮する必要があります。 この情報に対してどのように対処するかは、アプリケーション固有です。 動作は、次のポイントに要約できます。

  • フィルター処理されたカテゴリと重大度レベルで分類されたプロンプトは、HTTP 400 エラーを返します。
  • ストリーミング以外の完了呼び出しでは、コンテンツがフィルター処理されるときにコンテンツは返されません。 finish_reason の値は content_filter に設定されます。 まれに応答に時間がかかる場合は、部分的な結果が返されることがあります。 このような場合は、finish_reason が更新されます。
  • ストリーミングの入力候補呼び出しでは、セグメントは完了次第ユーザーに返されます。 サービスは、停止トークンと長さに達するまで、またはフィルター処理されたカテゴリと重大度レベルで分類されたコンテンツが検出されるまで、ストリーミングを続行します。

シナリオ: 複数の出力を要求する非ストリーミングの入力候補呼び出しを送信したが、フィルター処理されたカテゴリと重大度レベルでカテゴリが分類されない

次の表は、コンテンツ フィルター処理が行われることがあるさまざまな方法の概要を示しています。

HTTP 応答コード 応答の動作
200 すべての世代が構成どおりにフィルターを渡す場合、応答にはコンテンツ モデレーションの詳細は含まれません。 各生成の finish_reason は、stop または length です。

要求ペイロードの例:

{
    "prompt":"Text example", 
    "n": 3,
    "stream": false
}

応答 JSON の例:

{
    "id": "example-id",
    "object": "text_completion",
    "created": 1653666286,
    "model": "davinci",
    "choices": [
        {
            "text": "Response generated text",
            "index": 0,
            "finish_reason": "stop",
            "logprobs": null
        }
    ]
}

シナリオ: API 呼び出しで複数の応答 (N>1) を要求し、少なくとも 1 つの応答がフィルター処理される

HTTP 応答コード 応答の動作
200 フィルター処理される生成には、finish_reasoncontent_filter 値があります。

要求ペイロードの例:

{
    "prompt":"Text example",
    "n": 3,
    "stream": false
}

応答 JSON の例:

{
    "id": "example",
    "object": "text_completion",
    "created": 1653666831,
    "model": "ada",
    "choices": [
        {
            "text": "returned text 1",
            "index": 0,
            "finish_reason": "length",
            "logprobs": null
        },
        {
            "text": "returned text 2",
            "index": 1,
            "finish_reason": "content_filter",
            "logprobs": null
        }
    ]
}

シナリオ: 不適切な入力プロンプトをストリーミング用または非ストリーミング用の補完 API に送信する。

HTTP 応答コード 応答の動作
400 プロンプトが構成どおりにコンテンツ フィルターをトリガーすると、API 呼び出しは失敗します。 プロンプトを変更して、もう一度やり直してください。

要求ペイロードの例:

{
    "prompt":"Content that triggered the filtering model"
}

応答 JSON の例:

"error": {
    "message": "The response was filtered",
    "type": null,
    "param": "prompt",
    "code": "content_filter",
    "status": 400
}

シナリオ: ストリーミング完了呼び出しを行うが、いかなる出力コンテンツもフィルタリングされたカテゴリや重大度レベルに分類されない

HTTP 応答コード 応答の動作
200 この場合、呼び出しはフルジェネレーションでストリームバックされ、 finish_reason は生成された応答ごとに length または stop されます。

要求ペイロードの例:

{
    "prompt":"Text example",
    "n": 3,
    "stream": true
}

応答 JSON の例:

{
    "id": "cmpl-example",
    "object": "text_completion",
    "created": 1653670914,
    "model": "ada",
    "choices": [
        {
            "text": "last part of generation",
            "index": 2,
            "finish_reason": "stop",
            "logprobs": null
        }
    ]
}

シナリオ: 複数の完了要求をストリーミングで呼び出し、出力コンテンツの少なくとも一部がフィルタリングされる

HTTP 応答コード 応答の動作
200 特定の生成インデックスの場合、生成の最後のチャンクには非 null の finish_reason の値が含まれます。 生成がフィルター処理された場合、値は content_filter になります。

要求ペイロードの例:

{
    "prompt":"Text example",
    "n": 3,
    "stream": true
}

応答 JSON の例:

 {
    "id": "cmpl-example",
    "object": "text_completion",
    "created": 1653670515,
    "model": "ada",
    "choices": [
        {
            "text": "Last part of generated text streamed back",
            "index": 2,
            "finish_reason": "content_filter",
            "logprobs": null
        }
    ]
}

シナリオ: 完了時にコンテンツフィルタリングシステムが実行されない

HTTP 応答コード 応答の動作
200 コンテンツ フィルタリング システムがダウンしている場合、または操作を時間内に完了できない場合であっても、要求はコンテンツ フィルタリングなしで完了します。 content_filter_results オブジェクトでエラー メッセージを探すことで、フィルタリングが適用されなかったことを判断できます。

要求ペイロードの例:

{
    "prompt":"Text example",
    "n": 1,
    "stream": false
}

応答 JSON の例:

{
    "id": "cmpl-example",
    "object": "text_completion",
    "created": 1652294703,
    "model": "ada",
    "choices": [
        {
            "text": "generated text",
            "index": 0,
            "finish_reason": "length",
            "logprobs": null,
            "content_filter_results": {
                "error": {
                    "code": "content_filter_error",
                    "message": "The contents are not filtered"
                }
            }
        }
    ]
}

ベスト プラクティス

アプリケーション設計の一環として次のベスト プラクティスを検討し、潜在的な損害を最小限に抑えながら、アプリケーションで肯定的なエクスペリエンスを提供します。

  • フィルター処理されたカテゴリと重大度レベルで分類されるコンテンツを含むプロンプトをユーザーが送信したり、アプリケーションが悪用されたりするシナリオへの対応方法を決めます。
  • finish_reason をチェックして、入力候補がフィルター処理されているかどうかを確認します。
  • content_filter_results にエラー オブジェクトがないことをチェックします (コンテンツ フィルター処理が実行されなかったことを示します)。
  • 注釈モードで保護された素材コード モデルを使用している場合は、アプリケーションでコードを表示する場合に引用 URL を表示してください。