このガイドでは、Azure AI Content Safety モデルから誤検知と偽陰性を処理する方法について説明します。
誤検知は、システムが有害でないコンテンツに有害なフラグを誤って設定した場合に発生します。有害なコンテンツに有害なフラグが設定されていない場合、偽陰性が発生します。 これらの事象に対処して、責任ある生成 AI デプロイを含め、コンテンツ モデレーション プロセスの整合性と信頼性を確保します。
前提条件
- Azure サブスクリプション - 無料アカウントを作成します
- Azure サブスクリプションを入手したら、Azure portal で Content Safety リソースを作成し、キーとエンドポイントを取得します。 リソースの一意の名前を入力し、サブスクリプションを選択して、リソース グループ、サポートされているリージョン (「利用可能なリージョン」を参照)、サポートされている価格レベルを選択します。 [作成] を選択します。
確認と検証
最初の評価を実施して、偽陽性または偽陰性が実際にあることを確認します。 これには、以下が含まれます。
- フラグが立てられたコンテンツのコンテキストの確認。
- フラグ付きコンテンツとコンテンツ リスク カテゴリと重大度定義の比較:
- Azure OpenAI で Guardrails とコントロールを使用している場合は、 Azure OpenAI コンテンツのフィルター処理に関するドキュメントを参照してください。
- Azure AI Content Safety スタンドアロン API を使用している場合は、どの API を使用しているかに応じて、有害カテゴリに関するドキュメントまたはプロンプト シールドに関するドキュメントを参照してください。
重大度設定をカスタマイズする
評価で誤検知または検知漏れが見つかったことが確認された場合は、問題を軽減するために重大度設定のカスタマイズを試すことができます。 設定は、どのプラットフォームを使用しているかによって異なります。
Azure AI Content Safety スタンドアロン API を直接使用している場合は、API 出力に基づいて、重大度のしきい値を有害カテゴリのさまざまなレベルに設定して実験してみてください。 そうではなく、ノー コードのアプローチを好む場合は、Content Safety Studio または Azure AI Foundry の Content Safety ページでこれらの設定を試すことができます。 手順はこちらで確認できます
検知漏れのために重大度レベルを調整するだけでなく、ブロックリストを使用することもできます。 テキスト モデレーションにブロックリストを使用する方法の詳細については、「テキスト モデレーションでのブロックリストの使用」で確認できます。
独自の RAI ポリシーに基づいてカスタム カテゴリを作成する
事前構築済みのカテゴリやコンテンツ フィルタリングでは不十分な場合があるため、場合によっては、フィルタリングが具体的な責任ある AI ポリシーと一致するようにするために、カスタム カテゴリを作成する必要があります。
Azure AI Content Safety API を使用して独自のカテゴリを作成するには、カスタム カテゴリに関するドキュメントを参照してください。
問題を文書化し、Azure にフィードバックを送信する
上記のすべての手順を試しても、Azure AI Content Safety で誤検知や検知漏れを解決できない場合は、さらに注意を払う必要があるポリシー定義またはモデルの問題が存在する可能性が高くなります。
Content Safety サポート チームに次の情報を提供して、誤検知や検知漏れの詳細を文書化します。
- フラグが立てられたコンテンツの説明。
- コンテンツが投稿されたコンテキスト。
- Azure AI Content Safety によって提供されるフラグ設定の理由 (誤検知の場合)。
- コンテンツが誤検知または検知漏れである理由の説明。
- 重大度の設定を調整する、またはカスタム カテゴリを使用することで既に試行された何らかの調整。
- フラグが立てられたコンテンツとシステム応答のスクリーンショットまたはログ。
このドキュメントは、解決のために問題を適切なチームにエスカレートするのに役立ちます。