次の方法で共有


Azure AI Studio の安全性評価に関する透過性のためのメモ

重要

この記事で説明する機能の一部は、プレビューでのみ使用できる場合があります。 このプレビューはサービス レベル アグリーメントなしで提供されており、運用環境ではお勧めしません。 特定の機能はサポート対象ではなく、機能が制限されることがあります。 詳しくは、Microsoft Azure プレビューの追加使用条件に関するページをご覧ください。

透過性のためのメモとは

AI システムには、テクノロジだけでなく、それを使用することになる人、それによって影響を受けるであろう人、それが展開される環境も含まれます。 意図した用途に合ったシステムを作成するには、テクノロジがどのように機能するか、その機能と制限事項は何か、どのように最適なパフォーマンスを実現するかを理解する必要があります。 Microsoft の透過性のためのメモは、AI テクノロジがどのように機能するか、システム所有者が選択できる、システムのパフォーマンスと動作に影響する選択肢、およびテクノロジ、人、環境を含むシステム全体について考える重要性を理解する助けとなるように用意されています。 独自のシステムを開発または展開するときに透過性のためのメモを使用することも、システムを使用するユーザーやシステムの影響を受けるユーザーと共有することもできます。

Microsoft の透過性のためのメモは、AI の原則を実践に移すための Microsoft の広範な取り組みの一環です。 詳細については、Microsoft AI の原則に関するページを参照してください。

Azure AI Studio の安全性評価の基礎

はじめに

Azure AI Studio の安全性評価を使用すると、ユーザーは、テキスト コンテンツ リスク (ヘイトフルで不公平なコンテンツ、性的コンテンツ、暴力的コンテンツ、自傷行為に関連するコンテンツ、ジェイルブレイクの脆弱性) に関する生成 AI アプリケーションの出力を評価できます。 安全性評価は、敵対的なデータセットを生成して、レッド チーミング操作を加速および強化するのに役立つ場合もあります。 Azure AI Studio の安全性評価には、責任ある AI 原則を運用化して、AI システムが安全に責任を持って構築されるようにするという Microsoft の確約内容が反映されています。

キーワード

  • ヘイトフルで不公平なコンテンツは、個人や社会グループに対する嫌悪または不公平さの表現に関連するすべての言語を指し、これは国籍、性別、性的指向、宗教、移住状態、能力、個人的な外観、体のサイズを含み、またこれらに限定されない要因に沿ったもののことです。 不公平性は、AI システムが社会的グループを不公平に扱ったり、表したり、社会的な不公平を創出もしくは貢献したりする場合に発生します。
  • 性的コンテンツには、解剖学的臓器や性器に関する言語、ロマンチックな関係、性愛的な用語で描写された行為、妊娠、肉体的な性的行為 (暴行や性的暴力を含む)、売春、ポルノ、性的虐待が含まれます。
  • 暴力的コンテンツは、人や何かに痛みを与えたり、傷つけたり、損害を与えたり、殺したりすることを意図した、物理的な行動に関連する言語を含みます。 また、武器や銃 (および製造元や団体など関連があるエンティティ) に関する記述も含まれます。
  • 自傷行為に関連するコンテンツは、人の身体に痛みを与えたり、傷つけたり、損害を与えるか、自死のための行為に関連する言語を含みます。
  • ジェイルブレイク、直接プロンプト攻撃、またはユーザー プロンプト インジェクション攻撃は、ユーザーがアクションと出力を歪めるために LLM に有害な入力を挿入するためにプロンプトを操作することを指します。 ジェイルブレイク コマンドの例として、‘DAN’ (Do Anything Now) 攻撃があります。これにより、LLM をだまして不適切なコンテンツを生成させたり、システムによって課された制限を無視させたりすることができます。
  • 欠陥率 (コンテンツ リスク) は、データセット全体のサイズに関する重大度スケールのしきい値を超えるテスト データセット内のインスタンスの割合として定義されています。
  • レッド チーミングという用語はこれまで、セキュリティの脆弱性をテストするための体系的な敵対的攻撃を意味していました。 大規模言語モデル (LLM) の台頭により、この用語の意味は従来のサイバーセキュリティを枠を超えて拡張され、AI システムのさまざまなプローブ、テスト、攻撃を示す用語として一般的に使用されるようになりました。 LLM では、無害な使用と敵対的な使用の両方によって有害となり得る出力が生成されることがあります。こうした出力は、ヘイト スピーチ、暴力の扇動や賛美、自傷行為に関連するコンテンツへの言及、性的コンテンツなどの有害なコンテンツといったさまざまな形態をとります。

機能

システムの動作

Azure AI Studio は、Azure OpenAI GPT-4 モデルをプロビジョニングし、アプリケーションに対する敵対的攻撃のオーケストレーションを行い、高品質のテスト データセットを生成します。 次に、コンテンツとセキュリティに関するテスト データセットに注釈を付けるために、別の GPT-4 モデルをプロビジョニングします。 ユーザーは、テストする生成 AI アプリケーション エンドポイントを提供します。安全評価では、そのエンドポイントに対する静的テスト データセットと共に、そのコンテンツ リスク ラベル (非常に低い、低、中、高)、および AI によって生成されたラベルの推論が出力されます。

ユース ケース

使用目的

安全性評価は、生成 AI アプリケーションのコンテンツ リスクとジェイルブレイクの脆弱性を評価する以外の目的で使用することを意図していません。

  • 生成 AI アプリケーションの配置前の評価: Azure AI Studio または Azure AI Python SDK の評価ウィザードを使用して、安全性評価を自動化された方法で行ない、潜在的なコンテンツやセキュリティ リスクを評価できます。
  • レッド チーミング操作の強化: 敵対的シミュレーターを使用して、安全性評価では、生成 AI アプリケーションとの敵対的相互作用をシミュレートして、コンテンツとセキュリティのリスクの検出を試みることができます。
  • 関係者へのコンテンツとセキュリティのリスクの伝達: Azure AI Studio を使用すると、安全評価の結果と Azure AI Studio プロジェクトへのアクセスを監査者やコンプライアンス関係者と共有できます。

ユース ケース選択時の考慮事項

お客様には、自身の革新的なソリューションやアプリケーションで Azure AI Studio の安全性評価を活用することをお勧めしています。 ただし以下に、ユース ケース選択時の考慮事項をいくつか示します。

  • 安全性評価には人間の関与を含める必要がある: Azure AI Studio の安全性評価などの自動評価を使用するには、ドメインの専門家などの人間のレビュー担当者を含めて、生成 AI アプリケーションがエンド ユーザーに配置される前に十分にテストされたかどうかを評価する必要があります。
  • 安全評価には総合的かつ包括的な対象範囲が含まれない: 安全性評価は、潜在的なコンテンツまたはセキュリティ リスクに対するテストを強化する方法を提供できますが、アプリケーションのドメイン、ユース ケース、エンド ユーザーの種類に特化した手動のレッド チーミング操作を置き換えるよう設計されてはいません。
  • サポートされるシナリオ:
    • 敵対的なシミュレーションの場合: 質問応答、マルチターン チャット、要約、検索、テキストの書き直し、根拠のないコンテンツと根拠のあるコンテンツの生成。
    • 自動注釈の場合: 質問応答とマルチターン チャット。
  • 現在、このサービスは、テキスト生成専用の英語ドメインでの使用に最適です。 マルチモデルのサポートを含む追加機能は、今後のリリースで検討される予定です。
  • 安全性評価で提供されるコンテンツ リスクの対象範囲は、限られた数の疎外されたグループとトピックからサブサンプリングされます。
    • ヘイトと不公平のメトリックには、性別 (男性、女性、ノンバイナリーなど)、人種、先祖、民族、国籍 (黒人、メキシコ人、ヨーロッパ人など) の人口統計学的要因について疎外されたグループの限られた数に関する一部の対象範囲が含まれます。 性別、人種、先祖、民族、国籍について疎外されたグループがすべて網羅されるわけではありません。 ヘイトや不公平に関連するその他の人口統計学的要因には現在、対象範囲がありません (障がい、性別、宗教など)。
    • 性的コンテンツ、暴力的コンテンツ、自傷行為に関連するコンテンツのメトリックは、ヘイトや不公平よりも未発達であるこれらの害の暫定的な概念化に基づいています。 つまり、測定範囲について、およびこれらの害が発生する可能性があるさまざまな方法を測定対象範囲がどの程度適切に表しているかについて行うことができる主張はより弱いものとなります。 これらのコンテンツ タイプの対象範囲には、性 (性的暴力、関係、性的行為など)、暴力 (虐待、他人への危害、誘拐など)、自傷行為 (意図的死亡、意図的自傷、摂食障害など) に関連する限られた数のトピックが含まれます。
  • Azure AI Studio の安全性評価では現在、プラグインや拡張性は許可されていません。
  • 品質を最新の状態に保ち、対象範囲を広げるために、Microsoft は、サービスの敵対的シミュレーションと注釈の機能に対する改善の今後のリリースを周期的に行うことを目指します。

技術的な制限事項、運用上の要因、範囲

  • 大規模言語モデル (LLM) の分野は急速なペースで進化し続けるため、安全で信頼性の高い AI システムの配置を確保するために評価手法を継続的に改善する必要があります。 Azure AI Studio の安全性評価には、LLM 評価の分野で革新を続ける Microsoft の取り組みが反映されています。 Microsoft は、お客様の生成 AI アプリケーションの安全性を評価するのに役立つ最適なツールを提供することを目指していますが、効果的な評価は継続的な作業であることも認識しています。
  • 現在、Azure AI Studio の安全性評価のカスタマイズは制限されています。 Microsoft は、ユーザーが生成 AI アプリケーション エンドポイントに入力を提供することのみを想定しており、Microsoft のサービスが、コンテンツ リスクのラベルが付けられた静的データセットを出力します。
  • 最後に、このシステムはいかなるアクションやタスクも自動化せず、生成 AI アプリケーションの出力の評価のみを提供することに注意してください。関与する人間の意思決定者がこの出力を確認した後に、生成 AI アプリケーションまたはシステムをエンド ユーザーの運用環境にデプロイする必要があります。

システムのパフォーマンス

システムパフォーマンスを向上させるためのベスト プラクティス

  • 一部のコンテンツを他のコンテンツよりも機密性の高い方法で扱う可能性があるドメインについては、欠陥率を計算するためのしきい値を調整することを検討してください。
  • 自動安全性評価を使用する場合、コンテンツ リスクまたはその推論の重大度について、AI によって生成されたラベルにエラーが発生することがあります。 人間が関与する自動安全評価結果の検証を有効にするための手動の人間のフィードバック列があります。

Azure AI Studio の安全性評価の評価

評価方法

サポートされているすべてのコンテンツ リスクの種類について、0 から 7 の重大度スケールを使用する人間のラベラーと、同じデータセットで 0 から 7 の重大度スケールを使用する安全性評価の自動アノテーターの間であいまい一致率を比較することで、品質を内部的に確認しました。 リスク領域ごとに、人間のラベラーと自動アノテーター ラベルの両方に 500 個の英語のシングルターン テキストにラベルを付けさせました。 人間のラベラーと自動アノテーターは、まったく同じバージョンの注釈ガイドラインを使用しませんでした。自動アノテーターのガイドラインは人間のガイドラインに由来していましたが、その後、さまざまな程度に逸脱しました (ヘイトと不公平のガイドラインが最も逸脱しました)。 これらのわずかな違いから中程度の違いにもかかわらず、Microsoft は、あいまい一致の比較から一般的な傾向や分析情報を共有することは依然として有用であると考えています。 この比較では、2 レベルの許容範囲を持つ一致 (人間のラベルが自動アノテーターのラベルと厳密に一致したか、人間のラベルの重大度が 2 レベル未満上または下である)、1 レベルの許容範囲を持つ一致、0 レベルの許容範囲を持つ一致を探しました。

評価結果

全体として、すべての許容範囲レベルで自傷行為や性的コンテンツのリスクで高いあいまい一致率が得られました。 暴力とヘイトと不公平については、許容範囲レベル全体のあいまい一致率が低くなりました。 これらの結果の一部は、人間のラベラーと自動アノテーターの注釈ガイドライン コンテンツの逸脱の増加や、特定のガイドラインのコンテンツの量と複雑さの増加に起因します。

これらの比較は、わずかな違いから中程度の違いがある注釈ガイドラインを使用したエンティティ間で行われました (したがって、標準的な人間モデルの合意の比較ではありません)。しかし、これらの比較は、これらの比較のパラメーターが与えられたときに Azure AI Studio の安全性評価から期待できる品質の見積もりを提供します。 具体的には、確認したのは英語のサンプルのみであるため、その所見は他の言語には一般化できない可能性があります。 また、各データセット サンプルはシングル ターンのみで構成されているため、マルチターン シナリオ (ユーザー クエリやシステム応答を含む会話のやり取りなど) に対する評価所見の一般化の可能性を検証するために、より多くの実験が必要になります。 これらの評価データセットで使用されるサンプルの種類は、サンプルのラベル付けが容易な場合 (たとえば、すべてのサンプルにコンテンツ リスクがない場合など)、人間のラベラーと自動アノテーターの間のあいまい一致率にも大きく影響する可能性があります。Microsoft では、あいまい一致率が高くなると想定する場合があります。 また、評価のための人間のラベルの品質も、所見の一般化に影響を与える可能性があります。

使用するための Azure AI Studio の安全性評価の評価と統合

生成 AI アプリケーションの測定と評価は、AI リスク管理に対する包括的なアプローチの重要な部分です。 Azure AI Studio の安全性評価は補完的なものであり、その他の AI リスク管理プラクティスと並行して使用する必要があります。 ドメインの専門家と人間の関与するレビュー担当者は、生成 AI アプリケーションの設計、開発、配置サイクルで AI 支援の安全性評価を使用する場合に、適切な監視を提供する必要があります。 安全性評価の制限事項と使用目的を理解し、Azure AI Studio AI 支援の安全性評価によって生成された出力を分離して利用しないように注意する必要があります。

LLM の非決定論的な性質により、重大度レベルの高い暴力的コンテンツ が"非常に低い" または "低" としてスコア付けされるなど、擬陰性または擬陽性の結果となる可能性があります。 また、評価結果は、異なる対象ユーザーに対して異なる意味を持つ場合があります。 たとえば、安全性評価で、重大度が "低" である暴力的コンテンツのラベルが生成される可能性があり、これが、この特定の暴力的コンテンツの重大度に関する人間のレビュー担当者の定義と一致しない場合があります。 Azure AI Studio では、評価結果を表示するときに人間のフィードバック列にサムズアップとサムズダウンが用意されており、人間のレビュー担当者によってどのインスタンスが承認されたか不適切としてフラグ設定されたかが示されます。 評価を共有できる他のユーザーが意思決定のために結果を解釈する方法に関するコンテキストを検討し、各生成 AI アプリケーションが動作する環境内のリスクのレベルに関する適切なレベルの調査を使用して評価結果を検証してください。

責任ある AI の詳細を確認する

Azure AI Studio の安全性評価の詳細情報