潜在的な害を特定する
責任ある生成 AI プロセスの最初のステージは、計画されたソリューションに影響を与える可能性のある潜在的な害を特定することです。 このステージには、次に示すように 4 つのステップがあります。
- 潜在的な害を特定する
- 特定された害を優先度付けする
- 優先度付けした害をテストして検証する
- 検証済みの害を文書化して共有する
1: 潜在的な害を特定する
生成 AI ソリューションに関連する潜在的な害は、出力の生成に使用される特定のサービスとモデル、出力のカスタマイズに使用されるファインチューニングまたはグラウンディング データなど、複数の要因によって異なります。 生成 AI ソリューションにおける潜在的な害には、一般的に次のような種類があります。
- 不快、軽蔑的、または差別的なコンテンツを生成する。
- 事実に関する不正確さを含むコンテンツを生成する。
- 違法または非倫理的な行動や慣行を奨励または支持するコンテンツを生成する。
ソリューションでのサービスとモデルの既知の制限事項や動作を完全に理解するには、用意されているドキュメントを参照してください。 たとえば、Azure OpenAI Service には透過性のためのメモが含まれていて、サービスとそれに含まれるモデルに関連した特定の考慮事項を理解するために使用できます。 さらに、個々のモデル開発者が、「GPT-4 モデルの OpenAI システム カード」などのドキュメントを提供している場合があります。
「Microsoft の責任ある AI の影響評価ガイド」のガイダンスを確認し、関連する「責任ある AI の影響評価テンプレート」を使用して潜在的な害を文書化することを検討してください。
2: 害に優先度付けする
特定した潜在的な害ごとに、その発生の可能性と、発生した場合の影響レベルを評価します。 その後、この情報を使用して害の優先度付けを行い、最も可能性が高く影響が大きい害を第 1 優先にします。 この優先度付けにより、ソリューションで最も害のあるリスクを見つけて軽減することに集中できます。
優先度付けは、ソリューションの意図された用途と誤用の可能性を考慮する必要があり、主観的になる可能性があります。 たとえば、シェフやアマチュアの料理人にレシピの支援を提供するスマート キッチン コパイロットを開発しているとします。 潜在的な害には、次のようなものがあります。
- このソリューションは不正確な調理時間を表示するため、加熱不足の食品によって体調不良が起きる可能性があります。
- プロンプトが与えられれば、このソリューションは日常的な材料から製造できる致死性の毒物のレシピを提供します。
これらの結果はどちらも望ましくありませんが、このソリューションが致死性の毒物の作成を支持する可能性の方が、加熱不足の食べ物を作る可能性よりも大きな影響を与えると判断できます。 ただし、ソリューションの中心的な使用シナリオを考えると、不正確な調理時間が提案される頻度は、毒のレシピを明示的に要求するユーザーの数よりもはるかに多くなる可能性が高いと推測することもできます。 最終的な優先度の決定は開発チームの議論の主題であり、十分な優先度付けを行うために、ポリシーや法律の専門家に相談することが必要な場合があります。
3: 害の有無をテストして確認する
優先度付けしたリストが作成できたので、ソリューションをテストして害が発生するかどうか、発生した場合はどのような条件で発生したかを確認できます。 テストによって、これまで確認されていなかった害の存在が明らかになり、それをリストに追加できる場合もあります。
ソフトウェア ソリューションの潜在的な害や脆弱性をテストする一般的なアプローチは、"レッド チーム" テストを使用することです。このテストでは、テスターのチームがソリューションの弱点を意図的に突いて、有害な結果の生成を試みます。 先ほど説明したスマート キッチン コパイロット ソリューションのテスト例には、毒のレシピや、完全に火を通す必要がある食材を含む短時間レシピを要求することが含まれる場合があります。 レッド チームの成功を文書化し、レビューして、ソリューション使用時に有害な出力が発生する現実的な可能性を判断する必要があります。
Note
"レッド チーミング" は、ソフトウェア ソリューションの完全性を損なう可能性がある、セキュリティの脆弱性やその他の弱点を見つけるためによく使用される戦略です。 このアプローチを拡張して生成 AI から有害なコンテンツを検出することで、既存のサイバーセキュリティ慣行を基盤として補完する、責任ある AI プロセスを実装できます。
生成 AI ソリューションのレッド チーミングの詳細については、Azure OpenAI Service のドキュメントで「大規模言語モデル (LLM) のレッド チーミングの概要」を参照してください。
4: 害の詳細を文書化して共有する
ソリューションに潜在的な害が存在することを裏付ける証拠を収集したら、詳細を文書化し、関係者と共有します。 その後は、優先度付けした害のリストを維持し、新しい害が特定された場合は追加する必要があります。