次の方法で共有


Windows での責任ある生成 AI アプリケーションと機能の開発

このドキュメントでは、生成 AI を使用して Windows でアプリケーションと機能を作成するときに使用する、推奨される責任ある開発プラクティスの概要について説明します。

Windows AI Foundry のデバイス上の生成 AI モデルは、有害なコンテンツのデバイス上の分類エンジンや既定のブロックリストなど、ローカル コンテンツの安全性機能を適用するのに役立ちます。 Microsoft では、Windows 上のローカル モデルを使用して、安全で信頼できる AI エクスペリエンスを構築するためのサポート開発者に優先順位を付けます。

Windows での生成 AI アプリと機能の責任ある開発に関するガイドライン

Microsoft のすべてのチームは、中心となる原則と実践に従って、Windows も含め、AI を責任を持って構築して出荷します。 責任ある開発に対する Microsoft のアプローチの詳細については、 Microsoft の責任ある AI 透明性レポートを参照してください。 Windows は、米国国立標準技術研究所 (NIST) AI リスク管理フレームワークに沿った RAI 開発の基本的な柱であるガバナンス、マッピング、測定、管理に従います。

ガバナンス - ポリシー、プラクティス、およびプロセス

標準が、ガバナンスとコンプライアンス プロセスの基盤です。 Microsoft は、責任ある AI のガイドラインを作成していただくための出発点として使用できる 6 つの原則を含む、当社独自の責任ある AI の標準を開発しました。 AI の原則は、開発ライフサイクル全体に組み込み、また、プライバシー、セキュリティ、責任ある AI 全般の法令を遵守するためのプロセスとワークフローにも組み込むことをお勧めします。 これは、AI Fairness ChecklistGuidelines for Human-AI Interaction (Microsoft Research ) などのツールを使用した各 AI 機能の早期評価から、 責任ある AI スコアカードなどのツールを使用した AI ベンチマーク、テストとプロセスの監視とレビュー、AI の機能と制限事項、ユーザーの開示と制御に関する公開ドキュメントまで多岐にわたり、 同意、データ収集および処理情報など-- 適用されるプライバシー法、規制要件、およびポリシーに従います。

マッピング - リスクの特定

リスクを特定するための推奨プラクティスは次のとおりです。

エンドツーエンドのテスト

エンドツーエンドのテストでは、AI システム全体が最初から最後まで評価され、意図したとおりに動作し、確立された標準に準拠していることを確認します。 この包括的なアプローチには次のものが含まれる場合があります。

Red Teaming

レッド チーミングという用語はこれまで、セキュリティの脆弱性をテストするための体系的な敵対的攻撃を意味していました。 最近では、この用語の使用範囲が従来のサイバーセキュリティの枠を超え、AI システムのプローブ、テスト、攻撃の多くの種類を説明するためによく使用されるようになっています。

大規模言語モデル (LLM) と小規模言語モデル (SLM) の両方において、無害な使用と敵対的な使用の両方で、ヘイト スピーチ、扇動、暴力の賛美、性的コンテンツなど、多くの形を取る場合がある潜在的に有害な出力を生成する可能性があります。 徹底したレッドチームによるセキュリティテストを行うことで、システムに対してストレステストを実施し、コンテンツ戦略を最適化して、システムが悪影響を与える可能性を低減することができます。

すべての AI システムは、生成 AI を採用するリスクの高いシステムと非生成 AI を使用する低リスク システムの両方について、機能と目的に応じてレッド チーム テストを受ける必要があります。

  • 公式なレッドチーミング: 大規模言語モデル (LLM) を使用する生成AIを採用するすべての高リスクシステムに対して、独立したレッドチーミングを完了する必要があります。 正式なレッドチーミングには、組織外の専門家を募集してレッドチーミング活動に参加してもらうことが含まれます。

  • 内部レッド チーミング: 少なくとも、リスクの低いすべての非生成 AI システムに対して内部レッド チーミングを計画します。 これは組織内の人物が行うことができます。

赤いチーミングの詳細と、システムの赤いチーミングのニーズを評価する方法を確認する: Microsoft AI Red Team

モデルの評価

エンドツーエンドのテストの一環として、モデル自体を評価することが重要です。

  • モデル カード: HuggingFace などの一般公開されているモデルの場合は、各モデルのモデル カードを便利な参照として確認して、モデルがユース ケースに適しているかどうかを理解できます。 モデル カードに関する詳細はこちら

  • 手動テスト: スクリプトを使用せずにステップ バイ ステップで人間がテストを実行することは、モデルの評価をサポートする重要なコンポーネントです。

    • 少数の優先度が高い問題の進行状況を測定します。 特定の危害を軽減する場合、自動測定に移行する前に、危害が観察されなくなるまで、小さなデータセットに対して手動で進行状況を確認し続けることが多くの場合最も生産性が高くなります。

    • 自動測定に移行するまでメトリックを定義してレポートすることは、単独で使用するのに十分な信頼性があります。

    • スポット チェックを定期的に行い、自動測定の品質を測定します。

  • 自動テスト: 自動実行テストも、モデルの評価をサポートする重要なコンポーネントです。

    • より包括的な結果を得るために、カバレッジを上げて大規模に測定します。

    • システム、使用状況、軽減策の進化に伴う回帰を監視するために継続的に測定します。

  • モデルの選択: 目的に適したモデルを選択し、その機能、制限事項、および潜在的な安全上の課題を自分自身が理解できるようにします。 モデルをテストするときは、使用に適した結果が生成されることを確認します。 作業を開始するために、Microsoft (および Microsoft 以外やオープン ソース) のモデル ソースの参照先には次のものがあります。

測定 - リスクと軽減策を評価する

推奨されるプラクティスには次のようなものがあります。

  • Content Moderator の割り当て: Content Moderator は、テキスト、画像、および動画コンテンツをチェックして、コンテンツ内に不快感を与える、危険な、またはその他望ましくない可能性のある素材が含まれていないかを確認します。 詳細情報: Content Moderator の概要 (Microsoft Learn トレーニング)

    • コンテンツの安全フィルターを使用する: この多クラス分類モデルのアンサンブルは、さまざまな重大度レベル (低、中、高) で有害なコンテンツ (暴力、ヘイト、性的、自傷) の 4 つのカテゴリを検出します。 詳細情報: Azure OpenAI Service でコンテンツ フィルターを構成する方法

    • メタ プロンプトの適用: メタ プロンプトとは、システム メッセージの一種で、プロンプトの最初に含まれており、ユース ケースに関連するコンテキスト、指示、その他の情報でモデルを事前処理するために使用されます。 これらの手順は、モデルの動作をガイドするために使用されます。 詳細情報: メタ プロンプト/システム メッセージ エンジニアリングを使用した効果的なセキュリティ ガードレールの作成

    • ブロックリストの利用: プロンプトでの特定の用語またはパターンの使用がブロックされます。 詳細情報: Azure OpenAI でブロックリストを使用する

    • モデルの来歴について理解する: 来歴とは、モデルの所有権の履歴、つまり、関係者、対象物、場所、時期に関する情報で、理解することが非常に重要です。 誰がモデル内のデータを収集したか? データは誰に属するか? どのような種類のデータが使用されているか? どこでデータが収集されたか? いつデータが収集されたか? モデル データがどこから来たのかを知ることは、その品質、信頼性を評価し、非倫理的、不公正、偏った、不正確なデータの使用を回避するのに役立ちます。

    • 標準パイプラインの使用: パーツを段階的にプルするのではなく、1 つのコンテンツ モデレーション パイプラインを使用します。 詳細情報: Azure Machine Learning パイプラインとは

  • ApplyUImitigations: これらは、AI ベースの機能と制限についてユーザーに重要な明確さを提供します。 ユーザーを支援し、機能に関する透明性を提供するために、次のことができます。

    • 受け入れる前に出力を編集するようユーザーに促す

    • AI 出力が不正確である可能性を強調する

    • 対話における AI の役割を開示する

    • リファレンスと出典を明示する

    • 必要に応じて、入力と出力の長さを制限する

    • 入力または出力の構造を提供する - プロンプトは標準形式に従う必要があります

    • 論争の的になるプロンプトに対して事前に決定された応答を準備します。

  • 顧客フィードバック ループの実装: フィードバック ループに積極的に参加するようユーザーに推奨します。

    • ユーザー エクスペリエンスの一部としてコンテキストで利用できるシンプルなフィードバック メカニズムを使用して、アプリ/製品内で直接フィードバックを求めます。

    • 顧客が機能の問題、懸念事項、および危害の可能性に関する早期の会話に使用するチャネルにソーシャル リスニング手法を適用します。

管理 - AI リスクを軽減する

AI リスクを軽減するための推奨事項には次のようなものがあります。

  • 不正使用の監視: この手法では、倫理規定またはその他の該当する製品条件に違反する可能性のある方法でサービスが使用されたことを示す繰り返しのコンテンツや行動のインスタンスを検出して影響を軽減します。 詳細情報: 不正使用の監視

  • 段階的な配信: AI ソリューションを時間をかけてロールアウトし、受領したレポートや懸念事項を処理します。

  • インシデント対応計画: 優先度の高いリスクごとに、何が起こるか、インシデントへの対応にかかる時間、対応プロセスがどのようになるかを評価します。

  • 機能またはシステムをオフにする機能: 機能を一時停止して損害の拡大を防ぐ必要があるインシデントが発生しようとしている、または既に発生した場合に機能をオフにできるようにします。

  • ユーザー アクセス制御/ブロック: システムを不正使用しているユーザーをブロックする方法を開発します。

  • ユーザー フィードバック: メカニズムを利用して、ユーザー側から問題を検出します。

    • 一般的なワークフローのコンテキストで利用できるシンプルなフィードバック メカニズムを使用して、製品内で直接フィードバックを求めます。

    • 顧客が機能の問題、懸念事項、および危害の可能性に関する早期の会話に使用するチャネルにソーシャル リスニング手法を適用します。

  • 利用統計情報の責任あるデプロイ: ユーザーの満足度またはシステムを意図したとおりに使用する能力を示すシグナルを特定、収集、監視し、適用されるプライバシーに関する法律、ポリシー、コミットメントに従っていることを確認します。 利用統計情報を使用してギャップを特定し、システムを改善します。

ツールとリソース