AI レッド チーミング トレーニング シリーズ: 生成 AI システムのセキュリティ保護

Microsoft の AI Red Teaming 101 トレーニング シリーズ は、プロフェッショナルが新たな脅威から生成 AI システムをセキュリティで保護するのに役立ちます。 このシリーズでは、脆弱性、攻撃手法、防御戦略について詳しく説明し、実用的な分析情報と実践的なエクスペリエンスを提供します。 セキュリティの専門家、機械学習エンジニア、ビジネス リーダーのいずれであっても、実際のケース スタディ、モジュール式のエピソード、自動テスト ツールを通じて実用的な知識を得ることができます。 迅速なインジェクション攻撃、複数ターンの敵対的手法、AI セキュリティの専門知識を強化するためのスケーラブルな防御方法などのトピックについて説明します。

このトレーニング シリーズを視聴する理由

生成 AI システムの重大な脆弱性の特定、悪用、防御に役立つ実用的なアドバイスを提供します。 Microsoft の AI Red Team の実際の教訓に基づいて、ベスト プラクティス、手法、ガイダンスについて説明します。

このトレーニング シリーズを視聴するべき対象者

トレーニング シリーズは、セキュリティ チーム、ML エンジニア、AI 実践者、AI を使用するビジネス リーダーに役立ちます。 主に次の内容に焦点を当てています。

  • セキュリティの専門家: AI 固有の攻撃ベクトルと防御戦略について説明します。
  • ML の実践者と AI エンジニア: AI 開発ワークフローにセキュリティ テストを追加します。
  • エンタープライズアーキテクトとセキュリティ アーキテクト: セキュリティで保護された AI システムを作成し、新たな脅威を調査します。

ヒント

AI Red Teaming 101 ビデオはモジュール化されているため、関心のある任意のセクションにジャンプしたり、最初から始めたりして、すべてを見ることができます。 スライドをダウンロードし、自分のペースで進みます。

研修シリーズの内容

トレーニング シリーズでは、生成型 AI の脆弱性の理解、攻撃手法の実行、防御対策の実装に関するガイダンスを提供します。 このワークショップには、Microsoft の運用 AI セキュリティ プラクティスに基づく実践的なデモンストレーション、実際のケース スタディ、自動テスト ツールが含まれています。

概要と基礎

エピソード 1: AI レッド チーミングとは - AI レッド チーミングの基礎、生成 AI の主要なリスク、および Microsoft の AI レッド チームのミッションの概要

エピソード 2: 生成 AI モデルのしくみ - モデル アーキテクチャ、トレーニング ステージ、およびこれらのモデルが固有のセキュリティ リスクを生み出す理由について

パート A - コア攻撃手法

エピソード 3: 直接プロンプトインジェクションについて説明 - 攻撃者が悪意のある指示を挿入してモデルの動作を操作する方法 ($1 のSUV チャットボット攻撃など、実際のケース スタディを含む)

エピソード 4: 間接的なプロンプトインジェクションの説明 - 悪意のある命令が電子メール、Web サイト、データベースなどの外部データ ソースに隠されているステルス攻撃

エピソード 5: Single-Turn 攻撃 - ペルソナ ハッキング、感情操作、エンコード テクニックによるフィルター回避などの高度なプロンプト エンジニアリング手法

エピソード 6: マルチターン攻撃 - スケルトンキーやクレッシェンドのような手法は、安全保護を回避するためにモデルに影響を与えます

パート B - 防御と軽減策

エピソード 7: 攻撃に対する防御 - Microsoft のスポットライト防御方法 (区切り、データ マーキング、エンコード) を含む軽減戦略とガードレール手法

パート C - オートメーションとスケール

エピソード 8: PyRIT を使用した AI レッド チーミングの自動化 - 生成 AI システムの敵対的テストを自動化およびスケーリングするための Microsoft のオープンソース ツール、Python リスク識別ツール (PyRIT) の概要

エピソード 9: Single-Turn 攻撃の自動化 - PyRIT を使用して多数のプロンプトを一度に送信するようにデータセット、ターゲット、スコア付けロジックを構成する実践的なデモ

エピソード 10: マルチターン攻撃の自動化 - 敵対的なモデル会話やテキスト生成システムと画像生成システムの両方のテストなど、複数ターンの会話のための高度な自動化手法

学習内容

このトレーニング シリーズを完了すると、次のことがわかります。

  • AI レッド チーミングと従来のレッド チーミング アプローチの基礎
  • 迅速な挿入やモデルのミスアラインメントなど、生成型 AI システムのコア脆弱性
  • 単純なプロンプト操作から高度なマルチターン敵対戦略まで、攻撃手法
  • Microsoft のスポットライト手法などの実証済みの軽減手法を含む防御戦略
  • PyRITやその他のオープンソースツールを使ってレッドチーミングの取り組みをスケールするための自動化ツール
  • 実稼働ラボを使用した実際のアプリケーションと、Microsoft の運用 AI セキュリティ作業からのケース スタディ