Microsoft での人工知能と機械学習の未来の保護

Andrew Marshall、Raul Rojas、Jay Stokes、Donald Brinkman

Mark Cartwright と Graham Calladine に感謝します

概要

人工知能 (AI) と機械学習 (ML) は、人々の仕事、社交、生活に既に大きな影響を与えています。 AI/ML を使用して構築された製品とサービスの使用が増えるにつれて、顧客とそのデータを保護するだけでなく、AI とアルゴリズムを不正使用、荒らし、抽出からも保護するために、特殊な操作を行う必要があります。 このドキュメントでは、AI 上に構築された製品の設計とオンライン サービスの運用から学んだ Microsoft のセキュリティに関する教訓をいくつか紹介します。 この領域がどのように展開されるかを予測するのは困難ですが、今すぐ対処すべきアクション可能な問題があるという結論に達しました。 さらに、顧客の長期的な安全とデータのセキュリティを確保するために、テクノロジ業界が先手を打つ必要のある戦略的な問題があることがわかりました。

このドキュメントは、AI ベースの攻撃や AI が人間の敵対者によって利用されていることに関するものではありません。 代わりに、個人の荒らし屋と敵対集団全体のどちらが行ったものかを問わず、高度に洗練され、クリエイティブかつ悪意のある攻撃から AI ベースの製品とサービスを保護するために Microsoft と業界のパートナーが対処する必要がある問題に焦点を当てています。

このドキュメントでは、AI/ML 領域に固有のセキュリティ エンジニアリングの問題についてのみ説明しますが、InfoSec ドメインの広範な性質により、ここで説明する問題と調査結果は、プライバシーと倫理の領域との間である程度重複することがわかっています。 このドキュメントでは、テクノロジ業界において戦略的に重要な課題を取り上げています。このドキュメントの対象読者は、業界全体のセキュリティ エンジニアリング リーダーです。

初期の調査結果では、次のことが示唆されています。

  • このドキュメントで説明しているセキュリティの問題のタイプを軽減するには、既存のセキュリティ プラクティスに対する AI/ML 固有のピボットが必要です。

  • 機械学習モデルでは、悪意のある入力と無害な異常データをほぼ区別できません。 トレーニングデータの重要なソースは、サードパーティからの投稿を受け入れている、選別やモデレートが行われていないパブリック データセットから派生しています。 攻撃者は、データセットへの投稿を自由に行うことができる場合、データセットを侵害する必要はありません。 データ構造と書式設定が正しいままであれば、時間の経過につれて、信頼性の低い悪意のあるデータが信頼性の高いデータになります。

  • ディープ ラーニング モデルで利用できる隠れた分類子やニューロンのレイヤーがとても多いため、AI/ML の意思決定プロセスとアルゴリズムの出力は、どのようにしてこれらの決定に達したかについての重要な知識がないと、過剰に信頼されます。 この難読化により、"自分の作業内容を示す" ことができなくなり、疑われたときに AI/ML の結果を実証可能な方法で防御することが難しくなります。

  • AI/ML は、間違った決定が重大な負傷や死亡につながる可能性のある医療やその他の業界での価値の高い意思決定プロセスのサポートで使用されることが増えています。 AI/ML には科学捜査レポート機能がないので、このような価値の高い結論を裁判所および世論という法廷の両方で擁護することはできません。

このドキュメントの目的は、(1) AI/ML 領域に固有のセキュリティ エンジニアリングの問題を強調すること、(2) 新たに出現する脅威についての初期見解と観察を明らかにすること、および (3) 潜在的な修復に関する早期の見解を共有することです。 このドキュメントの課題のいくつかは、業界が今後 2 年間に先手を打つ必要がある問題であり、その他の問題は既に今すぐ対処せざるを得ない問題です。 このドキュメントで取り上げた領域について詳しく調査しないと、将来の AI が数学的レベルで AI の意思決定プロセスを信頼または理解 (および必要に応じて変更) できないことを通じてブラック ボックスになるリスクがあります [7]。 セキュリティの観点からは、これは事実上、制御が失われ、人工知能における Microsoft の基本原則から逸脱することを意味します [4、8]。

新しいセキュリティ エンジニアリングの課題

従来のソフトウェア攻撃ベクトルは引き続き対処が不可欠ですが、AI/ML の脅威の状況に対しては十分なカバレッジを提供していません。 テクノロジ業界では、新しいフレームワークを構築し、AI/ML ベースのサービスの設計と運用のギャップに対処する新しいアプローチを採用することにより、前世代のソリューションで次世代の問題に対抗するのを回避する必要があります。

  1. 以下で説明するように、AI とその制御化にあるデータを保護する際には、セキュリティで保護された開発と運用の基盤に回復力と慎重さの概念を組み込む必要があります。 認証、職務の分離、入力の検証、サービス拒否の軽減の領域には、AI 固有のピボットが必要です。 これらの領域に投資しない場合、AI/ML サービスは、すべてのスキル レベルの敵対者に対して苦戦し続けます。

  2. AI は、人間との対話で偏見を持つことなく、他者の偏見を認識できる必要があります。 これを実現するには、偏見、ステレオタイプ、専門用語、その他の文化的な構成要素を総合的かつ発展的に理解する必要があります。 このような理解は、ソーシャル エンジニアリングやデータセットの改ざん攻撃から AI を保護するのに役立ちます。 適切に実装されたシステムは、実際にはこのような攻撃により強化され、拡張された理解を他の AI と共有できるようになります。

  3. 機械学習アルゴリズムでは、結果に悪影響を及ぼすトレーニング データを拒否することにより、悪意を持って導入されたデータと無害な "ブラック スワン" イベント [1] を区別できる必要があります。 そうしないと、学習モデルは、攻撃者や荒らしによるゲームの影響を常に受けやすくなります。

  4. AI には、組み込みの科学捜査機能が必要です。 これにより、企業は自社の AI の透明性とアカウンタビリティを顧客に提供できるようになるので、その行動が検証可能な形で正しくなるだけでなく、法的防御も可能になります。 これらの機能は、"AI 侵入検出" の初期の形式としても機能します。これにより、エンジニアは、分類子によって意思決定が行われた正確な時点、影響を受けるデータ、およびデータが信頼できるかどうかを判断できます。 この領域のデータ視覚化機能は急速に進化しており、エンジニアがこれらの複雑な問題の根本原因を特定して解決するのに役立つ見込みがあります [11]。

  5. AI は、人間がそれとは認識していない場合でも機密情報を認識し、保護する必要があります。 AI の充実したユーザー エクスペリエンスには、トレーニングする生データが大量に必要であるため、顧客による "過剰な共有" に対する計画が必要です。

脅威や潜在的な軽減策などを含むこれらの各領域については、以下で詳しく説明します。

AI では、従来のセキュリティで保護された設計およびセキュリティで保護された運用モデルへの新しいピボットが必要: 回復力と慎重さの導入

AI デザイナーは常に、機密データの機密性、整合性、可用性を確保する必要があります。また、AI システムに既知の脆弱性がなく、システムやユーザーのデータに対する悪意のある動作に対する保護、検出、対応を行うための制御が備わっている必要があります。

悪意のある攻撃から保護する従来の方法では、音声、ビデオ、またはイメージベースの攻撃によって現在のフィルターと防御が回避される可能性があるこの新しいパラダイムに同じカバレッジは提供されません。 新たな不正利用者によって AI が悪用されないように、新しい脅威のモデル化の側面を調査する必要があります。 これは、ファジー処理または入力操作によって従来の攻撃対象領域を識別するだけではありません (これらの攻撃にも、独自の AI 固有のピボットがあります)。 AI/ML 領域に固有のシナリオを組み込む必要があります。 これらのうち重要なのは、音声、ビデオ、ジェスチャなどの AI ユーザー エクスペリエンスです。 これらのエクスペリエンスに関連する脅威は、従来、モデル化されてきませんでした。 たとえば、ビデオ コンテンツは、物理的な効果を誘発するように調整されています。 また、調査では、オーディオベースの攻撃コマンドを作成できることも示されました [10]。

犯罪者、敵対者、荒らしの予測不能性、創造性、および悪意により、AI に回復力慎重さの価値を組み込むことが必要になります。

回復力: システムでは、AI システムと特定のタスクに関して、異常な動作を識別し、許容される動作の正常な境界外での操作や強制型変換を防止できる必要があります。 これらは、AI/ML 領域に固有の新しい種類の攻撃です。 システムは、コミュニティとその作成者が有する地域の法律、倫理、および価値観と競合する可能性がある入力に抵抗するように設計されている必要があります。 これは、対話が "台本からそれた" ときに、それを特定する機能を AI に提供することを意味します。 これは次の方法で実現できます。

  1. 同様のユーザーのさまざまな大規模クラスターによって設定された規範から逸脱した個々のユーザーを特定します。たとえば、入力が速い、応答が速すぎる、または眠らないように見える、あるいは他のユーザーが行わないシステムの部分をトリガーするユーザーなどです。

  2. 悪意のある意図でのプローブ攻撃と、ネットワーク侵入強制終了チェーンの開始のインジケーターとして知られる動作のパターンを特定します。

  3. 複数のユーザーが連携して行動する場合に、それを随時認識します。たとえば、複数のユーザー全員が、説明不能だが意図的に細工された同じクエリを発行している、ユーザー数が急増している、AI システムの特定の部分のアクティブ化が急増しているなどです。

この種類の攻撃は、AI が同じ罠に二度とはまらないようにバグ修正や再トレーニングが必要になる可能性があるため、サービス拒否攻撃と同等のものと見なす必要があります。 重要度が高いのは、センチメント分析 API を無効化するために使用されるものなど、対策の存在下で悪意のある意図を特定する機能です [5]。

慎重さ:AI は、アクセス権を持つ "任意" の情報について責任を負う、信頼できる管理人である必要があります。 人間は、AI リレーションシップに特定のレベルの信頼を間違いなく割り当てます。 これらのエージェントは、ある時点で他のエージェントまたは他の人間とやり取りします。 他のエージェントがタスクを完了できるように私たちについて共有する必要がある情報を、制限された形式でのみ共有するために、十分な慎重さが AI システムにあることを信頼できる必要があります。 さらに、個人データを操作する複数のエージェントそれぞれが、それに対するグローバル アクセスを必要としないようにする必要があります。 複数の AI またはボット エージェントが関係するデータ アクセス シナリオでは、アクセスの有効期間を必要最小限に抑える必要があります。 また、ユーザーは、Web ブラウザーが現在サイトのブロックを許可するのと同様に、データを拒否し、特定の企業またはロケールからのエージェントの認証を拒否できる必要があります。 この問題を解決するには、クラウド コンピューティングの当初数年に行われたクラウドベースのユーザー認証への投資のような、エージェント間の認証とデータ アクセス特権に関する新たな思考が必要です。

AI は、それ自体が偏見を持つことなく、他者の偏見を認識できる必要がある

AI は、特定の個人グループや有効な結果を選り好みすることなく公平かつ包括的である必要がありますが、これを実現するには偏見について本質的に理解している必要があります。 偏見、荒らし、または皮肉を認識するようにトレーニングされていないと、AI はよくても安っぽい笑いを求めている人にだまされ、最悪の場合には顧客に危害が及びます。

このような認識レベルを実現するには、事実上、文化的偏見を包括的かつ発展的に理解する必要があるため、"善良な人が AI に悪いことを教える" 必要があります。 親が子どもに見知らぬ人に用心するように教えるのと同じように、AI は過去に否定的なやり取りを行っていたユーザーを認識し、適切な注意を払える必要があります。 これに取り組む最善の方法は、制御、モデレート、制限された方法で AI を荒らしに注意深く公開することです。 これにより、AI は、"製品を調べている" 無害なユーザーと実際の悪意のある行為や荒らしとの違いを学習できます。 荒らしは AI に貴重なトレーニング データのストリームを提供し、将来の攻撃に対する回復力を高めます。

AI は、トレーニング対象のデータセット内の偏りも認識できる必要があります。 これには、特定のユーザー グループによって使用されている用語など、文化的または地域的なものや、あるグループにとって関心のあるトピックまたは視点があります。 悪意を持って導入されたトレーニング データの場合と同様に、AI は、このデータがそれ自身の推論と演繹に与える影響に対して回復力を備えている必要があります。 中核となるのは、境界チェックに似た高度な入力検証の問題です。 バッファーの長さとオフセットを処理するのではなく、バッファーと境界のチェックは、さまざまなソースからの赤いフラグが付いた要注意単語です。 単語が使用される会話の履歴とコンテキストも重要です。 多層防御のプラクティスを使用して従来の Web サービス API フロントエンド上で保護をレイヤー化するのと同じように、複数レイヤーの保護を偏りの認識および回避手法で活用する必要があります。

機械学習アルゴリズムは、悪意を持って導入されたデータと "ブラック スワン" イベントを区別できる必要がある

ML モデルまたは分類子の改ざんや、サービス (攻撃者がトレーニング データ セットと使用中のモデルについての十分な知識の両方にアクセスできるもの) からの抽出または窃盗の理論上の可能性について、多くのホワイトペーパーが発行されています [2、3、6、7]。 ここでの包括的な問題は、トレーニング セット データを制御できる攻撃者が、すべての ML 分類子をだますことができることです。 攻撃者は、既存のトレーニング セット データを変更できる必要はなく、それに追加できるだけでよく、ML 分類子が悪意のあるデータと本物の異常データを区別できないことを利用して、時間の経過と共に自分の入力が "信頼" されるようにします。

このトレーニング データ サプライ チェーンの問題により、"決定の整合性" の概念が導入されます。これは、分類子の動作に悪影響が及ぶ前に、悪意を持って導入されたトレーニング データまたはユーザー入力を識別して拒否する機能です。 ここでの根拠は、信頼できるトレーニング データでは信頼できる結果や決定が生成される確率が高いことです。 データのトレーニングを行い、信頼できないデータに対する回復力を持つことは依然として重要ですが、そのデータの悪意のある性質は、信頼性の高い一群のトレーニング データの一部になる前に分析する必要があります。 このようなメジャーがないと、AI は荒らしに過剰に反応せざるを得ず、正当なユーザーへのサービスを拒否する可能性があります。

これは、教師なし学習アルゴリズムを、選別されていない、または信頼されていないデータセットでトレーニングする場合に特に問題になります。 つまり攻撃者は、形式が有効で、アルゴリズムがトレーニングされていれば、必要な任意のデータを導入することができ、事実上そのデータ ポイントはトレーニング セットの残りの部分と同様に信頼されます。 攻撃者からの十分な細工がされた入力により、トレーニング アルゴリズムは、ノイズや異常値と信頼性の高いデータを区別する能力を失います。

この脅威の例として、すべての言語での世界中の通行止め標識のデータベースを想像してください。 これは、関係するイメージと言語の数が原因で、キュレーションがきわめて困難です。 自動運転車が通行止め標識を認識しなくなるまで、たいていはそのデータセットに対する悪意のある投稿は気付かれません。 データの回復力と決定の整合性のリスク軽減は、ここで連携して行う必要があります。これにより、悪意のあるデータによるトレーニングの損傷を特定して除去し、学習モデルの中核部分にならないようにする必要があります。

AI には、透明性とアカウンタビリティを提供するために、組み込みの科学捜査とセキュリティ ログが必要

AI は、最終的にはエージェントとしての専門能力で動作できるようになるので、私たちは影響力の高い意思決定によって支援されます。 この例として、金融取引の処理に役立つ AI が挙げられます。 AI が悪用され、取引がなんらかの方法で操作された場合、その影響は、個人からシステムまで多岐に及ぶ可能性があります。 高価値のシナリオでは、AI は、整合性、透明性、アカウンタビリティ、そして場合によっては、民事または刑事責任が発生する可能性のある証拠を提供するために、適切な科学捜査およびセキュリティ ログを必要とします。

重要な AI サービスには、アルゴリズム レベルでの監査またはイベントトレース機能が必要になり、それによって開発者は、不正確な決定につながる可能性がある特定の分類子の記録された状態を調べることができます。 この機能は、AI によって生成された決定が疑問視されるたびに、その正確性と透明性を実証するために業界全体に必要です。

イベント トレース機能は、次のような基本的な意思決定情報の相関関係から開始できます。

  1. 最後のトレーニング イベントが発生した期間

  2. トレーニングされた最新のデータセット エントリのタイムスタンプ

  3. 影響の大きい決定に到達するために使用された主要分類子の重みと信頼レベル

  4. 決定に関係した分類子またはコンポーネント

  5. アルゴリズムが到達した最終的な高価値の決定

このようなトレースは、アルゴリズムによって支援される意思決定の大部分には過剰です。 ただし、特定の結果につながるデータ ポイントとアルゴリズム メタデータを識別できることは、価値の高い意思決定において大きなメリットとなります。 このような機能により、"その作業内容を示す" アルゴリズムの機能を通じて信頼性と整合性が実証されるだけでなく、このデータを微調整に使用することもできます。

AI/ML に必要なもう 1 つの科学捜査機能は、改ざんの検出です。 AI が偏りを認識し、その影響を受けないようにする必要があるのと同様に、このような攻撃を検出して対応するエンジニアを支援するための科学捜査機能を用意する必要があります。 このような科学捜査機能は、より効果的な結果を得るためにアルゴリズムの監査、デバッグ、チューニングを可能にするデータ視覚化手法 [11] と組み合わせた場合に大きな価値を生み出します。

AI は、人間がそうしない場合でも機密情報を保護する必要がある

充実したエクスペリエンスには、豊富なデータが必要です。 人間は、ML のトレーニングを行うための大量のデータを既に自発的に提供しています。 これは、平凡なビデオ ストリーミング キューの内容から、不正行為の検出に使用されるクレジット カード購入/取引履歴の傾向まで多岐にわたります。 AI でユーザー データを取り扱う際には深く染み付いた慎重さの感覚が必要であり、情報を過剰に共有する公衆によって自発的に提供された場合でも、常に保護するように動作する必要があります。

AI は、複雑なタスクを遂行するために対話する "ピア" の認証済みグループを持つことができるため、これらのピアと共有するデータを制限する必要性も認識する必要があります。

AI のセキュリティの問題への対処に関する早期の観察

このプロジェクトは初期状態であるにもかかわらず、これまで蓄積された証拠は、以下の各領域の詳細な調査を示している思われます。これは、より信頼性が高く安全な AI/ML 製品またはサービスに向かって業界を動かす鍵となります。 この領域で期待されることについての早期の観察と考察を次に示します。

  1. AI/ML に重点を置いた侵入テストとセキュリティ レビュー機関を確立して、将来の AI が当社の価値を共有し、 Asilomar AI 原則に準拠していることを確認できます。

    1. このようなグループでは、AI/ML ベースのサービスのセキュリティ保護をサポートする際に業界全体で使用できるツールとフレームワークを開発することもできます。
    2. この専門知識は、過去 10 年間にわたる従来のセキュリティの専門知識と同様に、時間の経過と共にエンジニアリング グループ内で有機的に拡大していきます。
  2. このドキュメントで説明されている課題を軽減しながら AI を民主化するなどの目標を企業が達成できるようにするトレーニングを開発することができます。

    1. AI 固有のセキュリティ トレーニングにより、エンジニアは、AI とリソースもたらされるリスクを随意に認識することができます。 この資料は、顧客データの保護に関する現在のトレーニングと共に配布される必要があります。
    2. これは、すべてのデータ科学者がセキュリティの専門家になることを必要とせずに実現できます。代わりに、AI ユース ケースに適用される回復力と慎重さについて開発者を教育することに重点が置かれます。
    3. 開発者は、企業全体で再利用される AI サービスのセキュリティで保護された "ビルディング ブロック" を理解する必要があります。 簡単にオフにすることができるサブシステム (イメージ プロセッサ、テキスト パーサーなど) を使用したフォールトトレラントな設計に重点を置く必要があります。
  3. ML 分類子およびその基盤となるアルゴリズムを強化し、現在使用されている有効なトレーニング データを汚染したり、結果をゆがめたりすることなく、悪意のあるトレーニング データを検出できるようにすることができます。

    1. 否定的な入力の拒否 [6] のような手法では、調査のための研究サイクルが必要です。

    2. この作業には、数学的な検証、コード内の概念実証、および悪意のあるデータと無害な異常データの両方に対するテストが含まれます。

    3. ここでは、特に統計的な異常が存在する場合に、人間のスポットチェック/モデレーションが役立つ場合があります。

    4. "監督分類子" を構築して、複数の AI にわたる脅威をより普遍的に理解することができます。 これにより、攻撃者が特定のモデルからデータを抜き取ることができなくなるため、システムのセキュリティが大幅に向上します。

    5. AI を相互にリンクして、相互のシステム内の脅威を識別できます

  4. AI の透明性と信頼性の標準を確立する、一元化された ML 監査または科学捜査ライブラリを構築できます。

    1. AI によるビジネスへの影響が大きい決定の監査および再構築用にクエリ機能を構築することもできます。
  5. 荒らしや皮肉などを検出して対応するために、さまざまなカルチャ グループやソーシャル メディアで敵対者によって使用されている用語を AI によって継続的にインベントリおよび分析することができます。

    1. AI は、技術、地域、またはフォーラム固有のいずれであるかを問わず、あらゆる種類の用語に対して回復性を必要とします。

    2. この知識の本文は、モデレーターのスケーラビリティの問題に対処するために、コンテンツのフィルター処理、ラベル付け、ブロックの自動化にも活用できます。

    3. この用語のグローバル データベースは、開発ライブラリでホストすることも、異なる UI で再利用するためにクラウド サービス API を介して公開することもできます。これにより、古い API の組み合わせの知恵から新しい API のメリットが得られます。

  6. エンジニアが AI のテスト トレーニング セットにさまざまな種類の攻撃を注入して評価できるようにする "機械学習ファジー フレームワーク" を作成できます。

    1. これにより、テキストの用語だけでなく、画像、音声、ジェスチャ データ、およびそれらのデータ型の配列にも焦点を当てることができます。

まとめ

アシロマ AI 原則は、人間に一貫してメリットをもたらす方法で AI を実現することの複雑さを示しています。 将来の AI では、他の AI とやり取りして、充実した魅力的なユーザーエクスペリエンスを提供する必要があります。 つまり、セキュリティの観点から "AI を正しいものにする" のに Microsoft では不十分で、"世界" でこれを行う必要があります。 Microsoft が世界規模でデジタル版ジュネーブ条約 [9] を推進しているのと同様の方法で、このドキュメントで説明した問題にもたらされる可視性の向上と共に業界の団結とコラボレーションが必要になります。 ここで示した問題に対処することにより、AI が真に民主化され、すべての人間のインテリジェンスを補強する道筋に、お客様と業界のパートナーを導き始めることができます。

参考文献

[1] Taleb, Nassim Nicholas (2007)、 『The Black Swan: The Impact of the Highly Improbable』(ブラック・スワン―不確実性とリスクの本質)、Random House、ISBN 978-1400063512

[2] フロリアン・トラメール、ファン・チャン、アリ・ジュエルズ、マイケル・K・ライター、トーマス・リステンパート、予測 API による機械学習モデルの盗難

[3] イアン・グッドフェルロウ、ニコラ・ペーパーノト、サンディ・フアン、ヤン・ドゥアン、ピーター・アブビール、ジャック・クラーク:敵対的な例で機械学習を攻撃する

[4] サティア・ナデラ:未来のパートナーシップ

[5] Claburn、Thomas:Google のトロール破壊 AI は入力ミスに対処できない

[6] マルコ・バレノ、ブレイン・ネルソン、アンソニー・D・ジョセフ、J.D.ティガー:機械学習のセキュリティ

[7] ウォルチオーバー、ナタリー:この人工知能のパイオニアは、いくつかの懸念を持っています

[8] Conn, Ariel:人工知能を人間の価値とどのように整合させるのか?

[9] スミス、ブラッド:人々をオンラインで安全に保つための緊急の集団行動の必要性:先週のサイバー攻撃からの教訓

[10] Nicholas Carlini、Pratyush Mishra、Tavish Vaidya、Yuankai Zhang、Micah Sherr、Clay Shields、David Wagner、Wenchao Zhou:Hidden Voice Commands

[11] フェルナンダ・ビエガス、マーティン・ワテンバーグ、ダニエル・スミルコフ、ジェームズ・ウェクスラー、ジンボ・ウィルソン、ニキル・ソラト、チャールズ・ニコルソン、Google Research:Big Picture