次の方法で共有


Microsoft での人工知能と機械学習の未来の保護

Andrew Marshall、Raul Rojas、Jay Stokes、Donald Brinkman

Mark Cartwright と Graham Calladine に感謝します

概要

人工知能 (AI) と機械学習 (ML) は、人々の仕事、社交、生活に既に大きな影響を与えています。 AI/MLを使用して構築された製品とサービスの使用が増えるにつれて、顧客とそのデータを保護するだけでなく、AI とアルゴリズムを不正使用、荒らし、抽出からも保護するために、特殊な操作を行う必要があります。 このドキュメントでは、AI 上に構築された製品の設計とオンライン サービスの運用から学んだ Microsoftのセキュリティに関する教訓をいくつか紹介します。 この領域がどのように展開されるかを予測するのは困難ですが、今すぐ対処すべきアクション可能な問題があるという結論に達しました。 さらに、顧客の長期的な安全とデータのセキュリティを確保するために、テクノロジ業界が先手を打つ必要のある戦略的な問題があることがわかりました。

このドキュメントは、AI ベースの攻撃や AI が人間の敵対者によって利用されていることに関するものではありません。 代わりに、個人の荒らし屋と敵対集団全体のどちらが行ったものかを問わず、高度に洗練され、クリエイティブかつ悪意のある攻撃から AI ベースの製品とサービスを保護するために Microsoft と業界のパートナーが対処する必要がある問題に焦点を当てています。

このドキュメントでは、AI/ML 領域に固有のセキュリティ エンジニアリングの問題についてのみ説明しますが、InfoSec ドメインの広範な性質により、ここで説明する問題と調査結果は、プライバシーと倫理の領域との間である程度重複することがわかっています。 このドキュメントでは、テクノロジ業界において戦略的に重要な課題を取り上げています。このドキュメントの対象読者は、業界全体のセキュリティ エンジニアリング リーダーです。

初期の調査結果では、次のことが示唆されています。

  • このドキュメントで説明しているセキュリティの問題のタイプを軽減するには、既存のセキュリティ プラクティスに対する AI/ML 固有のピボットが必要です。

  • 機械学習モデルでは、悪意のある入力と無害な異常データをほぼ区別できません。 トレーニング データの重要なソースは、サードパーティからの投稿を受け入れている、キュレーションやモデレートが行われていないパブリック データセットから派生しています。 攻撃者は、データセットへの投稿を自由に行うことができる場合、データセットを侵害する必要はありません。 データ構造と書式設定が正しいままであれば、時間の経過とともに、信頼性の低い悪意のあるデータが信頼性の高いデータになります。

  • ディープ ラーニング モデルで使用できる隠れた分類子やニューロンのレイヤーが非常に多いことを考えると、AI/ML の意思決定プロセスとアルゴリズムの出力は、どのようにしてその決定に至ったかを批判的に理解することなく、過剰な信頼が置かれています。 この難読化により、"自分の作業内容を示す" ことができなくなり、疑われたときに AI/MLの結果を実証可能な方法で防御することが難しくなります。

  • AI/ML は、間違った決定が重大な負傷や死亡につながる可能性のある医療やその他の業界での価値の高い意思決定プロセスのサポートで使用されることが増えています。 AI/ML には科学捜査レポート機能がないので、このような価値の高い結論を裁判所および世論という法廷の両方で擁護することはできません。

このドキュメントの目的は、(1) AI/ML 領域に固有のセキュリティ エンジニアリングの問題を強調すること、(2) 新たに出現する脅威についての初期見解と観察を明らかにすること、および (3) 潜在的な修復に関する早期の見解を共有することです。 このドキュメントの課題のいくつかは、業界が今後2年間に先手を打つ必要がある問題であり、その他の問題は既に今すぐ対処せざるを得ない問題です。 このドキュメントに記載されている領域を詳しく調査しないと、AI の意思決定プロセスを数学的なレベルで信頼または理解 (および必要に応じて変更) できないため、今後 AI がブラック ボックスになるリスクがあります [7]。 セキュリティの観点からは、これは事実上、制御が失われ、人工知能における Microsoft の基本原則から逸脱することを意味します [3、7]。

新しいセキュリティ エンジニアリングの課題

従来のソフトウェア攻撃ベクトルは引き続き対処が不可欠ですが、AI/ML の脅威の状況に対しては十分なカバレッジを提供していません。 テクノロジ業界では、新しいフレームワークを構築し、AI/ML ベースのサービスの設計と運用のギャップに対処する新しいアプローチを採用することにより、前世代のソリューションで次世代の問題に対抗するのを回避する必要があります。

  1. 以下で説明するように、AI とその制御化にあるデータを保護する際には、セキュリティで保護された開発と運用の基盤に回復力と慎重さの概念を組み込む必要があります。 認証、職務の分離、入力の検証、サービス拒否の軽減の領域には、AI 固有のピボットが必要です。 これらの領域に投資しない場合、AI/ML サービスは、すべてのスキル レベルの敵対者に対して苦戦し続けます。

  2. AI は、人間との対話で偏見を持つことなく、他者の偏見を認識できる必要があります。 これを実現するには、偏見、ステレオタイプ、専門用語、その他の文化的な構成要素を総合的かつ発展的に理解する必要があります。 このような理解は、ソーシャル エンジニアリングやデータセットの改ざん攻撃から AI を保護するのに役立ちます。 適切に実装されたシステムは、実際にはこのような攻撃により強化され、拡張された理解を他の AI と共有できるようになります。

  3. 機械学習アルゴリズムでは、結果に悪影響を及ぼすトレーニング データを拒否することにより、悪意を持って導入されたデータと無害な "ブラック スワン" イベント [1] を区別できる必要があります。 そうしないと、学習モデルは、攻撃者や荒らしによるゲームの影響を常に受けやすくなります。

  4. AI には、組み込みの科学捜査機能が必要です。 これにより、企業は自社の AI の透明性とアカウンタビリティを顧客に提供できるようになるので、その行動が検証可能な形で正しくなるだけでなく、法的防御も可能になります。 これらの機能は、"AI 侵入検出"の初期の形式としても機能します。これにより、エンジニアは、分類子によって意思決定が行われた正確な時点、影響を受けるデータ、およびデータが信頼できるかどうかを判断できます。 この領域のデータ視覚化機能は急速に進化しており、エンジニアがこれらの複雑な問題の根本原因を特定して解決するのに役立つ見込みがあります [10]。

  5. AI は、人間がそれとは認識していない場合でも機密情報を認識し、保護する必要があります。 AIの充実したユーザー エクスペリエンスには、トレーニングする生データが大量に必要であるため、顧客による "過剰な共有" に対する計画が必要です。

脅威や潜在的な軽減策などを含むこれらの各領域については、以下で詳しく説明します。

AI では、従来のセキュリティで保護された設計およびセキュリティで保護された運用モデルへの新しいピボットが必要: 回復力と慎重さの導入

AI デザイナーは、機密データの機密性、整合性、可用性を確保する必要があります。また、AI システムに既知の脆弱性がなく、システムやユーザーのデータに対する悪意のある動作に対する保護、検出、対応を行うための制御が備わっている必要があります。

悪意のある攻撃から保護する従来の方法では、音声、ビデオ、または画像ベースの攻撃によって現在のフィルターと防御が回避される可能性があるこの新しいパラダイムに同じカバレッジは提供されません。 新たな不正利用者によって AI が悪用されないように、新しい脅威のモデル化の側面を調査する必要があります。 これは、ファジー処理または入力操作によって従来の攻撃対象領域を識別するだけではありません (これらの攻撃にも、独自の AI 固有のピボットがあります)。 AI/ML 領域に固有のシナリオを組み込む必要があります。 これらのうち重要なのは、音声、ビデオ、ジェスチャなどの AI ユーザー エクスペリエンスです。 これらのエクスペリエンスに関連する脅威は、従来、モデル化されてきませんでした。 たとえば、ビデオ コンテンツは、物理的な効果を誘発するように調整されています。 さらに、研究では、音声ベースの攻撃コマンドを作成できることが実証されています [9]。

犯罪者、敵対者、荒らしの予測不能性、創造性、および悪意により、AI に回復力慎重さの価値を組み込むことが必要になります。

回復力: システムは、異常な動作を特定し、AI システムと特定のタスクに関して許容される動作の通常の境界を超えた操作や強制を防止できなければなりません。 これらは、AI/ML 領域に固有の新しい種類の攻撃です。 システムは、コミュニティとその作成者が有する地域の法律、倫理、および価値観と競合する可能性がある入力に抵抗するように設計されている必要があります。 これは、対話が 「台本からそれた」 ときに、それを特定する機能をAI に提供することを意味します。 これは次の方法で実現できます。

  1. 同様のユーザーのさまざまな大規模クラスターによって設定された規範から逸脱した個々のユーザーを特定します。たとえば、入力が速すぎる、応答が速すぎる、眠らない、または他のユーザーが行わないシステムの部分をトリガーするユーザーなどです。

  2. 悪意のある意図でのプローブ攻撃と、ネットワーク侵入強制終了チェーンの開始のインジケーターとして知られる動作のパターンを特定します。

  3. 複数のユーザーが連携して行動する場合に、それを随時認識します。たとえば、複数のユーザー全員が、説明不能だが意図的に細工された同じクエリを発行している、ユーザー数が急増している、AI システムの特定の部分のアクティブ化が急増しているなどです。

この種類の攻撃は、AI が同じ罠に二度とはまらないようにバグ修正や再トレーニングが必要になる可能性があるため、サービス拒否攻撃と同等のものと見なす必要があります。 重要度が高いのは、感情分析 API を無効化するために使用されるような対策がある場合でも、悪意のある意図を特定する機能です [4]。

裁量: AI は、アクセスできるあらゆる情報の責任ある信頼できる管理者である必要があります。 人として私たちは、AI との関係に一定の信頼を置いていることは間違いありません。 これらのエージェントは、ある時点で他のエージェントまたは他の人間とやり取りします。 他のエージェントがタスクを完了できるように私たちについて共有する必要がある情報を、制限された形式でのみ共有するために、十分な慎重さが AI システムにあることを信頼できる必要があります。 さらに、私たちの代わりに個人データを操作する複数のエージェントそれぞれが、それに対するグローバル アクセスを必要としないようにする必要があります。 複数の AI またはボット エージェントが関係するデータ アクセス シナリオでは、アクセスの有効期間を必要最小限に抑える必要があります。 また、現在 Web ブラウザーでサイトのブロックが許可されているのと同じように、ユーザーはデータを拒否し、特定の企業や地域からのエージェントの認証を拒否できる必要があります。 この問題を解決するには、クラウド コンピューティングの当初数年に行われたクラウドベースのユーザー認証への投資のような、エージェント間の認証とデータ アクセス特権に関する新たな思考が必要です。

AI は、それ自体が偏見を持つことなく、他者の偏見を認識できる必要がある

AI は、特定の個人グループや有効な結果を選り好みすることなく公平かつ包括的である必要がありますが、これを実現するには偏見について本質的に理解している必要があります。 偏見、荒らし、または皮肉を認識するようにトレーニングされていないと、AI はよくても安っぽい笑いを求めている人にだまされ、最悪の場合には顧客に害を及ぼす可能性があります。

このような認識レベルを実現するには、事実上、文化的偏見を包括的かつ発展的に理解する必要があるため、"善良な人が AI に悪いことを教える" 必要があります。 親が子どもに見知らぬ人に用心するように教えるのと同じように、AI は過去に否定的なやり取りを行っていたユーザーを認識し、適切な注意を払える必要があります。 これに取り組む最善の方法は、制御、モデレート、制限された方法で AIを荒らしに注意深く公開することです。 これにより、AI は、"製品を調べている" 無害なユーザーと実際の悪意のある行為や荒らしとの違いを学習できます。 荒らしは AI に貴重なトレーニング データのストリームを提供し、将来の攻撃に対する回復力を高めます。

AI は、トレーニング対象のデータセット内の偏りも認識できる必要があります。 これには、特定のユーザー グループによって使用されている用語など、文化的または地域的なものや、あるグループにとって関心のあるトピックまたは視点があります。 悪意を持って導入されたトレーニング データの場合と同様に、AI は、このデータがそれ自身の推論と演繹に与える影響に対して回復力を備えている必要があります。 中核となるのは、境界チェックに似た高度な入力検証の問題です。 バッファーの長さとオフセットを処理するのではなく、バッファーと境界のチェックは、さまざまなソースからの赤いフラグが付いた要注意単語です。 単語が使用される会話の履歴とコンテキストも重要です。 多層防御のプラクティスを使用して従来の Web サービス API フロントエンド上で保護をレイヤー化するのと同じように、複数レイヤーの保護を偏りの認識および回避手法で活用する必要があります。

機械学習アルゴリズムは、悪意を持って導入されたデータと "ブラック スワン" イベントを区別できる必要がある

ML モデルまたは分類子の改ざんや、サービス (攻撃者がトレーニング データ セットと使用中のモデルについての十分な知識の両方にアクセスできるもの) からの抽出または窃盗の理論上の可能性について、多くのホワイトペーパーが発行されています [2、3、6、7]。 ここでの包括的な問題は、トレーニング セット データを制御できる攻撃者が、すべての ML 分類子をだますことができることです。 攻撃者は、既存のトレーニング セット データを変更できる必要はなく、それに追加できるだけでよく、ML 分類子が悪意のあるデータと本物の異常データを区別できないことを利用して、時間の経過と共に自分の入力が "信頼" されるようにします。

このトレーニング データ サプライ チェーンの問題により、"決定の整合性"の概念が導入されます。これは、分類子の動作に悪影響が及ぶ前に、悪意を持って導入されたトレーニング データまたはユーザー入力を識別して拒否する機能です。 ここでの根拠は、信頼できるトレーニング データでは信頼できる結果や決定が生成される確率が高いことです。 データのトレーニングを行い、信頼できないデータに対する回復力を持つことは依然として重要ですが、そのデータの悪意のある性質は、信頼性の高い一群のトレーニング データの一部になる前に分析する必要があります。 このようなメジャーがないと、AI は荒らしに過剰に反応せざるを得ず、正当なユーザーへのサービスを拒否する可能性があります。

これは、教師なし学習アルゴリズムを、選別されていない、または信頼されていないデータセットでトレーニングする場合に特に問題になります。 つまり攻撃者は、形式が有効で、アルゴリズムがトレーニングされていれば、必要な任意のデータを導入することができ、事実上そのデータ ポイントはトレーニング セットの残りの部分と同様に信頼されます。 攻撃者からの十分な細工がされた入力により、トレーニング アルゴリズムは、ノイズや異常値と信頼性の高いデータを区別する能力を失います。

この脅威の例として、すべての言語での世界中の通行止め標識のデータベースを想像してください。 これは、関係するイメージと言語の数が原因で、キュレーションがきわめて困難です。 自動運転車が通行止め標識を認識しなくなるまで、たいていはそのデータセットに対する悪意のある投稿は気付かれません。 データの回復力と決定の整合性のリスク軽減は、ここで連携して行う必要があります。これにより、悪意のあるデータによるトレーニングの損傷を特定して除去し、学習モデルの中核部分にならないようにする必要があります。

AI には、透明性とアカウンタビリティを提供するために、組み込みの科学捜査とセキュリティ ログが必要

AI は、最終的にはエージェントとしての専門能力で動作できるようになるので、私たちは影響力の高い意思決定によって支援されます。 この例として、金融取引の処理に役立つ AI が挙げられます。 AI が悪用され、取引がなんらかの方法で操作された場合、その影響は、個人からシステムまで多岐に及ぶ可能性があります。 高価値のシナリオでは、AI は、整合性、透明性、アカウンタビリティ、そして場合によっては、民事または刑事責任が発生する可能性のある証拠を提供するために、適切な科学捜査およびセキュリティ ログを必要とします。

重要な AI サービスには、アルゴリズム レベルでの監査またはイベント トレース機能が必要です。それによって開発者は、不正確な決定につながる可能性がある特定の分類子の記録された状態を調べることができます。 この機能は、AI によって生成された決定が疑問視されるたびに、その正確性と透明性を実証するために業界全体に必要です。

イベント トレース機能は、次のような基本的な意思決定情報の相関関係から開始できます。

  1. 最後のトレーニング イベントが発生した期間

  2. トレーニングされた最新のデータセット エントリのタイムスタンプ

  3. 影響の大きい決定に到達するために使用された主要分類子の重みと信頼レベル

  4. 決定に関係した分類子またはコンポーネント

  5. アルゴリズムが到達した最終的な高価値の決定

このようなトレースは、ほとんどのアルゴリズムによって支援される意思決定には過剰です。 ただし、特定の結果につながるデータ ポイントとアルゴリズム メタデータを識別できることは、価値の高い意思決定において大きなメリットとなります。 このような機能により、"その作業内容を示す" アルゴリズムの機能を通じて信頼性と整合性が実証されるだけでなく、このデータを微調整に使用することもできます。

AI/ML に必要なもう1つの科学捜査機能は、改ざんの検出です。 AI が偏りを認識し、その影響を受けないようにする必要があるのと同様に、このような攻撃を検出して対応するエンジニアを支援するための科学捜査機能を用意する必要があります。 このような科学捜査機能は、より効果的な結果を得るためにアルゴリズムの監査、デバッグ、チューニングを可能にするデータ視覚化手法 [10] と組み合わせた場合に大きな価値を生み出します。

AI は、人間がそうしない場合でも機密情報を保護する必要がある

充実したエクスペリエンスには、豊富なデータが必要です。 人間は、MLのトレーニングを行うための大量のデータを既に自発的に提供しています。 これは、平凡なビデオ ストリーミング キューの内容から、不正行為の検出に使用されるクレジット カード購入/取引履歴の傾向まで多岐にわたります。 AI でユーザー データを取り扱う際には深く染み付いた慎重さの感覚が必要であり、情報を過剰に共有する一般の人々よって自発的に提供された場合でも、それを保護するために常に行動する必要があります。

AI は、複雑なタスクを遂行するために対話する "ピア"の認証済みグループを持つことができるため、これらのピアと共有するデータを制限する必要性も認識する必要があります。

AIのセキュリティの問題への対処に関する早期の観察

このプロジェクトはまだ初期段階ですが、これまで蓄積された証拠から、以下の各領域を深く調査することが、より信頼性が高く安全な AI/ML 製品またはサービスに向かって業界を動かす鍵となると考えています。 この領域で期待されることについての早期の観察と考察を次に示します。

  1. AI/ML に重点を置いた侵入テストとセキュリティ レビューの団体を設立して、将来の AI が価値を共有し、アシロマ AI 原則に合わせて調整されるようにすることができます。

    1. このようなグループでは、AI/ML ベースのサービスのセキュリティ保護をサポートする際に業界全体で使用できるツールとフレームワークを開発することもできます。
    2. この専門知識は、過去 10年間にわたる従来のセキュリティの専門知識と同様に、時間の経過と共にエンジニアリング グループ内で有機的に拡大していきます。
  2. このドキュメントで説明されている課題を軽減しながら AIを民主化するなどの目標を企業が達成できるようにするトレーニングを開発することができます。

    1. AI 固有のセキュリティ トレーニングにより、エンジニアは、AI とリソースもたらされるリスクを随意に認識することができます。 この資料は、顧客データの保護に関する最新のトレーニングとともに提供する必要があります。
    2. これは、すべてのデータ科学者がセキュリティの専門家になることを必要とせずに実現できます。代わりに、AI ユース ケースに適用される回復力と慎重さについて開発者を教育することに重点が置かれます。
    3. 開発者は、企業全体で再利用される AI サービスの安全な "ビルディング ブロック" を理解する必要があります。 簡単にオフにすることができるサブシステム (イメージ プロセッサ、テキスト パーサーなど) を使用したフォールトトレラントな設計に重点を置く必要があります。
  3. ML 分類子およびその基盤となるアルゴリズムを強化し、現在使用されている有効なトレーニング データを汚染したり、結果をゆがめたりすることなく、悪意のあるトレーニング データを検出できるようにすることができます。

    1. 否定的な入力の拒否 [5] のような手法では、調査のための研究サイクルが必要です。

    2. この作業には、数学的な検証、コード内の概念実証、および悪意のあるデータと無害な異常データの両方に対するテストが含まれます。

    3. ここでは、統計的異常が存在する場合には特に、人間によるスポットチェックやモデレーションが有益である可能性があります。

    4. "監督分類子"を構築して、複数の AI にわたる脅威をより普遍的に理解することができます。 これにより、攻撃者が特定のモデルからデータを抜き取ることができなくなるため、システムのセキュリティが大幅に向上します。

    5. AIを相互にリンクして、相互のシステム内の脅威を識別できます

  4. AIの透明性と信頼性の標準を確立する、一元化された ML 監査または科学捜査ライブラリを構築できます。

    1. AI によるビジネスへの影響が大きい決定の監査および再構築用にクエリ機能を構築することもできます。
  5. 荒らしや皮肉などを検出して対応するために、さまざまなカルチャ グループやソーシャル メディアで敵対者によって使用されている用語をAI によって継続的にインベントリおよび分析することができます。

    1. AI は、技術、地域、またはフォーラム固有のいずれであるかを問わず、あらゆる種類の用語に対して回復性を必要とします。

    2. この一群の知識をコンテンツのフィルター処理、ラベル付け、ブロックの自動化で使用して、モデレーターのスケーラビリティの問題に対処することもできます。

    3. この用語のグローバル データベースは、開発ライブラリにホストしたり、別の AI で再利用するためにクラウド サービス APIを介して公開したりすることができます。これにより、統合された以前のものの英知を新しい AI で利用できます。

  6. エンジニアが AIのテスト トレーニング セットにさまざまな種類の攻撃を注入して評価できるようにする "機械学習ファジー フレームワーク"を作成できます。

    1. これにより、テキストの用語だけでなく、画像、音声、ジェスチャ データ、およびそれらのデータ型の配列にも焦点を当てることができます。

まとめ

アシロマ AI 原則は、人間に一貫してメリットをもたらす方法で AIを実現することの複雑さを示しています。 将来の AI は、他の AI とやり取りして、充実した魅力的なユーザー エクスペリエンスを提供する必要があります。 つまり、Microsoft がセキュリティの観点から "AI を正しく理解する" だけでは不十分で、"世界" がそれを実現する必要があります。 Microsoft が世界規模でデジタル版ジュネーブ条約 [8] を推進しているのと同様の方法で、このドキュメントで説明した問題に対する可視性を高めるために、業界の団結とコラボレーションが必要になります。 ここで示した問題に対処することにより、AI が真に民主化され、すべての人間のインテリジェンスを補強する道筋に、お客様と業界のパートナーを導き始めることができます。

参考文献

[1] Taleb、Nassim Nicholas (2007)、『The Black Swan: The Impact of the Highly Improbable』(ブラック・スワン―不確実性とリスクの本質)、Random House、ISBN 978-1400063512

[2] Florian Tramèr、Fan Zhang、Ari Juel、Michael K. Reiter、Thomas Ristenpart、 『Stealing Machine Learning Models via Prediction APIs』(予測 API を介した機械学習モデルの盗用)

[3] Satya Nadella:The Partnership of the Future」 (未来のパートナーシップ)

[4] Claburn、Thomas:Google's troll-destroying AI can't cope with typos」 (Google の荒らし対応 AI はタイポに対処できない)

[5] Marco Barreno、Blaine Nelson、Anthony D. Joseph、J.D.Tygar:The security of machine learning」 (機械学習のセキュリティ)

[6] Wolchover、Natalie:This Artificial Intelligence Pioneer Has a Few Concerns」 (この人工知能の先駆者が持ついくつかの懸念事項)

[7] Conn、Ariel:How Do We Align Artificial Intelligence with Human Values?」 (人工知能と人間の価値を調整する方法)

[8] Smith、Brad:The need for urgent collective action to keep people safe online: Lessons from last week’s cyberattack」 (人々をオンラインで安全に保つための緊急の集団行動の必要性:先週のサイバー攻撃からの教訓)

[9] Nicholas Carlini、Pratyush Mishra、Tavish Vaidya、Yuankai Zhang、Micah Sherr、Clay Shields、David Wagne、Wenchao Zhou:Hidden Voice Commands」 (非表示の音声指示コマンド)

[10] Fernanda Viégas、Martin Wattenberg、Daniel Smilkov、James Wexler、Jimbo Wilson、Nikhil Thorat、Charles Nicholson、Google Research: Big Picture