共用方式為


在Microsoft確保人工智慧與機器學習的未來

由安德魯·馬歇爾、勞爾·羅賈斯、傑·斯托克斯和唐納德·布林克曼

特別感謝馬克·卡特賴特和格雷厄姆·卡拉丁

執行摘要

人工智慧(AI)和 機器學習(ML)已經對人們如何工作、社交和生活產生重大影響。 隨著以 AI/ML 為基礎的產品和服務使用量增加,必須採取專門措施,不僅要保護您的客戶及其資料,還要保護您的 AI 和演算法免受濫用、惡意攻擊和擷取。 此文件分享了一些 Microsoft 從設計基於 AI 的產品和運營線上服務中所學到的安全性經驗。 雖然很難預測這一領域是如何展開的,但我們的結論是,現在有可行的問題要解決。 此外,我們發現科技產業必須提前處理策略性問題,以確保客戶的長期安全以及數據的安全性。

本文件並非著重於人工智慧型攻擊,或者被人類敵對者利用的人工智慧。 相反地,我們專注於微軟和產業合作夥伴需要共同解決的問題,以保護 AI 型產品和服務免受高度複雜、創造性和惡意的攻擊,無論是由惡意挑釁者或成群的攻擊者執行。

本檔完全著重於 AI/ML 空間特有的安全性工程問題,但由於 InfoSec 網域的廣泛本質,因此據瞭解,此處討論的問題和發現與隱私權和道德領域的程度重疊。 由於本文件強調科技產業具有戰略重要性的挑戰,本檔的目標對像是全行業的安全性工程領導階層。

我們的早期發現表明:

  • 需要針對現有的安全性做法進行 AI/ML 特定的調整,以減輕本文件中討論的安全性問題類型。

  • 機器學習 模型基本上無法辨別惡意輸入和良性異常數據。 訓練數據的一個重要來源是源自未經整理、未經審核的公用數據集,這些數據集開放給第三方貢獻。 當攻擊者可以自由地添加數據至數據集時,就不需要打破數據集的安全性。 隨著時間的推移,如果數據結構/格式仍然正確,則低信賴度惡意數據會變成高度信賴信任的數據。

  • 鑒於許多可用於深度學習模型中的隱藏分類器/神經元層,因此對 AI/ML 決策流程和演算法的輸出過於信任,而不需要對這些決策的達成方式有重要瞭解。 這種混淆使得無法「展示您的工作」,並使得在被質疑時難以證明 AI/ML 結果的正確性。

  • AI/ML 越來越多地用於支持醫學和其他產業的高價值決策流程,因為錯誤決策可能會導致嚴重傷害或死亡。 AI/ML 缺乏鑑識報告能力,使這些高價值結論在法律和輿論兩方面都難以被捍衛。

本文件的目標是(1)強調安全性工程問題,這是 AI/ML 空間特有的,(2)浮出一些關於新興威脅的初始想法和觀察,(3) 分享潛在補救的早期想法。 本檔中的一些挑戰是該行業在未來兩年內需要超越的問題,有些是我們今天被迫解決的問題。 若未深入調查本文件涵蓋的區域,我們可能由於無法在數學層級上信任、瞭解(並視需要修改)AI 的決策過程,而使未來的 AI 成為黑盒子 [7]。 從安全性觀點來看,這實際上意味著失去控制權,並偏離Microsoft人工智慧的指導準則 [3, 7]。

新的安全性工程挑戰

傳統軟體攻擊向量仍然很重要,但無法在 AI/ML 威脅環境中提供足夠的涵蓋範圍。 技術產業必須藉由建置新的架構,並採用新的方法來解決 AI/ML 型服務設計和作業的差距,以避免與最後一代解決方案對抗下一代問題:

  1. 如以下所述,安全的開發和運作基礎在保護 AI 和其管控的數據時,必須納入韌性和謹慎的概念。 在驗證、職責分離、輸入驗證,以及緩解服務阻斷等領域,必須進行 AI 特定的調整。 如果沒有對這些領域的投資,AI/ML 服務會繼續與所有技能層級的對手進行艱苦的戰鬥。

  2. AI 必須能夠辨識他人中的偏見,而不會在與人類本身的互動中產生偏差。 完成這項作業需要對偏見、陳規定型觀念、白話和其他文化結構進行集體和進化的理解。 這種理解有助於保護 AI 免受社交工程和數據集竄改攻擊。 正確實施的系統實際上會從這類攻擊中變得更強,並能夠與其他 AI 系統分享其擴充的理解。

  3. 機器學習演算法必須能夠區分惡意導入的數據和良性的 “黑天鵝” 事件 [1],藉此摒棄對結果產生負面影響的訓練數據。 否則,機器學習模型始終容易受到攻擊者和網路酸民的操控。

  4. AI 必須具備內建的鑑識功能。 這可讓企業為客戶提供其 AI 的透明度和責任,確保其動作不僅可驗證正確,而且具有法律上可防禦性。 這些功能也可作為早期形式的「AI 入侵檢測」,讓工程師判斷分類器做出決策的確切時間點、影響數據的數據,以及數據是否值得信任。 此領域的數據視覺效果功能正在快速推進,並顯示承諾,協助工程師找出並解決這些複雜問題的根本原因 [10]。

  5. 即使人類無法辨識機密資訊,AI 也必須辨識及保護機密資訊。 AI 中的豐富用戶體驗需要大量的原始數據來訓練模型,因此需要妥善規劃客戶的「過度分享」。

以下將詳細討論這些區域,包括威脅和潛在風險降低。

AI 需要對傳統安全設計和作業模型進行新的轉變:引入復原力和判斷力。

AI 設計工具必須確保敏感數據的機密性、完整性和可用性、AI 系統沒有已知的弱點,並提供保護、偵測和響應系統或用戶數據的惡意行為控制。

防禦惡意攻擊的傳統方式在此新範例中不提供相同的涵蓋範圍,其中語音/視訊/影像型攻擊可以規避目前的篩選和防禦。 必須探索新的威脅模型化層面,以防止新的濫用行為利用我們的 AI。 這遠遠超出了透過模糊或輸入操作來識別傳統的攻擊面(這些攻擊也有自己的 AI 專屬樞紐)。 它需要納入 AI/ML 空間特有的案例。 其中的關鍵是 AI 用戶體驗,例如語音、視訊和手勢。 與這些體驗相關聯的威脅尚未經過傳統模型化。 例如,影片內容現在已量身打造來引發實體效果。 此外,研究顯示可以創造音頻攻擊命令 [9]。

罪犯、堅定的對手和巨魔的不可預測性、創造力和惡意性要求我們向 AI 灌輸復原和謹慎的價值:

復原: 系統應該能夠識別異常行為,並防止在與 AI 系統和特定工作相關的正常行為界限之外操作或強制運作。 這些是 AI/ML 空間特有的新攻擊類型。 系統應設計為抵制與社區及其創造者持有的當地法律、道德和價值觀相衝突的輸入。 這表示為 AI 提供判斷互動何時「關閉腳本」的功能。 這可以使用下列方法達成:

  1. 找出偏離類似使用者之各種大型叢集所設定規範的個別使用者,例如,似乎輸入太快、回應太快、不睡覺或觸發其他使用者未設定的系統部分的使用者。

  2. 識別被認為是惡意意圖探測攻擊指標以及網絡入侵連鎖反應開始的行為模式。

  3. 在多個使用者以協調方式行事時隨時辨識;例如,多個用戶都會發出相同無法解釋但刻意製作的查詢、用戶數目突然激增,或 AI 系統特定部分啟用時突然暴增。

此類型的攻擊應該與阻斷服務攻擊相同,因為 AI 可能需要修正錯誤並重新定型,以免再次採用相同的技巧。 在對策存在的情況下,能夠識別出惡意意圖至關重要,例如那些用於破壞情感分析 API 的對策 [4]。

自由裁量權:AI 應該是其可存取之任何資訊的負責任且值得信任的監管人。 身為人類,我們無疑會在與 AI 的關係中賦予一定程度的信任。 在某些時候,這些代理人員將代表我們與其他代理人或其他人類交談。 我們必須能夠相信 AI 系統有足夠的自由裁量權,只以受限的形式共用它需要分享的內容,讓其他代理程式可以代表其完成工作。 此外,代表我們與個人資料互動的多個代理人不應該每個都需要全域存取。 涉及多個 AIS 或 Bot 代理程式的任何數據存取案例,都應該將存取的存留期限製為所需的最低範圍。 使用者也應該能夠拒絕分享數據,並拒絕來自特定公司或地區的代理驗證,就像當今的網頁瀏覽器可以封鎖網站一樣。 解決此問題需要對於代理之間的驗證和數據存取權限進行新的思考,這就像在雲端運算初期所進行的雲端式使用者驗證投資一樣。

AI 必須能夠辨識他人中的偏見,而不會自行產生偏見

雖然 AI 應該公平且包容,而不會歧視任何特定群體的個人或有效結果,但它需要先天地瞭解偏見才能達成此目的。 如果沒有接受訓練來辨識偏見、網路惡意行為或諷刺,AI 可能會被那些尋求廉價笑聲的人所欺騙,甚至在最壞的情況下對顧客造成傷害。

達到此層級的認知要求「好人教 AI 壞事」,因為它實際上需要對文化偏見進行全面且不斷演進的瞭解。 AI 應該能夠辨識過去與使用者有負面互動,並謹慎行事,類似於父母如何教孩子警惕陌生人。 處理此問題的最佳方式是讓 AI 在受控、審核、有限的環境中接觸到網路酸民。 如此一來,AI 就可以瞭解良性使用者「踢輪胎」與實際惡意/巨魔之間的差異。 Trolls 為 AI 提供寶貴的訓練數據串流,使其更能抵禦未來的攻擊。

AI 也應該能夠辨識其訓練數據集中的偏見。 這可能與文化或地區有關,包含特定群體使用的方言,或某個群體特別感興趣的主題或觀點。 如同惡意引入的訓練數據,AI 必須能夠有韌性地應對此類數據對其推斷和推理的影響。 其核心是一個複雜的輸入驗證問題,與界限檢查相似。 緩衝區和界限檢查不是處理緩衝區長度和位移,而是來自各種來源的標幟字組。 單字使用的對話歷史和上下文也是關鍵。 就像深度防禦做法是用來在傳統 Web 服務 API 前端上分層保護一樣,應該在偏差辨識和避免技術中運用多層保護。

機器學習演算法必須能夠辨別惡意導入的數據和良性「黑天鵝」事件。

許多白皮書都發表在ML模型/分類器竄改和擷取/竊取服務的理論潛力上,攻擊者可以存取訓練數據集,以及瞭解使用中模型的資訊 [2, 3, 6, 7]。 此處的核心問題在於,所有 ML 分類器都可以被控制訓練數據集的攻擊者所欺騙。 攻擊者甚至不需要修改現有訓練數據集的能力,他們只需要能夠新增數據,並利用 ML 分類器無法辨別惡意數據與真正異常數據的特性,使他們的輸入在一段時間後變得「受信任」。

此定型數據供應鏈問題讓我們瞭解「決策完整性」的概念– 在分類器行為產生負面影響之前,識別和拒絕惡意導入的訓練數據或使用者輸入的能力。 以下是值得信任的訓練數據產生可信任結果/決策的機率較高的理由。 雖然訓練和抵抗不受信任的數據仍然很重要,但應該先分析該數據的惡意本質,再讓其成為高度可信的訓練數據集的一部分。 如果沒有這類措施,AI 可能會被迫對惡意行為過度反應,並拒絕向合法使用者提供服務。

特別需要注意的是,未監督式學習演算法正在使用未經過策劃或不受信任的數據集進行訓練。 這表示攻擊者可以引入任何想要的數據,前提是格式有效,且演算法經過訓練,有效地信任該數據點與定型集的其餘部分相同。 如果攻擊者提供足夠精心設計的輸入,訓練演算法將失去辨別高信賴度數據中的雜訊和異常的能力。

作為此威脅的範例,想像一下世界各地的停止標誌資料庫,以每種語言顯示。 由於涉及的影像和語言數量,這將非常具有挑戰性的策劃。 在自動駕駛汽車不再辨識停止標誌之前,對該數據集的惡意貢獻基本上不會被忽視。 資料韌性和決策完整性緩解措施必須在此攜手合作,以識別並消除惡意數據所造成的訓練損害,防止其成為學習模型的核心要素。

AI 必須具有內建的鑑識和安全性記錄,以提供透明度和責任

AI 最終將能夠代表我們以代理人員的專業能力行事,協助我們做出高影響力的決策。 其中一個範例可能是可協助處理財務交易的 AI。 如果 AI 被惡意探索,並以某種方式操作交易,則後果可能從個人到系統性不等。 在高價值案例中,AI 需要適當的鑑識和安全性記錄,以提供完整性、透明度、責任,以及在某些情況下,可能會產生民事或刑事責任的證據。

基本 AI 服務需要演算法層級的稽核 / 事件追蹤設施,讓開發人員可以檢查特定分類器的記錄狀態,這可能會導致決策不正確。 需要這項功能,才能證明每當被質疑時,AI 產生的決策的正確性和透明度。

事件追蹤設施可以從基本決策資訊的相互關聯開始,例如:

  1. 發生最後一次訓練活動的時間範圍

  2. 最近訓練的數據集項目的時間戳記

  3. 用來達成高影響決策的關鍵分類器的權數和信賴等級

  4. 決策所涉及的分類器或元件

  5. 演算法達成的最終高價值的決策

對於大部分演算法輔助決策而言,這種追蹤過度了。 不過,能夠識別導致特定結果的數據點和演算法元數據,在高價值決策制定方面有很大的好處。 這類功能不僅透過演算法「顯示其工作」的能力來示範可信度和完整性,而且此數據也可用於微調。

AI/ML 所需的另一個鑑識功能是竄改偵測。 就像我們需要我們的 AIS 來辨識偏差,而不是容易受到偏見一樣,我們應該具備鑑識功能,以協助工程師偵測和回應這類攻擊。 當與數據視覺效果技術 [10] 配對時,這類鑑識功能具有巨大的價值,可讓演算法進行稽核、偵錯和微調,以獲得更有效的結果。

AI 必須保護敏感性資訊,即使人類不這麼做

豐富的體驗需要豐富的數據。 人類已經自願提供大量的數據來讓機器學習進行訓練。 這範圍從平凡的視訊串流佇列內容到用來偵測詐騙的信用卡購買/交易歷程記錄的趨勢。 AI 在處理用戶資料時,應該有根深蒂固的謹慎觀念,無論何時都應採取行動來保護資料,即使面對過度共享的公眾自願提供時也不例外。

鑒於 AI 可以擁有一群經過認證的「夥伴」進行交流來完成複雜任務,它也必須認識到對與這些夥伴共享數據的限制。

解決 AI 安全性問題的早期觀察

儘管這個專案處於新階段狀態,但我們相信迄今為止編譯的證據顯示,對下列每個領域進行更深入的調查,是推動我們的產業走向更值得信任且更安全的 AI/ML 產品/服務的關鍵。 以下是我們的早期觀察和想法,以及我們希望在這個領域中看到的發展方向。

  1. 可以建立 AI/ML 導向的滲透測試和安全性檢閱機構,以確保我們未來的 AI 共用我們的價值,並符合 Asilomar AI 準則

    1. 這類群組也可以開發可全產業取用的工具和架構,以支援保護其 AI/ML 型服務。
    2. 隨著時間的推移,這種專業知識將有機地建立在工程群組內,就像過去10年來傳統安全性專業知識一樣。
  2. 可開發訓練,讓企業能夠實現如 AI 大眾化等目標,同時減輕本檔所討論的挑戰。

    1. 針對 AI 的安全訓練可確保工程師了解 AI 所面臨的風險及他們所擁有的資源。 此材料需搭配目前的客戶資料保護訓練進行交付。
    2. 能夠達成,而不需要每個數據科學家成為安全性專家,而是將重點放在教育開發人員,使其了解如何將復原力和審慎運用於其 AI 使用案例。
    3. 開發人員必須瞭解在整個企業中重複使用的 AI 服務的安全「建置組塊」。 需要強調具有子系統的容錯設計,尤其是那些可以輕鬆關閉的子系統(例如,影像處理器、文字剖析器)。
  3. 機器學習分類器及其基礎算法可以強化並能夠偵測惡意訓練數據,而不會污染目前正在使用的有效訓練數據或扭曲結果。

    1. 如拒絕負輸入 [5] 等技術需要研究人員投入時間進行調查。

    2. 這項工作涉及數學驗證、程序代碼中的概念證明,以及針對惡意和良性異常數據進行測試。

    3. 在這裡,人類抽查/審核可能有幫助,特別是在統計異常存在的地方。

    4. 可以建立「監控分類器」,以更全面理解多個人工智慧的威脅。 這可大幅改善系統的安全性,因為攻擊者無法再外洩任何特定模型。

    5. AIS 可以連結在一起,以識別彼此系統中的威脅

  4. 可以建置集中式 ML 稽核/鑑識連結庫,以建立 AI 透明度和可信度的標準。

    1. 您也可以建置查詢功能,以稽核和再現由 AI 做出的具有高業務影響的決策。
  5. 跨不同文化群體和社交媒體中對手所使用的白話,可以由 AI 持續進行清查和分析,以偵測和回應網絡酸民、諷刺等行為。

    1. 面對各種用語,無論是技術、區域還是論壇特定,AI 在面對時都需要具備彈性。

    2. 此知識體系也可用於內容篩選/標示/封鎖自動化,以解決版主可擴展性困難問題。

    3. 此全域詞彙資料庫可以裝載於開發函式庫中,甚至可以透過雲端服務 API 公開,讓不同的 AI 重複使用,確保新的 AI 受益於舊版本的智慧結合。

  6. 可以建立「機器學習 模糊架構」,讓工程師能夠將各種類型的攻擊插入測試訓練集,以供 AI 評估。

    1. 這不僅可以專注於文本語言的白話形式,還可以關注影像、語音和手勢數據,以及這些數據類型的各種組合和變化。

結論

Asilomar AI 準則說明以持續造福人類的方式提供 AI 的複雜性。 未來的 AIS 必須與其他 AIS 互動,以提供豐富且吸引人的用戶體驗。 這意味著,從安全性觀點來看,光是 Microsoft 「做好 AI 」還不夠,整個世界都必須如此。 我們需要產業整合與合作,並提高對本文檔中的問題的關注,這樣的方式類似於我們在全球推動數位日內瓦公約的行動。 藉由解決此處所呈現的問題,我們可以開始引導我們的客戶和產業合作夥伴走上真正民主化並增強全人類智慧的道路。

參考書目

[1] 塔雷布,納西姆·尼古拉斯(2007), 黑天鵝:不可能事件的影響, Random House,ISBN 978-1400063512

[2] Florian Tramèr、Fan Zhang、Ari Juels、Michael K. Reiter、Thomas Ristenpart、透過預測 API 竊取 機器學習 模型

[3] 薩蒂亞·納德拉:未來夥伴關係

[4] Claburn、Thomas:谷歌的摧毀巨魔 AI 無法處理錯字

[5] Marco Barreno、Blaine Nelson、Anthony D. Joseph、J.D. Tygar:機器學習的安全性

[6] 沃爾喬弗,娜塔莉:這個人工智慧先驅有幾個顧慮

[7] Conn,Ariel:我們如何將人工智慧與人類價值觀保持一致?

[8] 史密斯,布拉德:需要緊急集體行動,以確保人們安全在線:從上周的網路攻擊中吸取教訓

[9] 尼古拉斯·卡利尼、普拉提尤什·米什拉、塔維什·維迪亞、元凱·張、米卡·舍爾、克萊·席爾茲、大衛·瓦格納、周文超:隱藏的聲音命令

[10] 費爾南達·維加斯、馬丁·瓦滕貝格、丹尼爾·斯米爾科夫、詹姆斯·韋克斯勒、吉姆博·威爾遜、尼克爾·索拉特、查理斯·尼科爾森、谷歌研究:大局