機器學習中的失效模式

Microsoft公司	哈佛大學伯克曼克萊因網際網路與社會中心
拉姆·尚卡爾·西瓦·庫馬爾	大衛·歐布萊恩
傑佛瑞·斯諾弗	肯德拉·艾伯特
	薩洛梅·維爾約恩

2019年11月

引言與背景

過去兩年，已有超過200篇論文探討機器學習（ML）如何因演算法與資料遭受對抗性攻擊而失敗;如果我們納入非對抗性的失效模式，這個數字會大幅增加。大量論文讓機器學習從業者，更別說工程師、律師和政策制定者，難以跟上對機器學習系統的攻擊與防禦。然而，隨著這些系統越來越普及，了解它們如何失效，無論是被對手操控，還是系統本身設計所致，將變得更加迫切。本文件的目的是將這兩種失效模式合併在一處。

故意失敗 ，即由主動攻擊者試圖顛覆系統以達成其目的所造成——無論是誤判結果、推斷私有訓練資料，或竊取底層演算法。
非故意的失敗，因為機器學習系統產生了形式上正確但完全不安全的結果。

我們想指出，還有其他分類法和框架分別強調有意性失敗模式[1^]，[2]與非故意失敗模式[3]^，[4]。我們的分類將兩種不同的失效模式整合在同一處，並滿足以下需求：

需要讓軟體開發人員、資安事件應變人員、律師和政策制定者擁有共同的語言，來討論這個問題。在去年開發了初步分類法後，我們與 Microsoft、23 個外部合作夥伴、標準組織及政府的安全與機器學習團隊合作，了解利害關係人將如何使用我們的框架。根據這項可用性研究與利害關係人回饋，我們對框架進行了迭代。

結果： 當面臨機器學習失效模式時，我們經常觀察到軟體開發者和律師會在心裡將機器學習失敗模式映射到傳統軟體攻擊，如資料外洩。因此，整篇論文我們試圖強調機器學習失效模式在技術與政策層面上與傳統軟體失效有明顯差異。
工程師需要一個共同平台，以便在現有軟體開發與安全實務之上建構並整合進去。大致而言，我們希望分類法不僅僅是教育工具，而是能實現具體的工程成果。

結果： 以這個分類法為參考點，Microsoft 為整個組織修改了其安全開發生命週期流程。具體來說，Microsoft 的資料科學家與資安工程師現在共享此分類法的通用語言，使他們能更有效地在部署到生產環境前對機器學習系統進行威脅建模;安全事件應變人員也設有錯誤欄，專門針對這些機器學習（ML）專屬的新威脅進行分流，這是 Microsoft 安全回應中心及所有 Microsoft 產品團隊使用的標準漏洞分流與回應流程。
政策制定者與律師之間需要一套共同的詞彙來描述這些攻擊事件。我們相信，描述不同機器學習失效模式並分析其危害可能被調控的過程，是邁向明智政策的重要第一步。

結果： 此分類法面向廣泛的跨領域讀者——因此，從一般機器學習/人工智慧視角，以及錯誤資訊/醫療等特定領域來看問題的政策制定者，應該會覺得失敗模式目錄非常有用。我們也強調任何適用的法律介入措施，以解決失敗模式。

另見 Microsoft 的 AI/ML 系統與其相依元件的威脅建模以及用於機器學習漏洞的 SDL Bug Bar 標準。

如何使用此文件

在開始，我們承認這是一份動態文件，將隨著威脅環境的變化而演進。我們也未在此處規定技術緩解這些失效模式，因為防禦是情境特定，且與所考慮的威脅模型與系統架構相關。威脅緩解方案基於現有研究，預期防禦措施也會隨時間演進。

工程師建議瀏覽可能失敗模式的概述，並直接進入威脅建模文件。如此一來，工程師能識別威脅、攻擊與漏洞，並利用框架規劃可用的反制措施。接著我們會引導你參考錯誤欄，該欄將這些新漏洞與傳統軟體漏洞並列分類，並為每個機器學習漏洞（如嚴重、重要）提供評等。這個錯誤條很容易整合進現有的事件回應流程或操作手冊中。

對律師與政策制定者而言，本文件組織機器學習失敗模式，並提出分析關鍵議題的框架，適用於任何探索政策選項者，例如此處所做的工作[5]^，[6]。具體來說，我們已將失敗與後果分類，讓政策制定者能開始區分成因，這將有助於推動機器學習安全與保障的公共政策倡議。我們希望政策制定者能利用這些分類開始具體分析現有法律體系如何（或無法）充分捕捉新興議題，哪些歷史法律體系或政策解決方案可能已經處理過類似的損害，以及我們應在哪些部分特別關注公民自由的問題。

文件結構

在 「故意失敗模式 」與「 非故意失敗模式 」兩節中，我們簡要定義了攻擊方式，並舉出文獻中的說明範例。

在 「故意失效模式 」部分，我們提供了額外欄位：

攻擊試圖破壞機器學習系統的哪些部分——機密性、完整性或可用性？我們定義保密性為確保機器學習系統的組成部分（資料、演算法、模型）僅能被授權方存取;完整性被定義為確保機器學習系統僅能被授權方修改;可用性定義為確保機器學習系統對授權方可存取。保密性、完整性與可用性合稱為中央情報局三位一體。針對每一種故意失敗模式，我們嘗試找出CIA三位一體中哪一個被滲透。
發動這種攻擊需要多少知識——黑盒子還是白盒子？在黑箱式攻擊中，攻擊者無法直接存取訓練資料，不了解所使用的機器學習演算法，也無法取得模型的原始碼。攻擊者僅查詢模型並觀察回應。在白箱式攻擊中，攻擊者擁有機器學習演算法的知識或模型原始碼的存取權。
評論攻擊者是否違反了傳統技術上的存取/授權概念。

故意引發失敗摘要

劇本編號	攻擊	概觀	違反傳統技術上的存取/授權概念？
1	微擾攻擊	攻擊者修改查詢以獲得適當的回應	No
2	中毒攻擊	攻擊者會污染機器學習系統的訓練階段以達成預期結果	No
3	模型反轉	攻擊者透過謹慎查詢恢復模型中使用的秘密特徵	No
4	成員推論	攻擊者可以推斷某個資料記錄是否屬於模型的訓練資料集	No
5	模型盜竊	攻擊者能透過精心設計的查詢來恢復模型	No
6	重新編程機器學習系統	將機器學習系統重新利用，用於執行它未被程式設計的活動	No
7	物理領域的對抗性範例	攻擊者將對抗性範例帶入物理領域以顛覆機器學習系統，例如：3D 列印特殊眼鏡以欺騙臉部辨識系統	No
8	惡意機器學習提供者正在恢復訓練資料	惡意機器學習提供者可以查詢客戶所使用的模型，並恢復客戶的訓練資料	是的
9	攻擊機器學習供應鏈	攻擊者在下載機器學習模型時入侵	是的
10	後門機器學習	惡意機器學習提供者的後門演算法，會在特定觸發條件下啟動	是的
11	利用軟體依賴關係	攻擊者利用傳統軟體漏洞如緩衝區溢位來混淆或控制機器學習系統	是的

意外失敗摘要

劇本#	失敗	概述
12	獎勵駭客	強化學習（RL）系統的行為出乎意料，是因為陳述的獎勵與真實獎勵不匹配
13	副作用	強化學習系統在嘗試達成目標時會擾亂環境
14	分布轉移	系統在某種環境中進行測試，但無法適應其他環境的變化
15	自然對立範例	若無攻擊者擾動，機器學習系統因硬負向挖礦而失效
16	常見的腐敗	系統無法處理常見的損毀與干擾，如傾斜、放大或雜訊影像。
17	不完整的測試	機器學習系統並未在其設計的實際運作條件下進行測試。

故意動機的故障詳情

劇本#	攻擊級	說明	妥協類型	Scenario
1	擾動攻擊	在擾動式攻擊中，攻擊者會悄悄修改查詢以取得期望的回應	廉正	影像：X光影像中加入雜訊，使預測從正常掃描轉為異常 [1][黑盒子] 文字翻譯：特定字元被操控而導致錯誤翻譯。攻擊可以抑制特定單字，甚至完全移除該單字[2][黑盒與白盒] 語音：研究人員展示了在給定一個語音波形的情況下，如何精確重現另一個波形，卻可以轉錄成完全不同的文本[3][白盒，但可能擴展至黑盒]
2	中毒攻擊	攻擊者的目標是污染訓練階段產生的機器模型，使新資料的預測在測試階段被修改針對性攻擊：在針對性毒害攻擊中，攻擊者希望錯誤分類特定案例無差別：目標是造成類似 DoS 的效果，使系統無法使用。	廉正	在一個醫學資料集中，目標是利用人口統計資訊等來預測抗凝血藥物華法林的劑量。研究人員引入了惡意樣本，其污染率為8%，使一半患者的劑量改變了75.06% [4][Blackbox] 在 Tay 聊天機器人中，未來的對話會被污染，因為部分過去對話被用來透過回饋訓練系統[5] [Blackbox]
3	模型反轉	機器學習模型中使用的私有特徵是可以被恢復的	保密;	研究人員成功恢復了用於訓練該演算法的私人訓練資料[6]。作者僅憑名字和模型存取權，就能重建臉部，機械土耳其人能利用照片從排列中以95% 的準確率辨識個體。作者也成功提取了具體資訊。 [白盒與黑盒][12]
4	成員資格推測攻擊	攻擊者可以判斷某個資料紀錄是否屬於模型的訓練資料集	保密	研究人員能夠根據屬性（如年齡、性別、醫院）預測患者的主要手術（例如：患者接受的手術）[7][Blackbox]
5	模型竊取	攻擊者透過合法地查詢模型來重建其底層結構。新模型的功能與底層模型相同。	保密性	研究人員成功模擬了亞馬遜的底層演算法 BigML。例如，在 BigML 案例中，研究人員利用 1,150 次查詢，在 10 分鐘內恢復了用來預測某人信用風險為好或壞的模型（德國信用卡資料集）。
6	深度神經網路的重新編程	透過攻擊者特別設計的查詢，機器學習系統可以被重新編程，執行偏離創作者原始意圖的任務	完整性與可用性	展示了 ImageNet 這個用於分類多類影像的系統，如何被重新利用來計算平方格數。作者以一個假設情境作結：攻擊者將驗證碼圖片傳送至雲端攝影服務的電腦視覺分類器，以破解圖片驗證碼以建立垃圾帳號[9]
7	物理領域的對抗性範例	對抗性的例子是惡意實體發送的輸入/查詢，目的是誤導機器學習系統。這些例子可能出現在物理領域	廉正	研究人員用3D列印出一把帶有自訂紋理的步槍，讓影像辨識系統誤以為它是烏龜[10] 研究人員設計出能欺騙影像辨識系統、無法正確辨識臉孔的太陽眼鏡[11]
8	惡意機器學習提供者能恢復訓練資料	惡意機器學習提供者可以查詢客戶所使用的模型，並恢復客戶的訓練資料	保密	研究人員展示了惡意提供者如何提出後門演算法，藉此恢復私有訓練資料。僅憑模型，他們就能重建臉孔和文字。 [12]
9	攻擊ML供應鏈[13]	由於訓練演算法所需的大量資源（資料+運算），目前的做法是重複使用大型企業訓練的模型，並稍作修改以適應當前任務（例如：ResNet 是 Microsoft 流行的影像辨識模型）。這些模型由 Model Zoo 精心策劃（Caffe 收藏了熱門的影像辨識模型）。在這次攻擊中，對手攻擊了 Caffe 所託管的模型，從而毒害了其他使用者。	廉正	研究人員展示了攻擊者如何能將惡意程式碼輸入到其中一個熱門模型中。一位毫無戒心的機器學習開發者下載此模型，並將其作為程式碼中影像辨識系統的一部分使用[14]。作者展示了在 Caffe 中，存在一種模型的 SHA1 雜湊值與作者摘要不符，顯示存在竄改。有 22 個模型完全沒有 SHA1 雜湊值來做完整性檢查。
10	後門入侵機器學習	就像「攻擊機器學習供應鏈」一樣，在這個攻擊情境中，訓練過程會全部或部分外包給惡意方，該方希望提供包含後門的訓練模型給使用者。經過後門設計的模型在大多數輸入（包括終端使用者可能保留作為驗證集的輸入）上可以正常運作，但是對於具備某些秘密、由攻擊者選擇的屬性（我們稱之為後門觸發器）的輸入，則可能造成特定的錯誤分類或降低模型準確性。	保密性與誠信	研究人員創造了一種被植入後門的美國街道標誌分類器，只有在停車標誌上加上特殊貼紙（作為後門觸發器）時，才會將停車標誌識別為速限標誌。現在，他們正將這項工作擴展到文字處理系統，當中特定詞彙會被替換為具體的口音作為觸發器。
11	利用機器學習系統的軟體相依性	在此攻擊中，攻擊者並未操控演算法。相反地，它利用傳統軟體漏洞，如緩衝區溢位。	保密性、完整性、可用性，	攻擊者會向影像辨識系統發送損壞輸入，利用其中一個相依中的軟體錯誤導致系統錯誤分類。

關於意外故障的細節

劇本#	攻擊級	說明	妥協類型	Scenario
12	獎勵系統入侵	強化學習系統之所以會以非預期的方式行動，是因為指定的獎勵與真正預期的獎勵之間存在差異。	系統安全性	這裡彙整了大量人工智慧遊戲範例[1]
13	副作用	強化學習系統在嘗試達成其目標時會擾亂所處的環境	系統安全性	作者在[2]中逐字描述的情境：「假設設計師希望一個強化學習代理（例如，我們的清潔機器人）來達成某個目標，例如將一個箱子從房間的一側移動到另一側。有時候，達成目標最有效的方法涉及做一些與環境其他部分無關且具有破壞性的事情，例如撞倒路上的一個花瓶。如果特工只因為搬箱子而獲得獎勵，箱子很可能會撞倒花瓶。」
14	分布轉移	系統在某種環境中進行測試，但無法適應其他環境的變化	系統安全性	研究人員在模擬環境中訓練了兩個最先進的強化學習代理模型 Rainbow DQN 和 A2C，以避開熔岩。訓練期間，RL特工成功避開熔岩並達成目標。測試時，他們稍微移動了熔岩的位置，但強化學習代理無法避免 [3]
15	自然對立範例	系統錯誤地辨識了透過硬性負樣本挖掘找到的輸入	系統安全性	作者在此展示了如何透過簡單的硬負向挖掘過程[4]，透過轉述範例來混淆機器學習系統。
16	常見的腐敗	系統無法處理常見的損毀與干擾，如傾斜、放大或雜訊影像。	系統安全性	作者[5]指出，常見的損壞如對影像進行亮度、對比度的調整，以及加入霧或雜訊，會對影像辨識的評估指標造成顯著下降。
17	在現實條件下的不完整測試	ML 系統並未在其設計的實際運作條件下進行測試	系統安全性	[25] 中的作者強調，雖然辯護者通常會考慮機器學習演算法的穩健性，但他們忽略了現實條件。例如，他們主張一個缺失的停車標誌被風吹走（這種情況更真實），而非攻擊者試圖干擾系統的輸入。

致謝

我們感謝 Andrew Marshall、Magnus Nystrom、John Walton、John Lambert、Sharon Xia、Andi Comissoneru、Emre Kiciman、Jugal Parikh、Sharon Gillet，還有來自 Microsoft 的 AI 與工程及道德（AETHER）委員會之安全工作流的成員，Amar Ashar、Samuel Klein、Jonathan Zittrain，以及來自伯克曼克萊因人工智慧安全計畫工作組的成員們，感謝他們提供寶貴的回饋。我們也感謝來自23個外部合作夥伴、標準組織及政府機構的審稿人，協助制定分類法。

參考書目

[1] Li， Guofu 等人。《安全議題：對抗式機器學習綜述》。 arXiv 預印本 arXiv：1810.07339 （2018）。

[2] Chakraborty， Anirban 等人。《對抗性攻擊與防禦：一項綜述》。 arXiv 預印本 arXiv：1810.00069 （2018）。

[3] 奧爾特加、佩德羅與維沙爾·馬伊尼。《打造安全的人工智慧：規格、穩健性與保證》。 DeepMind 安全研究部落格 （2018）。

[4] Amodei， Dario 等人。《人工智慧安全的具體問題》。 arXiv 預印本 arXiv：1606.06565 （2016）。

[5] Shankar Siva Kumar， Ram 等人，《法律與對抗式機器學習》。 arXiv 預印本 arXiv：1810.10731 （2018）。

[6] Calo， Ryan 等人。《欺騙機器人算是駭客行為嗎？》華盛頓大學法學院研究論文 2018-05（2018）。

[7] Paschali， Magdalini 等人，《可泛化性與穩健性：醫學影像的對抗性範例》。arXiv 預印本 arXiv：1804.00504（2018）。

[8] 易卜拉欣、賈維德、丹尼爾·洛德和德景都。「關於字元層級神經機器翻譯的對抗性範例。」arXiv 預印本 arXiv：1806.09030（2018）

[9] 卡里尼，尼古拉斯，與大衛·瓦格納。「音訊對抗性範例：語音轉文字的定向攻擊。」arXiv 預印本 arXiv：1801.01944（2018）。

[10] Jagielski， Matthew 等人。「操控機器學習：迴歸學習的毒害攻擊與對策。」 arXiv 預印本 arXiv：1804.00308 （2018）

[11] [https://blogs.microsoft.com/blog/2016/03/25/learning-tays-introduction/]

[12] Fredrikson M、Jha S、Ristenpart T. 2015。利用信心資訊與基本反制措施的模型反轉攻擊

[13] Shokri R、Stronati M、Song C、Shmatikov V. 2017。針對機器學習模型的成員推論攻擊。收錄 於2017年IEEE安全與隱私研討會（SP）論文集，加州 聖荷西，2017年5月22–24日，第3–18頁。紐約，紐約州：IEEE。

[14] Tramèr， Florian 等人。《透過預測 API 竊取機器學習模型》。 USENIX安全研討會。 2016.

[15] 艾爾賽德、加馬勒丁·F.、伊恩·古德費洛與雅沙·索爾-迪克斯坦。「神經網路的對抗性重編程。」 arXiv 預印本 arXiv：1806.11146 （2018）。

[16] 阿塔莉耶、阿尼什與伊利亞·蘇茨克維爾。「綜合強健的對抗性範例。」 arXiv 預印本 arXiv：1707.07397（2017）

[17] Sharif， Mahmood 等人。「對抗性生成網路：神經網路對最先進臉部辨識的攻擊。」 arXiv 預印本 arXiv：1801.00349 （2017）。

[19] 蕭啟雪等人。《深度學習實作中的安全風險》。 arXiv 預印本 arXiv：1711.11008 （2017）。

[20] 顧天宇、布蘭登·多蘭-加維特與悉達特·加爾格。「Badnets：識別機器學習模型供應鏈中的漏洞。」 arXiv 預印本 arXiv：1708.06733 （2017）

[21] [https://www.wired.com/story/machine-learning-backdoors/]

[22] [https://docs.google.com/spreadsheets/d/e/2PACX-1vRPiprOaC3HsCf5Tuum8bRfzYUiKLRqJmbOoC-32JorNdfyTiRRsR7Ea5eWtvsWzuxo8bjOxCG84dAg/pubhtml]

[23] Amodei， Dario 等人。《人工智慧安全的具體問題》。 arXiv 預印本 arXiv：1606.06565 （2016）。

[24] Leike， Jan 等人，《AI 安全網世界》。 arXiv 預印本 arXiv：1711.09883 （2017）。

[25] Gilmer， Justin 等人。《對抗性範例研究的遊戲規則動機》。 arXiv 預印本 arXiv：1807.06732 （2018）。

[26] 丹·亨德里克斯與湯瑪斯·迪特里希。「評估神經網路對常見損壞與擾動的強健性。」 arXiv 預印本 arXiv：1903.12261 （2019）。

意見反應

此頁面對您有幫助嗎？

Last updated on 2026-03-27