Microsoft Foundry 風險與安全評估透明度說明

什麼是透明性備註

AI 系統不僅包含技術本身，還包括將使用它的人、受影響的人，以及它所部署的環境。打造一套符合預期目的的系統，需要了解技術運作方式、其能力與限制，以及如何達到最佳效能。 Microsoft 的透明度備註旨在幫助您了解我們的 AI 技術如何運作、系統擁有者可能做出的選擇如何影響系統效能與行為，以及思考整個系統的重要性，包括技術、人員與環境。你可以在開發或部署自己的系統時使用 Transparency Notes，或與將使用或受系統影響的人分享。

Microsoft 的透明度備註是 Microsoft 將 AI 原則付諸實踐的更廣泛努力的一部分。欲了解更多，請參閱 Microsoft AI 原則。

Microsoft Foundry 風險與安全評估的基本知識

簡介

Azure 直接銷售的模型已由 Microsoft 根據 Microsoft 的負責任 AI 標準進行評估。其他所有模型，包括但不限於 Anthropic 模型及來自 Hugging Face hub 或 Fireworks AI 的 Open 模型，皆依產品條款屬於非 Microsoft 產品，未經 Microsoft 評估。

無論模型是由 Azure 直接銷售，還是非 Microsoft 產品，客戶都應該自行進行風險與安全評估。 Foundry 的風險與安全評估讓使用者能評估其生成式 AI 應用程式的輸出，評估文本內容風險：仇恨與不公平內容、性內容、暴力內容、自我傷害相關內容、直接與間接越獄漏洞，以及內容中受保護的內容。安全評估也能協助產生對抗性資料集，協助加速並強化紅隊行動。 Foundry 的安全評估反映 Microsoft 確保 AI 系統安全且負責任地建置的承諾，並落實我們的負責任 AI 原則。

關鍵術語

仇恨與不公平內容（文字與圖片） 指的是任何涉及對個人及社會群體的仇恨或不公平代表的語言或影像，這些表現涵蓋種族、族裔、國籍、性別、性取向、宗教、移民身份、能力、個人外貌及體型等因素。當 AI 系統不公平對待或代表社會群體，造成或助長社會不平等時，就會產生不公平。
性內容（文字與圖片） 包括與解剖器官與生殖器相關的語言或影像、浪漫關係、以情色語言呈現的行為、懷孕、身體性行為（包括性侵或性暴力）、賣淫、色情及性虐待。
暴力內容（文字與圖片） 包括涉及意圖傷害、傷害、損害或殺害某人或某物的身體行為的語言或影像。同時也包含武器與槍械（以及相關實體如製造商與協會）的描述。
與自我傷害相關的內容（包括文字與圖片） 包括與意圖傷害、傷害或損害身體或自殺行為相關的語言或圖像。
受保護內容（針對文字） 包括已知的文字內容，例如歌曲歌詞、文章、食譜及部分網路內容，這些可能由大型語言模型輸出。透過偵測並阻止受保護資料的展示，組織能維持智慧財產權的合規性並維護內容的原創性。
受保護內容（圖片） 指的是受版權保護的特定受保護視覺內容，例如標誌與品牌、藝術作品或虛構角色。系統採用影像轉文字基礎模型來判斷是否存在此類內容。
直接越獄、直接提示攻擊或用戶提示注入攻擊指的是用戶操控提示，將有害輸入注入大型語言模型（LLM），以扭曲行動與輸出。 jailbreak 指令的例子是「DAN」（Do Anything Now，立即行動）攻擊，能誘使大型語言模型（LLM）產生不當的內容或忽略系統施加的限制。
間接越獄、間接提示攻擊或跨域提示注入攻擊指的是惡意指令隱藏於 AI 系統處理或產生有基礎內容的資料中。這些資料可能包括電子郵件、文件、網站或其他非開發者或使用者直接撰寫的來源，可能導致不當內容產生或忽視系統限制。
缺陷率（內容風險） 定義為測試資料集中中，在整個資料集規模中，嚴重度尺度超過閾值的實例百分比。
紅隊歷來一向用於描述系統性的對抗性攻擊，以測試安全漏洞。隨著大型語言模型（LLM）的興起，這個術語已超越傳統的網路安全範疇，並演進為描述多種對 AI 系統的探測、測試與攻擊方式。對於大型語言模型來說，無論是良性或對抗性的使用，都可能產生各種形式的潛在有害輸出，包括有害內容如仇恨言論、煽動或美化暴力、涉及自我傷害的內容或色情內容。

能力

系統行為

Foundry 提供經過精細調整的 Azure OpenAI GPT-4o 模型，並協調對應用的對抗性攻擊，以產生高品質的測試資料集。接著它會配置另一個 GPT-4o 模型，為您的測試資料集提供內容與安全性的註解。使用者提供他們想測試的生成式 AI 應用端點，安全性評估會輸出該端點的靜態測試資料集，並附上內容風險標籤（非常低、低、中、高）或內容風險偵測標籤（True或False）及 AI 生成標籤的理由。

使用案例

預期用途

安全評估僅用於評估生成式 AI 應用的內容風險與越獄漏洞：

部署前評估您的生成式 AI 應用：透過 Foundry 入口網站的評估精靈或 Azure AI Python SDK，安全評估能以自動化方式評估潛在內容或安全風險。
強化紅隊行動：利用對抗模擬器，安全評估能模擬與生成式 AI 應用的對抗互動，試圖發現內容與安全風險。
向利害關係人溝通內容與安全風險：透過 Foundry 入口網站，您可以與審計人員或合規利害關係人分享 Foundry 專案及安全評估結果的存取權。

選擇使用情境時的考量

我們鼓勵客戶在創新解決方案或應用中善用 Foundry 的安全評估。不過，在選擇使用情境時，以下是一些考量：

安全評估應包含人工參與：使用像 Foundry 這類自動化評估，安全評估應包含領域專家等人工審查員，評估生成式 AI 應用在部署給終端用戶前是否經過徹底測試。
安全評估不包含全面覆蓋：雖然安全評估能提供一種增強測試潛在內容或安全風險的方法，但它並非為了取代針對應用領域、使用情境及終端使用者類型而設計的手動紅隊作業。
支援的劇本：
- 對抗模擬方面：問答、多回合聊天、摘要、搜尋、文字重寫、無基礎與有基礎內容生成。
- 自動註解方面：問答和多回合聊天。
目前該服務最適合僅用於英文網域的文字生成。未來版本將考慮加入包括多模型支援在內的額外功能。
安全性評估中所提供的內容風險取材於少數邊緣化群體與主題：
- 仇恨與不公平指標涵蓋了少數邊緣群體的人口統計因素，如性別（例如男性、女性、非二元性別者）以及種族、血統、族裔和國籍（例如黑人、墨西哥人、歐洲人）。並非所有性別、種族、血統、族裔和國籍的邊緣群體都被涵蓋。其他與仇恨和不公平相關的人口統計因素目前尚未被涵蓋（例如身心障礙、性取向、宗教）。
- 性、暴力及自殘相關內容的指標，是基於對這些傷害的初步概念化，且不如仇恨與不公平發展完善。這表示我們可以對測量覆蓋率以及測量結果如何反映這些傷害可能發生的不同方式做出較不強的主張。這些內容類型的涵蓋範圍有限，涉及性（例如性暴力、關係、性行為）、暴力（例如虐待、傷害他人、綁架）及自殘（例如故意死亡、故意自我傷害、飲食失調）。
鑄造廠的安全評估目前不允許外掛或擴充性。
為了持續更新品質並提升覆蓋範圍，我們將計畫定期推出服務的對抗性模擬和註解能力改進版本。

技術限制、操作因素與射程

大型語言模型（LLMs）領域持續快速演進，需持續改進評估技術，以確保 AI 系統的安全可靠部署。 Foundry 的安全評估反映出 Microsoft 持續在大型語言模型評估領域創新的承諾。我們致力於提供最佳工具，協助您評估生成式 AI 應用的安全性，但也要理解有效的評估是一項持續進行中的工作。
目前 Foundry 安全評估的客製化有限。我們只期望用戶提供生成式 AI 應用端點的輸入，服務會輸出一個標示為內容風險的靜態資料集。
最後，需注意的是，此系統不會自動執行任何動作或任務，僅評估生成式 AI 應用的輸出，這些結果應由人工決策者在決策過程中審核，然後決定是否將生成式 AI 應用或系統部署到生產環境。

系統效能

提升系統效能的最佳實務

在考慮你的網域時，若某些內容在你的網域中被視為更敏感，請考慮調整缺陷率計算的門檻。
在使用自動安全評估時，有時 AI 生成的標籤可能會對內容風險的嚴重程度或其推理產生錯誤。有一個人工回饋欄，以便在自動化安全評估結果中進行人工介入的驗證。

鑄造廠安全評估的評估

評估方法

對於所有支援的內容風險類型，我們已在內部透過比較人工標註者和自動標註器在相同資料集上使用0到7嚴重度量表的匹配結果，來檢驗品質。針對每個風險區域，我們同時使用人工標註員與自動標註器，標註500個英文單回合文本、250個文字到圖像的生成，以及250個多模態文本到圖像文本的生成。人工標註員和自動標註者所使用的指引並不完全相同；儘管自動標註者的指引是根據人工標註員的指引演變而來，但兩者已在不同程度上出現分化（其中針對仇恨和不公平的指引分歧最大）。儘管存在這些細微到中等差異，我們仍認為分享近似匹配比較的一般趨勢與見解是有價值的。在比較中，我們尋找容差為2級的配對（即人工標籤與自動標註標籤完全匹配，或嚴重程度在上下兩級以內）、容差為1級的配對，以及容差為0級的配對。

評估結果

整體而言，我們在所有容忍度層級中，自我傷害與性內容風險的近似匹配率均為高。在不同的容忍度水平中，暴力、仇恨與不公平的匹配率偏低。這些結果部分是因為人工標註者與自動標註者在註解指引內容上的差異增加，以及特定指引內容與複雜度的增加。

雖然我們的比較對象是使用略有或中度不同註解指引的實體（因此這些比較並非標準的人模型一致比較），但根據這些比較的參數，這些比較結果為我們提供了關於 Foundry 安全性評估可以期待的品質的估計。具體來說，我們只觀察了英語樣本，因此我們的發現可能無法推廣到其他語言。此外，每個資料集樣本僅包含一次回合，因此需要更多實驗來驗證評估結果在多回合情境上的普遍性（例如包含使用者查詢與系統回應的來回對話）。這些評估資料集中所用的樣本類型也會大幅影響人工標籤與自動標註器之間的近似匹配率——如果樣本較易標註（例如所有樣本都沒有內容風險），我們可能會預期近似匹配率會更高。人類標籤的品質也會影響我們發現的概括性。

評估並整合 Foundry 的安全評估報告以供您使用

對生成式 AI 應用的測量與評估，是整體性 AI 風險管理方法中至關重要的一環。 Foundry 安全評估是輔助且應與其他 AI 風險管理實務協同使用的。領域專家與人機審核人員在生成式 AI 應用設計、開發及部署週期中使用 AI 輔助安全評估時，應提供適當的監督。你應該了解安全評估的限制與預期用途，但要小心不要單獨依賴 Foundry AI 輔助安全評估產生的結果。

由於大型語言模型（LLMs）的非決定性特性，你可能會遇到偽陰性或偽陽性結果，例如暴力內容嚴重度高，但評分為「非常低」或「低」。此外，對於不同受眾而言，評估結果可能有不同的解讀。例如，安全評估可能會產生「低」暴力內容嚴重程度的標籤，但這與人類審查者對該特定暴力內容嚴重程度的定義不符。在 Foundry 入口網站中，我們提供人工回饋欄，並在查看您的評估結果時給予讚與踩，以顯示哪些實例被人工審核者批准或標記為錯誤。考慮你的結果如何被他人解讀以供決策參考，並將評估結果與他人分享，然後根據每個生成式 AI 應用所處環境的風險程度，進行適當力度的審查，以驗證你的評估結果。