提示盾

產生 AI 模型可能會造成惡意執行者惡意探索的風險。為了降低這些風險，我們會整合安全機制，以限制安全作業範圍內大型語言模型（LLM）的行為。不過，儘管有這些保護措施，但 LLM 仍然容易受到略過整合式安全協定的對立輸入。

提示防護是統一的 API，可分析 LLM 輸入並偵測使用者提示攻擊和文件攻擊，這是兩種常見的對立輸入類型。

先前稱為 越獄風險偵測，此防護會以使用者提示插入式攻擊為目標，使用者會刻意利用系統弱點，以從 LLM 引發未經授權的行為。這可能會導致不適當的內容產生或違反系統強加的限制。

此保護旨在防止使用非使用者或開發人員直接提供的資訊 (如外部文件) 的攻擊。攻擊者可能會在這些數據中內嵌隱藏的指示，以取得 LLM 會話的未經授權控制權。

輸入攻擊的類型

此表格說明提示盾牌偵測到的兩種輸入攻擊類型。

類型	攻擊者	進入點	方法	目標/影響	產生的行為
使用者提示攻擊	User	使用者提示	忽略系統提示/RLHF 訓練	改變預期的 LLM 行為	針對定型執行受限制的動作
檔攻擊	第三方	第三方內容（檔案、電子郵件）	誤解第三方內容	取得未經授權的存取或控制	執行非預期的命令或動作

使用者提示提示攻擊 的提示防護可辨識下列類別的攻擊：

類別	描述
嘗試變更系統規則	此類別包含但不限於使用新的不受限制系統/AI 助理的要求，而不需要規則、原則或限制，或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。
內嵌對話模擬以混淆模型	此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合，以指示系統/AI 助理忽略規則和限制。
Role-Play	此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」，或將人類特徵指派給系統，例如情感、思想和意見。
編碼攻擊	此攻擊會嘗試使用編碼，例如字元轉換方法、產生樣式、加密或其他自然語言變化，來規避系統規則。

檔案的提示防護攻擊 可辨識下列類別的攻擊：

類別	描述
操作的內容	與偽造、隱藏、操作或推送特定資訊相關的命令。
入侵	與建立後門、未經授權的許可權提升，以及取得 LLM 和系統的存取權相關的命令
資訊收集	與刪除、修改或存取資料或竊取數據相關的命令。
可用性	讓模型無法提供給使用者的命令、封鎖特定功能，或強制模型產生不正確的資訊。
欺詐	在未經授權的情況下代表使用者欺騙使用者、密碼、資訊或代理使用者的命令
惡意程式碼	透過惡意連結、電子郵件等傳播惡意代碼的相關命令。
嘗試變更系統規則	此類別包含但不限於使用新的不受限制系統/AI 助理的要求，而不需要規則、原則或限制，或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。
內嵌對話模擬以混淆模型	此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合，以指示系統/AI 助理忽略規則和限制。
Role-Play	此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」，或將人類特徵指派給系統，例如情感、思想和意見。
編碼攻擊	此攻擊會嘗試使用編碼，例如字元轉換方法、產生樣式、加密或其他自然語言變化，來規避系統規則。

目前，Prompt Shields API 支援英文。雖然我們的 API 不會限制非英文內容的提交，但我們無法保證這類內容分析中的品質與正確性層級相同。我們建議使用者主要以英文提交內容，以確保 API 最可靠且最準確的結果。

如需文字長度限制上限，請參閱輸入需求。

若要使用此 API，您必須在支持的區域中建立 Azure AI Content Safety 資源。請參閱區域可用性。

如果您需要較高的費率，請與我們連絡以要求。

請遵循快速入門開始使用 Azure AI Content Safety 來偵測使用者輸入風險。