提示盾
產生 AI 模型可能會造成惡意執行者惡意探索的風險。 為了降低這些風險,我們會整合安全機制,以限制安全作業範圍內大型語言模型 (LLM) 的行為。 不過,儘管有這些保護措施,但 LLM 仍然容易受到略過整合式安全協定的對立輸入。
提示防護是統一的 API,可分析 LLM 輸入並偵測使用者提示攻擊和文件攻擊,這是兩種常見的對立輸入類型。
使用者提示提示的提示防護
先前稱為 越獄風險偵測,此防護會以使用者提示插入式攻擊為目標,使用者會刻意利用系統弱點,以從 LLM 引發未經授權的行為。 這可能會導致不適當的內容產生或違反系統強加的限制。
檔的提示防護
此保護旨在防止使用非使用者或開發人員直接提供的資訊 (如外部文件) 的攻擊。 攻擊者可能會在這些數據中內嵌隱藏的指示,以取得 LLM 會話的未經授權控制權。
輸入攻擊的類型
此表格說明提示盾牌偵測到的兩種輸入攻擊類型。
類型 | 攻擊者 | 進入點 | 方法 | 目標/影響 | 產生的行為 |
---|---|---|---|---|---|
使用者提示攻擊 | User | 使用者提示 | 忽略系統提示/RLHF 訓練 | 改變預期的 LLM 行為 | 針對定型執行受限制的動作 |
檔攻擊 | 第三方 | 第三方內容(檔案、電子郵件) | 誤解第三方內容 | 取得未經授權的存取或控制 | 執行非預期的命令或動作 |
使用者提示攻擊的子類型
使用者提示提示攻擊 的提示防護可辨識下列類別的攻擊:
類別 | 描述 |
---|---|
嘗試變更系統規則 | 此類別包含但不限於使用新的不受限制系統/AI 助理的要求,而不需要規則、原則或限制,或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。 |
內嵌對話模擬 以混淆模型 | 此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合,以指示系統/AI 助理忽略規則和限制。 |
Role-Play | 此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」,或將人類特徵指派給系統,例如情感、思想和意見。 |
編碼攻擊 | 此攻擊會嘗試使用編碼,例如字元轉換方法、產生樣式、加密或其他自然語言變化,來規避系統規則。 |
檔攻擊的子類型
檔案的提示防護攻擊 可辨識下列類別的攻擊:
類別 | 描述 |
---|---|
操作的內容 | 與偽造、隱藏、操作或推送特定資訊相關的命令。 |
入侵 | 與建立後門、未經授權的許可權提升,以及取得 LLM 和系統的存取權相關的命令 |
資訊收集 | 與刪除、修改或存取資料或竊取數據相關的命令。 |
可用性 | 讓模型無法提供給使用者的命令、封鎖特定功能,或強制模型產生不正確的資訊。 |
欺詐 | 在未經授權的情況下代表使用者欺騙使用者、密碼、資訊或代理使用者的命令 |
惡意程式碼 | 透過惡意連結、電子郵件等傳播惡意代碼的相關命令。 |
嘗試變更系統規則 | 此類別包含但不限於使用新的不受限制系統/AI 助理的要求,而不需要規則、原則或限制,或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。 |
內嵌對話模擬 以混淆模型 | 此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合,以指示系統/AI 助理忽略規則和限制。 |
Role-Play | 此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」,或將人類特徵指派給系統,例如情感、思想和意見。 |
編碼攻擊 | 此攻擊會嘗試使用編碼,例如字元轉換方法、產生樣式、加密或其他自然語言變化,來規避系統規則。 |
限制
語言可用性
目前,Prompt Shields API 支援英文。 雖然我們的 API 不會限制非英文內容的提交,但我們無法保證這類內容分析中的品質與正確性層級相同。 我們建議使用者主要以英文提交內容,以確保 API 最可靠且最準確的結果。
文字長度限制
如需文字長度限制上限,請參閱 輸入需求 。
地區
若要使用此 API,您必須在支持的區域中建立 Azure AI Content Safety 資源。 請參閱 區域可用性。
TPS 限制
請參閱 查詢速率。
如果您需要較高的費率,請 與我們 連絡以要求。
下一步
請遵循快速入門開始使用 Azure AI Content Safety 來偵測使用者輸入風險。
意見反應
https://aka.ms/ContentUserFeedback。
即將登場:在 2024 年,我們將逐步淘汰 GitHub 問題作為內容的意見反應機制,並將它取代為新的意見反應系統。 如需詳細資訊,請參閱:提交並檢視相關的意見反應