共用方式為


提示盾

產生 AI 模型可能會造成惡意執行者惡意探索的風險。 為了降低這些風險,我們會整合安全機制,以限制安全作業範圍內大型語言模型 (LLM) 的行為。 不過,儘管有這些保護措施,但 LLM 仍然容易受到略過整合式安全協定的對立輸入。

提示防護是統一的 API,可分析 LLM 輸入並偵測使用者提示攻擊和文件攻擊,這是兩種常見的對立輸入類型。

使用者提示提示的提示防護

先前稱為 越獄風險偵測,此防護會以使用者提示插入式攻擊為目標,使用者會刻意利用系統弱點,以從 LLM 引發未經授權的行為。 這可能會導致不適當的內容產生或違反系統強加的限制。

檔的提示防護

此保護旨在防止使用非使用者或開發人員直接提供的資訊 (如外部文件) 的攻擊。 攻擊者可能會在這些數據中內嵌隱藏的指示,以取得 LLM 會話的未經授權控制權。

輸入攻擊的類型

此表格說明提示盾牌偵測到的兩種輸入攻擊類型。

類型 攻擊者 進入點 方法 目標/影響 產生的行為
使用者提示攻擊 User 使用者提示 忽略系統提示/RLHF 訓練 改變預期的 LLM 行為 針對定型執行受限制的動作
檔攻擊 第三方 第三方內容(檔案、電子郵件) 誤解第三方內容 取得未經授權的存取或控制 執行非預期的命令或動作

使用者提示攻擊的子類型

使用者提示提示攻擊 的提示防護可辨識下列類別的攻擊:

類別 描述
嘗試變更系統規則 此類別包含但不限於使用新的不受限制系統/AI 助理的要求,而不需要規則、原則或限制,或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。
內嵌對話模擬 以混淆模型 此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合,以指示系統/AI 助理忽略規則和限制。
Role-Play 此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」,或將人類特徵指派給系統,例如情感、思想和意見。
編碼攻擊 此攻擊會嘗試使用編碼,例如字元轉換方法、產生樣式、加密或其他自然語言變化,來規避系統規則。

檔攻擊的子類型

檔案的提示防護攻擊 可辨識下列類別的攻擊:

類別 描述
操作的內容 與偽造、隱藏、操作或推送特定資訊相關的命令。
入侵 與建立後門、未經授權的許可權提升,以及取得 LLM 和系統的存取權相關的命令
資訊收集 與刪除、修改或存取資料或竊取數據相關的命令。
可用性 讓模型無法提供給使用者的命令、封鎖特定功能,或強制模型產生不正確的資訊。
欺詐 在未經授權的情況下代表使用者欺騙使用者、密碼、資訊或代理使用者的命令
惡意程式碼 透過惡意連結、電子郵件等傳播惡意代碼的相關命令。
嘗試變更系統規則 此類別包含但不限於使用新的不受限制系統/AI 助理的要求,而不需要規則、原則或限制,或指示 AI 忽略、忘記和忽略其規則、指示和先前回合的要求。
內嵌對話模擬 以混淆模型 此攻擊會使用內嵌在單一用戶查詢中的使用者製作交談回合,以指示系統/AI 助理忽略規則和限制。
Role-Play 此攻擊會指示系統/AI 助理充當另一個沒有系統限制的「系統角色」,或將人類特徵指派給系統,例如情感、思想和意見。
編碼攻擊 此攻擊會嘗試使用編碼,例如字元轉換方法、產生樣式、加密或其他自然語言變化,來規避系統規則。

限制

語言可用性

目前,Prompt Shields API 支援英文。 雖然我們的 API 不會限制非英文內容的提交,但我們無法保證這類內容分析中的品質與正確性層級相同。 我們建議使用者主要以英文提交內容,以確保 API 最可靠且最準確的結果。

文字長度限制

如需文字長度限制上限,請參閱 輸入需求

地區

若要使用此 API,您必須在支持的區域中建立 Azure AI Content Safety 資源。 請參閱 區域可用性

TPS 限制

請參閱 查詢速率

如果您需要較高的費率,請 與我們 連絡以要求。

下一步

請遵循快速入門開始使用 Azure AI Content Safety 來偵測使用者輸入風險。