Azure AI 內容安全性是一項 AI 服務,可在應用程式與服務中偵測使用者產生和 AI 產生的有害內容。 Azure AI 內容安全性包含 API,可讓您偵測並防止有害內容的輸出。 互動式內容安全性在 Azure AI Foundry 入口網站中試用頁面可讓您檢視、探索及試用範例程式代碼,以偵測不同形式的有害內容。
特徵
您可以針對下列案例使用 Azure AI 內容安全性:
文字內容:
- 仲裁文字內容:此功能會掃描並仲裁文字內容,並根據不同嚴重性層級來識別和分類文字內容,以確保適當的回應。
- 地面偵測:此篩選器會判斷 AI 的回應是否以受信任的使用者提供來源為基礎,確保答案在預定材料中「已落地」。 地面偵測有助於改善回應的可靠性與事實精確度。
- 文字的受保護數據偵測:這項功能可識別受保護的文字數據,例如已知的歌曲歌詞、文章或其他內容,確保 AI 在未經許可的情況下不會輸出此內容。
- 程序代碼的受保護數據偵測:偵測模型輸出中符合公用存放庫已知程式代碼的程式代碼區段,協助防止原始程式碼未經還原或未經授權的複製。
- 提示防護:這項功能提供統一的 API 來解決「越獄」和「間接攻擊」:
- 越獄攻擊:用戶嘗試作 AI 略過其安全通訊協定或道德指導方針。 範例包括設計來欺騙 AI 提供不適當的回應或執行其程式設計來避免工作的提示。
- 間接攻擊:也稱為跨網域提示插入式攻擊,間接攻擊牽涉到將惡意提示內嵌在 AI 可能處理的文件內。 例如,如果檔包含隱藏的指示,AI 可能會不小心遵循它們,導致非預期或不安全的輸出。
影像內容:
- 仲裁影像內容:類似於文字仲裁,此功能會篩選及評估影像內容,以偵測不適當的或有害視覺效果。
- 仲裁多模式內容:這是設計來處理文字和影像的組合、評估整體內容,以及跨多種內容類型的任何潛在風險。
自訂您自己的類別:
- 自定義類別:允許使用者定義特定類別,以仲裁和篩選內容,根據獨特的的需求量身打造安全通訊協定。
- 安全系統訊息:提供設定「系統訊息」的方法,以指示 AI 瞭解所需的行為和限制,強化安全界限,並協助防止不必要的輸出。
瞭解傷害類別
傷害類別
類別 | 說明 | API 字詞 |
---|---|---|
仇恨和公平性 | 仇恨和公平相關的傷害是指任何攻擊或使用歧視性語言的內容,並且這些內容是基於這些群組的某些區分特徵來對個人或身份群組進行參考。 其中包括 (但不限於):
|
Hate |
性的 | 性關於描述有解剖器官、生殖器、浪漫關係及性行為的語言,以及以色情或深情的術語描繪的行為,包括那些被描繪成攻擊或強迫的性暴力行為,違背個人意志。 其中包括 (但不限於):
|
Sexual |
暴力 | 暴力描述與旨在傷害、傷害、傷害或殺害某人或某物的身體行動相關的語言:描述武器、槍支和相關實體。 其中包括 (但不限於):
|
Violence |
自殘 | 自我傷害是指與故意傷害、損壞自己身體或自殺的身體行為相關的語言。 其中包括 (但不限於):
|
SelfHarm |
嚴重性層級
等級 | 說明 |
---|---|
安全 | 內容可能與暴力、自我傷害、性或仇恨類別有關。 然而,這些術語一般用於新聞、科學、醫學和類似的專業內容,適用於大多數觀眾。 |
低 | 表達偏見、判斷或意見觀點的內容包括冒犯性地使用語言、陳規定型、使用案例探索虛構世界(例如遊戲、文學)和低強度的描述。 |
中等 | 針對特定身分群體使用攻擊性、侮辱性、嘲笑、恐嚇或貶低性語言的內容,包括以中等強度描寫尋求和執行有害指示、幻想、頌揚、宣揚傷害。 |
高 | 顯示明確和嚴重有害指示、動作、損害或虐待的內容,包括贊同、頌揚或宣揚嚴重有害行為、極端或非法形式的傷害、激進或未經同意的權力交換或濫用。 |
局限性
如需支持的區域、速率限制和所有功能的輸入需求,請參閱內容安全性概觀。 如需支持的語言,請參閱語言支援頁面。
後續步驟
遵循作指南,開始使用 Azure AI Foundry 入口網站中的 Azure AI 內容安全性。