共用方式為


Azure 直接販售模型的護欄 & 控制項 (經典版)

備註

本文件指的是 Microsoft Foundry(經典版) 入口網站。

🔍 請參閱 Microsoft Foundry(新)文件 以了解新入口網站。

這很重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

閱讀本文,了解從使用無伺服器 API 部署部署的模型目錄中模型的內容安全性功能。

內容篩選預設值

Azure AI 會使用 Azure AI 內容安全 內容篩選器的預設設定,針對透過 無伺服器 API 部署所部署的模型,偵測四個類別的有害內容,包括仇恨和公平、自我傷害、性與暴力。 若要深入瞭解內容篩選,請參閱 瞭解危害類別

文字模型的預設內容篩選設定會設定為在中等嚴重性閾值進行篩選,進而篩選在此層級或更高層級任何偵測到的內容。 若是影像模型,預設內容篩選設定會設為低設定閾值,進而在此層級或更高層級進行篩選。 對於使用 Microsoft Foundry 模型部署的模型,你可以在 Foundry 入口網站的 Guardrails 與控制頁面中選擇內容篩選標籤,建立可配置的篩選器。

小提示

內容篩選不適用於透過無伺服器 API 部署部署部署的特定模型類型。 這些模型類型包括內嵌模型和時間序列模型。

當服務處理產生內容的提示時,內容篩選會同步發生。 您可以根據 Azure AI 內容安全價格個別計費,以供此類使用。 您可以停用個別無伺服器端點的內容篩選:

  • 第一次部署語言模型時
  • 稍後設定,透過選取部署詳細資料頁面上的內容篩選切換開關

假設您決定使用 模型推斷 API 以外的 API 來處理透過無伺服器 API 部署所部署的模型。 在這種情況下,除非您使用 Azure AI 內容安全個別實作內容篩選 (預覽版),否則不會啟用內容篩選。 若要開始使用 Azure AI 內容安全,請參閱快速入門:分析文字內容。 如果您在透過無伺服器 API 部署的模型上工作時未使用內容篩選(預覽),則讓使用者接觸有害內容的風險會更高。

了解傷害類別

傷害類別

類別 Description API 術語
仇恨和公平性 仇恨和公平的傷害是指攻擊或使用歧視性語言的任何內容,以根據這些群組的特定區分屬性參考個人或身分識別群組。

這包括但不限於:
  • 種族、人種、國籍
  • 性別認同群體和表現
  • 性傾向
  • 宗教
  • 個人外貌和體型
  • 身心障礙狀態
  • 騷擾和欺淩
Hate
性相關描述與生理器官和生殖器、情愛關係和性行為、以性愛或親暱詞彙描繪行為相關的語言,包括描繪為違反個人意願的侵犯或強迫性暴力行為。

其中包括 (但不限於):
  • 粗俗內容
  • 賣淫
  • 裸體和色情
  • 濫用
  • 剝削兒童行為、兒童虐待、兒童性誘拐
Sexual
暴力 暴力描述與旨在傷害、傷害、傷害或殺害某人或某物的身體行動相關的語言:描述武器、槍支和相關實體。

其中包括 (但不限於):
  • 武器
  • 霸淩和恐嚇
  • 恐怖主義和暴力極端主義
  • 跟蹤騷擾
Violence
自殘 自我傷害是指與故意傷害、損壞自己身體或自殺的身體行為相關的語言。

其中包括 (但不限於):
  • 飲食失調
  • 霸淩和恐嚇
SelfHarm

嚴重性層級

Level Description
Safe 內容可能與暴力、自我傷害、性或仇恨類別相關。 但這些詞彙用於一般、新聞、科學、醫學和類似的專業內容,適合大多數受眾。
表達偏見、評判性或固執觀點的內容,包括使用冒犯性的語言、刻板印象、探索虛構世界的使用案例 (例如遊戲、文學),以及低強度的描寫。
中等 針對特定身分群體使用攻擊性、侮辱性、嘲笑、恐嚇或貶低性語言的內容,包括以中等強度描寫尋求和執行有害指示、幻想、頌揚、宣揚傷害。
顯示明確和嚴重有害指示、動作、損害或虐待的內容,包括贊同、頌揚或宣揚嚴重有害行為、極端或非法形式的傷害、激進或未經同意的權力交換或濫用。

費用的計算方式

您可在 Azure AI 內容安全價格中檢視價格詳細資料。 當 Azure AI 內容安全驗證提示或完成時,會產生費用。 如果 Azure AI 內容安全封鎖提示或完成,您需同時支付內容評估與推斷呼叫的費用。