分享方式:


Azure 直接銷售模型的護欄和控制

這很重要

本文中標示為 (預覽) 的項目目前處於公開預覽狀態。 此預覽版本沒有服務等級協定,不建議將其用於生產工作負載。 可能不支援特定功能,或可能已經限制功能。 如需詳細資訊,請參閱 Microsoft Azure 預覽版增補使用條款

閱讀本文,了解從使用標準部署部署的模型目錄中模型的內容安全性功能。

內容篩選預設值

Azure AI 會使用 Azure AI 內容安全 內容篩選器的預設設定,針對透過標準部署部署所部署的模型,偵測跨四個類別的有害內容,包括仇恨和公平、自我傷害、性與暴力。 若要深入瞭解內容篩選,請參閱 瞭解危害類別

文字模型的預設內容篩選設定會設定為在中等嚴重性閾值進行篩選,進而篩選在此層級或更高層級任何偵測到的內容。 若是影像模型,預設內容篩選設定會設為低設定閾值,進而在此層級或更高層級進行篩選。 針對使用 Azure AI Foundry 模型部署的模型,您可以選取 Azure AI Foundry 入口網站的 [護欄和控件] 頁面中的 [內容篩選] 索引卷標,以建立可設定的篩選。

小提示

內容篩選不適用於透過標準部署部署部署的特定模型類型。 這些模型類型包括內嵌模型和時間序列模型。

當服務處理產生內容的提示時,內容篩選會同步發生。 您可以根據 Azure AI 內容安全價格個別計費,以供此類使用。 您可以停用個別無伺服器端點的內容篩選:

  • 第一次部署語言模型時
  • 稍後設定,透過選取部署詳細資料頁面上的內容篩選切換開關

假設您決定使用模型推斷 API以外的 API,來操作透過標準部署方式部署的模型。 在這種情況下,除非您使用 Azure AI 內容安全個別實作內容篩選 (預覽版),否則不會啟用內容篩選。 若要開始使用 Azure AI 內容安全,請參閱快速入門:分析文字內容。 如果您在使用透過標準部署的模型時,未使用內容篩選(預覽),則會有更高的風險讓使用者暴露於有害內容。

了解傷害類別

傷害類別

類別 說明 API 字詞
仇恨和公平性 仇恨和公平的傷害是指攻擊或使用歧視性語言的任何內容,以根據這些群組的特定區分屬性參考個人或身分識別群組。

其中包括 (但不限於):
  • 種族、人種、國籍
  • 性別認同群體和表現
  • 性傾向
  • 宗教
  • 個人外貌和體型
  • 身心障礙狀態
  • 騷擾和欺淩
Hate
性相關描述與生理器官和生殖器、情愛關係和性行為、以性愛或親暱詞彙描繪行為相關的語言,包括描繪為違反個人意願的侵犯或強迫性暴力行為。

其中包括 (但不限於):
  • 粗俗內容
  • 賣淫
  • 裸體和色情
  • 濫用
  • 剝削兒童行為、兒童虐待、兒童性誘拐
Sexual
暴力 暴力描述與旨在傷害、傷害、傷害或殺害某人或某物的身體行動相關的語言:描述武器、槍支和相關實體。

其中包括 (但不限於):
  • 武器
  • 霸淩和恐嚇
  • 恐怖主義和暴力極端主義
  • 跟蹤騷擾
Violence
自殘 自我傷害是指與故意傷害、損壞自己身體或自殺的身體行為相關的語言。

其中包括 (但不限於):
  • 飲食失調
  • 霸淩和恐嚇
SelfHarm

嚴重性層級

等級 說明
安全 內容可能與暴力、自我傷害、性或仇恨類別相關。 但這些詞彙用於一般、新聞、科學、醫學和類似的專業內容,適合大多數受眾。
表達偏見、評判性或固執觀點的內容,包括使用冒犯性的語言、刻板印象、探索虛構世界的使用案例 (例如遊戲、文學),以及低強度的描寫。
中等 針對特定身分群體使用攻擊性、侮辱性、嘲笑、恐嚇或貶低性語言的內容,包括以中等強度描寫尋求和執行有害指示、幻想、頌揚、宣揚傷害。
顯示明確和嚴重有害指示、動作、損害或虐待的內容,包括贊同、頌揚或宣揚嚴重有害行為、極端或非法形式的傷害、激進或未經同意的權力交換或濫用。

費用的計算方式

您可在 Azure AI 內容安全價格中檢視價格詳細資料。 當 Azure AI 內容安全驗證提示或完成時,會產生費用。 如果 Azure AI 內容安全封鎖提示或完成,您需同時支付內容評估與推斷呼叫的費用。