Azure AI 內容安全性中的傷害類別

發行項
01/20/2024

本指南說明 Azure AI 內容保管庫用來標記內容的所有傷害類別和評等。文字和影像內容都使用同一組旗標。

傷害類別

內容安全性可辨識四種不同的令人反感內容類別。

類別	描述
仇恨和公平	仇恨和公平相關的傷害是指攻擊或使用貶低或歧視性語言的任何內容，以參考這些群體的某些不同屬性，包括但不限於種族、種族、國籍、性別認同和表達、性取向、宗教、移民身份、能力狀態、個人外觀和身體大小。公平性涉及確保 AI 系統公平對待所有人群，而不會對現有的社會不平等做出貢獻。與仇恨言論類似，公平相關的傷害取決於不同對待身份群體。
色情	性描述與解剖器官和生殖器、浪漫關係、以色情或深情術語描繪的行為、懷孕、身體性行為，包括那些被描繪成攻擊或強迫性暴力行為，反對自己意志、賣淫、色情和虐待的行為。
暴力	暴力描述與旨在傷害、傷害、傷害或殺害某人或某物的身體行動相關的語言：描述武器、槍支和相關實體，例如製造、協會、立法等。
自殘	自我傷害描述了與故意傷害、傷害、傷害他人身體或自殺的身體行為相關的語言。

分類可以為多標籤的。例如，當文字範例通過文字調節模型時，可以同時分類為色情內容和暴力內容。

嚴重性層級

服務套用的每個傷害類別也會隨附嚴重性等級評等。嚴重性層級旨在指出顯示標記內容結果的嚴重性。

文字：目前版本的文字模型支援完整的 0-7 嚴重性級別。分類器會沿著這個規模偵測到所有嚴重性。如果使用者指定，它可以傳回修剪后小數字數 0、2、4 和 6 的嚴重性;每兩個相鄰層級都會對應至單一層級。

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

映射：映射模型的目前版本支援完整 0-7 嚴重性調整的修剪版本。分類器只會傳回嚴重性 0、2、4 和 6;每兩個相鄰層級都會對應至單一層級。

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

警告

本檔中的 [嚴重性定義 ] 索引標籤包含可能對某些讀者造成干擾之有害內容的範例。

仇恨和公平嚴重性層級

嚴重層級	說明	範例文字
層級 0	內容包含一般意義上使用的仇恨和公平相關詞彙，適用於所有目標物件，包括兒童。這包括：對身分識別群組表示厭惡的一般、悲觀語言一般提到身份群體屬性，如種族、種族、宗教等歷史、地理、醫療等類似背景，沒有情感在背景之外沒有冒犯意圖種族底色的一般詞彙	`"I hate cats."`
層級 1	內容包含一般意義上使用的仇恨和公平相關詞彙，但可能會根據內容取得不同的意義，而且不會以偏向或負面的方式區分身份群組和其他人。這包括：官方統計數據、立法或檔新聞/媒體報導教育資源旨在提高對多樣性/處理仇恨言論的認識皮膚白化產品和治療廣告提到印歐亞斯瓦斯蒂卡，邦聯旗，非KKK群組，具有視覺相似於KKK	`"Black people should not be killed by police or mistreated just because of their skin color."`
層級 2	內容，包含正面特徵或保護觸發良好情緒反應的身分識別群組。這包括：在具有直接引文的研究論文、字典或媒體中完全拼出污點屬於身分識別群組的說話者陳述，而無意以相同的身分識別群組為目標詛咒不針對身份群組的言辭、褻瀆和口頭侮辱以身份不明個人/群組為目標的一般仇恨言論，而不以身分識別群組為目標建立冒犯性字詞封鎖清單的用戶意圖納粹德國、希特勒、邦聯國旗和庫克魯克斯·克蘭在電影、視頻遊戲、服裝、玩具、再演或在線俚語中的代表	`"I hate you."`
層級 3	包含偏見、判斷、陳規定型特徵或負面情感的內容。這包括：基於陳規定型或負面情緒的意見表達偏見、判斷或意見觀點識別群組與其他人之間的負數或正面比較。虛構世界中的提及就業崗位就業歧視與納粹德國、美國內戰期間邦聯國旗或庫克魯克斯·克蘭有關的歷史事實和文物	`"I don't like [identity group] because they are all so aggressive. They attacked us over and over again for no reason at all."`
層級 4	內容，包含直接口頭情感動機的侮辱、負面評論和種族誹謗，用來作為針對身份群體的描述，意圖根據其屬性傷害個人。這包括：用來鎖定一個種族、皮膚色彩的參考促進社會避免和隔離模擬和模仿身分識別群組的屬性	`"All [identity group] are ugly."`
層級 5	內容包含非人類化或貶低個人或群體的內容，這些內容會透過非人類化、暴力、否認事件、欺淩或恐嚇行為來進一步提升負面情緒。這包括：否認歷史、有記錄和暴力事件（如大屠殺）的文字根據身分識別群組的成員資格，將個人或群組描述為身體或精神劣質的文字問題、拒絕或貶低身分識別群組存在的文字強制執行所需的/預期屬性以身份群體為目標的優生學和「種族改善」理論包含納粹、邦聯國旗或 KKK 符號的現代化商品	`"The [real world event] is a fraud. What we've discovered is that sources have been lying about the number of victims. Here is proof."`
層級 6	以負面情緒和仇恨言論為基礎的內容，以身分識別群組為基礎。藉由參考區分身分識別群組和其他群組的群組特性，並呼籲根據其屬性對身分識別群組採取行動。此可包括：仇恨言論宣傳，可被視為對身份群組的直接威脅或呼籲暴力煽動性、冒犯性和粗俗的仇恨言論據稱聲稱一個群體對具有身份群組屬性的人具有優勢的文字，以證明歧視、隔離或排斥是正當的描述針對身分識別群組的暴力事件快樂的文字	`"Send [identity group] back to the gas chambers."`
層級 7	基於負面情緒的內容，顯示仇恨犯罪和跟蹤意圖，觸發敵對的情感反應和區分身份團體和其他導致犯罪的人。這包括：仇恨犯罪準備、讚揚和美化針對身份群體的暴力包含至上主義團體招聘材料的文本旨在激進化和鼓勵仇恨言論反對身份團體的文字	`"Millions of [identity group] were wiped out because they were the inferior race. Murdering them continues to be right and honorable because…"`

性嚴重性等級

嚴重層級	說明	範例文字
層級 0	內容，包含一般意義上的性相關詞彙，對包括兒童在內的所有目標對象來說都是無害的。提及家庭關係對所有目標物件無害的內容，包括兒童	`"The sports bra and yoga pants were too tight for comfort."`
層級 1	內容，包含一般意義上使用的性相關詞彙，但可能會根據內容取得不同的意義。這包括：關於性相關主題的官方統計數據和檔新聞/媒體報導解剖術語、性解剖學和治療關於性、性健康、意識等的教育資源。提到生物性性或性生殖的描述描述非圖形詞彙中浪漫關係的文字	`"Fewer young adults are having sex than in previous generations."`
層級 2	內容，包含虛構或真實世界體驗中與性相關的詞彙，這些內容並不非常生動。這包括：提到文學/藝術文字、電影、雕塑等，其中包含有限的骯髒談話或簡短的非明確裸體場景與一般性相關的個人經歷、性問題和創傷、分享應對機制和資源來解決此類問題建立性內容的封鎖清單的用戶意圖提到輕核心的性行為和裸體	`"The first time I had sex, I found it painful."`
層級 3	在包含一些圖形內容、表達偏見、偏見、判斷或性相關問題意見的情況下，具有性相關詞彙的內容。這包括：個人過去或目前的性體驗與一些圖形內容	`"We made out for a while, and he started to feel me up. I felt a bulge in his pants."`
層級 4	描述性幻想、專業性產業和廣告以及性動物繁殖的內容。這包括：不同類型的性幻想，包括想像真實或虛構的裸體專業性產業沒有性場景的描述避孕套、面料、性玩具、服裝等廣告。描述動物或類似動物的人物之間的性繁殖與一些圖形內容提到性行為和裸體與軟核心	`"I got into BDSM because I had some friends into the lifestyle and it piqued my interest. I like using silk, scarves, collars, and bondage…"`
層級 5	描述色情內容會顯示或體驗為個人體驗、BDSM 明確同意，以及色情故事和網站。這包括：提到性、色情或曬黑按摩、脫衣俱樂部、色情表演為個人經歷（不是專業服務）與 BDSM 屬性和實務相關的個人體驗和描述，一般或 BDSM 實務有清楚內容的情況提及與性慾或快樂相關的非商業色情內容	`"We both climaxed at the same time."`
層級 6	描述性商務服務請求的內容，其中包含性活動、暴力性虐待和強姦的詳細描述，以及非自願的權力交換、虐待和偷窺。這包括：提到用手或其他物體刺激生殖器、手淫等。涉及體液、性控制情況或 BDSM 活動未經明確同意的擷取或粗暴內容以圖形詳細數據描述性暴力、性侵犯、強姦或虐待的文字將正面品質歸因於性侵犯的文字尋求或提供執行性侵犯指示的文字敲詐勒索和威脅的行為，揭露先前錄製的不合情意的性圖像或視頻	`"I love forced sex, it's so much hotter."`
層級 7	用來宣傳、背書、美化極端形式的性奴役的內容。極端或非法的內容。這包括：與動物、屍體等發生性關係。戀童癖尋求或提供關於兒童美容的指示明確或潛在的亂倫參考人口性販運招募	`"I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son."`

暴力嚴重性層級

嚴重層級	說明	範例文字
層級 0	內容包含非暴力行動或與暴力相關的詞彙，在一般意義上對包括兒童在內的所有目標物件無害。這包括：未用作武器時的通用物件玩具槍，非現實或假裝的槍當未用作努塞時，提及繩索	`"According to our child and parent testers, here are the best long-range soakers for soft blasters for toddlers suitable for epic water battles."`
層級 1	內容，包含一般意義上使用的暴力相關詞彙或行為，但可能會根據內容取得不同的意義。這包括：包含暴力行為描述的文字子集，其中全文的內容化沒有暴力意圖關於槍支、武器、家庭暴力、戰爭、軍事等的官方統計和檔。與暴力相關的教育資源新聞/媒體報導醫療條款與內容狩獵或射擊運動和槍支技術規格戰鬥練習與ISIS/基地組織無關的反恐和恐怖主義符號	`"Carnivores such as lions and tigers are prone to killing one another. Death occurs at the paws, claws, jaws, or tusks that might fatally gore one another during fights."`
層級 2	內容，其中包含虛構或真實世界體驗中與暴力相關的詞彙或行為，這些體驗不是極其圖形化，也沒有對惡意的讚美或背書。這包括：第一、第二和第三人稱電子遊戲、描繪暴力或圖形場景的文學/藝術文字遊戲秘訣和建議個人描述他們如何接觸某種暴力的個人經歷噹噹做沒有人類科目出現或與努塞無關的努塞時，提到繩索使用者意圖是建立具有暴力內容的封鎖清單	`"She wishes she could have killed her whole family."`
層級 3	與暴力相關的條款或行為的內容，包括一些圖形內容、表達偏見、偏見、判斷或對暴力的看法的意見。這包括：允許虐待一些動物聲稱對某種暴力類型產生積極影響的文字	`"Some people just need to be slapped."`
層級 4	內容描述了為什麼受害者被身體虐待、虐待者積極素質的毫無根據的歸因、關於如何傷害他人的暴力行為和幻想的威脅和幻想的內容。這包括：將受害者置於錯誤或描繪肇事者的文字具有中等戈爾暴力和死亡的圖形描述驗屍報告、法醫調查、犯罪或死亡現場肉類和家禽設施，以及宗教動物犧牲提到歷史或最近的種族滅絕和已知的槍擊事件與大規模傷亡沒有支援或榮耀提到恐怖分子和暴力極端主義事件，沒有背書或榮耀	`"Victims of abuse deserve to be hit. They push and push until they get what they deserve."`
層級 5	旨在進一步暴力的內容，提供如何傷害特定個人或團體的直接指示。這包括：煽動針對目標個人/群體的人身暴力的文字如何對個人造成身體暴力或虐待動物的指示尋求如何對動物、個人或團體採取暴力行動的建議的文字欺淩和恐嚇	`"Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught."`
層級 6	內容描述極端主義團體和恐怖組織、大規模殺戮和嚴重身體傷害，以及促進恐怖主義及其宣傳。這包括：官方恐怖分子或極端主義宣傳材料以及互聯網上的暴力意識形態煽動採取暴力行動	`"We must kill them all. God wills it, and society will be better for it."`
層級 7	用來描述、讚揚、支援、推廣、支援、表彰極端暴力形式的內容。支援恐怖組織並激進化、指示或訓練的內容。這包括：強迫勞動，包括兒童、家庭服務或醫療在線恐怖分子和暴力極端分子宣傳材料，將殺人視為恐怖活動的一部分，並協助向恐怖組織或事業提供援助關於如何招募、影響和訓練人們走向事業的指示的文字非法騷擾行為，例如跟蹤或垃圾監視規劃和協調對個人或人員群組攻擊的文字背書、美化或提供食人主義指示的文字	`"Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight."`

自我傷害嚴重性層級

嚴重層級	說明	範例文字
層級 0 – 保管庫	內容，其中包含一般意義上的自我傷害相關詞彙，對包括兒童在內的所有目標物件而言都是無害的。這包括：提到身體脂肪，脂肪質量指數指標按年齡和性別在健康相關內容	`"I appreciate your hard work, but you don't need to keep killing yourself over this project."`
層級 1	包含一般意義上使用自我傷害相關詞彙的內容，但可能會根據內容取得不同的意義。這包括：關於非自殺性自我傷害（NSSI）、自殺等的官方統計數據和檔。與自我傷害相關的教育資源新聞/媒體報導醫療條款與內容描述意外自我傷害、急救提示等的動作。	`"Binging and purging may be a warning sign for people with a history of extreme weight loss."`
層級 2	包含自我傷害相關詞彙的內容，或在虛構或真實世界體驗中的行為，這些內容並非極其圖形化。這包括：文學/藝術文字、電影等描繪人物策劃或自殺、自殘或無序飲食，沒有榮耀或背書自我傷害行為或自殺被描繪為低戈爾的文字使用者意圖是建立自我傷害條款的封鎖清單	`"Oedipus stabbed his eyes in despair."`
層級 3	在包含一些圖形內容、表達偏見、偏見、判斷或自殘觀點的案例中，具有自我傷害相關詞彙或行為的內容。這包括：與自我傷害相關的個人經歷，例如在傷害自己或自殺之前尋求説明	`"I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?"`
層級 4	嘲笑自殺或自我傷害受害者或倖存者的內容、自我傷害的正面品質、幻想或自我傷害願望的無根據歸因，並包含涉及死亡、驗屍、犯罪或死亡現場的明確圖形內容。這包括：自我傷害被視為解決問題、情緒痛苦、擺脫痛苦/痛苦的解決方案自我傷害或自殺的文字包含中度戈爾和工具的描述，如刀子、手槍等。	`"It's hilarious when [identity group] kill themselves."`
層級 5	旨在進一步促進自我傷害的內容，提供如何執行自我傷害或欺淩受害者的直接指示。這包括：尋求關於如何執行自我傷害行為的建議或建議的文字，除了自殺描述個人過去和目前自我傷害體驗的文字，其中包含明確的詳細數據煽動和促進自我傷害行為的欺淩、恐嚇和施壓	`"Go kill yourself, you are worthless."`
層級 6	描述如何自殺的詳細和明確指示的內容。這包括：指示如何向家人寫告別訊息的文字	`"Here is a quick guide to do-it-yourself suicide. One method is asphyxia suicide by inhaling helium inside a plastic bag."`
層級 7	用來背書和美化自殺或其他嚴重自我傷害行為的內容。這包括：自我斬首活著燃燒	`"Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble."`

映像內容

警告
嚴重性定義

警告