Categorie di danni nel contenuto di Intelligenza artificiale di Azure Cassaforte ty

Articolo
01/20/2024

Questa guida descrive tutte le categorie e le classificazioni dannose usate dal contenuto di Intelligenza artificiale di Azure Cassaforte ty per contrassegnare il contenuto. Sia il contenuto di testo che quello dell'immagine usano lo stesso set di flag.

Categorie di danni

Il contenuto Cassaforte ty riconosce quattro categorie distinte di contenuto inapproponibile.

Categoria	Descrizione
Odio e equità	I danni correlati all'odio e all'equità si riferiscono a qualsiasi contenuto che attacca o usa linguaggio pejorative o discriminatorio con riferimento a una persona o a un gruppo di identità basato su determinati attributi diversi di questi gruppi, tra cui, ad esempio, razza, etnia, nazionalità, identità di genere ed espressione, orientamento sessuale, religione, stato dell'immigrazione, stato di abilità, aspetto personale e dimensioni del corpo. L'equità è preoccupata per garantire che i sistemi di IA considerino equamente tutti i gruppi di persone senza contribuire alle inquietudine sociali esistenti. Analogamente al discorso di odio, i danni correlati all'equità dipendono da un trattamento diverso dei gruppi di identità.
Sessuale	Il linguaggio sessuale descrive il linguaggio correlato ad organi anatomici e genitali, relazioni romantiche, atti ritratti in termini erotici o affettuosi, gravidanza, atti sessuali fisici, inclusi quelli rappresentati come un assalto o un atto violento sessuale forzato contro la volontà, la prostituzione, la pornografia e l'abuso.
Violenza	La violenza descrive il linguaggio relativo alle azioni fisiche destinate a ferire, ferire, danneggiare o uccidere qualcuno o qualcosa del genere; descrive armi, armi e entità correlate, ad esempio fabbricazioni, associazioni, legislazione e così via.
Autolesionismo	L'autolesionismo descrive il linguaggio correlato alle azioni fisiche destinate a ferire intenzionalmente, ferire, danneggiare il corpo o uccidersi.

La classificazione può essere con etichetta multipla. Ad esempio, quando un esempio di testo passa attraverso il modello di moderazione del testo, può essere classificato sia come contenuto sessuale che come violenza.

Livelli di gravità

Ogni categoria di danni applicata dal servizio include anche una classificazione del livello di gravità. Il livello di gravità è destinato a indicare la gravità delle conseguenze della visualizzazione del contenuto contrassegnato.

Testo: la versione corrente del modello di testo supporta la scala di gravità completa di 0-7. Il classificatore rileva tutti i livelli di gravità lungo questa scala. Se l'utente specifica, può restituire gravità nella scala tagliata di 0, 2, 4 e 6; ogni due livelli adiacenti viene mappato a un singolo livello.

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

Immagine: la versione corrente del modello di immagine supporta la versione ridotta della scala di gravità completa di 0-7. Il classificatore restituisce solo i livelli di gravità 0, 2, 4 e 6; ogni due livelli adiacenti viene mappato a un singolo livello.

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

Avviso

La scheda Definizioni di gravità in questo documento contiene esempi di contenuto dannoso che potrebbero disturbare alcuni lettori.

Livelli di gravità di odio e equità

Livello di gravità	Descrizione	Testo di esempio
Livello 0	Contenuto che contiene termini correlati all'odio e all'equità usati nel senso generale ed è appropriato per tutti i destinatari, inclusi i bambini. Valuta gli ambiti seguenti: Generale, linguaggio pejorative che esprime disametico contro i gruppi di identità Menzioni generali degli attributi del gruppo di identità, ad esempio razza, etnia, religione, ecc. in contesti storici, geografici, medici e altri contesti simili senza sentimenti Termini generali che non hanno sfumature razziali di intenti offensivi al di fuori del contesto	`"I hate cats."`
Livello 1	Contenuto che contiene termini correlati all'odio e all'equità usati nel senso generale, ma possono acquisire un significato diverso in base al contesto e non distingue tra gruppi di identità e altri in modo pregiudizio o negativo. Valuta gli ambiti seguenti: Statistiche ufficiali, legislazione o documentazione News/media coverage Risorse educative destinate a aumentare la consapevolezza della diversità/affrontare il discorso di odio Prodotti di whitening della pelle e annunci di trattamento Menzioni di Swastika Indo-Asian, la bandiera confederata, gruppi non KKK che hanno somiglianza visiva con KKK	`"Black people should not be killed by police or mistreated just because of their skin color."`
Livello 2	Contenuto che contiene la caratterizzazione positiva o la protezione dei gruppi di identità che attivano una risposta emotiva favorevole. Valuta gli ambiti seguenti: I slurs hanno scritto completamente in documenti di ricerca, dizionari o media con virgolette dirette Istruzioni da parte di un relatore che appartiene a un gruppo di identità senza finalità di destinazione dello stesso gruppo di identità Parole maledizione, volgarità e insulti verbali che non hanno come bersaglio un gruppo di identità Discorso di odio generale destinato a singoli utenti/gruppi non identificati senza destinazioni di un gruppo di identità Finalità dell'utente di creare un elenco di blocchi di termini offensivi Rappresentazioni della Germania nazista, Hitler, la bandiera confederata e il simbolismo Ku Klan Klan nei film, videogiochi, costumi, giocattoli, reenactments o slang online	`"I hate you."`
Livello 3	Contenuto che contiene pregiudizi, giudizio, caratterizzazione stereotipica o sentiment negativo. Valuta gli ambiti seguenti: Opinione basata sulla stereotipizzazione o sul sentiment negativo Esprime opinioni pregiudiziose, giudicate o opinioni Confronti negativi o positivi che differenziano i gruppi di identità e altri. Menzioni in mondi fittizi Discriminazione dell'occupazione nei posti di lavoro Fatti storici e artefatti relativi alla Germania nazista, la bandiera confederata durante la guerra civile degli Stati Uniti, o il Ku Klux Klan	`"I don't like [identity group] because they are all so aggressive. They attacked us over and over again for no reason at all."`
Livello 4	Contenuto che contiene insulti verbali diretti motivati dal sentiment, commenti negativi e insulti razziali usati come descrizioni destinate ai gruppi di identità con l'intenzione di ferire gli individui in base ai loro attributi. Valuta gli ambiti seguenti: Riferimenti usati per indirizzare la razza, il colore della pelle Promozione dell'elusione sociale e dell'isolamento Simulazione e imitazione degli attributi dei gruppi di identità	`"All [identity group] are ugly."`
Livello 5	Contenuto che contiene la deumanizzazione o l'attestazione di individui o gruppi che ulteriormente il sentimento negativo attraverso la deumanizzazione, la violenza, la negazione di eventi, il bullismo o comportamenti di intimidazione. Valuta gli ambiti seguenti: Testi che negano eventi storici, ben documentati e violenti come l'Olocausto Testi che descrivono individui o gruppi come fisicamente o mentalmente inferiori in base all'appartenenza a un gruppo di identità Testi che interrogano, negano o demeano l'esistenza del gruppo di identità Imposizione degli attributi desiderati/previsti Teorie eugeniche e "miglioramento razziale" destinate ai gruppi di identità Merce moderna che contiene nazista, la bandiera confederata, o simboli KKK	`"The [real world event] is a fraud. What we've discovered is that sources have been lying about the number of victims. Here is proof."`
Livello 6	Contenuto basato sul sentiment negativo e sul discorso di odio verso i gruppi di identità. Facendo riferimento alle caratteristiche del gruppo che differenziano il gruppo di identità e altri utenti e sono interessanti per intervenire sui gruppi di identità in base ai relativi attributi. Le attività necessarie a questo scopo includono le seguenti: Propaganda del parlato di odio che può essere percepita come una minaccia diretta a o una richiesta di violenza verso un gruppo di identità Incendiario, offensivo e volgare discorso di odio Testi che sostengono presumibilmente la superiorità di un gruppo rispetto a quelli con gli attributi dei gruppi di identità per giustificare la discriminazione, la segregazione o l'esclusione Testi che descrivono la gioia in merito a un evento violento che ha colpito un gruppo di identità	`"Send [identity group] back to the gas chambers."`
Livello 7	Contenuto basato sul sentimento negativo, che mostra la finalità del crimine d'odio e lo stalking, attivando una risposta emotiva ostile e differenziando gruppi di identità e altri che portano alla criminalità. Valuta gli ambiti seguenti: Preparazione, lodi e glorificazione della violenza contro un gruppo di identità Testi che contengono materiale di reclutamento dei gruppi suprematisti Testi destinati a radicalizzare e incoraggiare il discorso di odio contro un gruppo di identità	`"Millions of [identity group] were wiped out because they were the inferior race. Murdering them continues to be right and honorable because…"`

Livelli di gravità sessuale

Livello di gravità	Descrizione	Testo di esempio
Livello 0	Contenuto che contiene termini sessualmente correlati utilizzati in generale che è innocuo per tutti i destinatari, inclusi i bambini. Menzioni delle relazioni familiari Contenuto innocuo per tutti i destinatari, inclusi i bambini	`"The sports bra and yoga pants were too tight for comfort."`
Livello 1	Contenuto che contiene termini sessualmente correlati utilizzati in senso generale, ma può acquisire un significato diverso in base al contesto. Sono inclusi: Statistiche ufficiali e documentazione su argomenti correlati al sesso News/media coverage Termini patologici, anatomia sessuale e trattamento medico Risorse educative su sesso, benessere sessuale, consapevolezza, ecc. Menzioni di sesso biologico o descrizioni di riproduzione sessuale Testi che descrivono relazioni romantiche in termini non grafici	`"Fewer young adults are having sex than in previous generations."`
Livello 2	Contenuto che contiene termini sessualmente correlati in esperienze fittizie o reali che non sono estremamente grafiche. Sono inclusi: Menzioni di testi letterari/artistici, film, sculture, ecc. che contengono conversazioni sporche limitate o brevi scene di nudità non esplicite Esperienze personali legate al sesso in generale, problemi sessuali e traumi, condivisione di meccanismi e risorse di coping per affrontare tali problemi Finalità dell'utente di creare un elenco di blocchi per il contenuto sessuale Menzioni di atti sessuali e nudità con nucleo chiaro	`"The first time I had sex, I found it painful."`
Livello 3	Contenuto con termini sessualmente correlati nei casi che contengono alcuni contenuti grafici, opinioni che esprimono pregiudizi, pregiudizi, opinioni giudicanti o opinioni su questioni correlate al sesso. Sono inclusi: Esperienze sessuali personali passate o presenti con alcuni contenuti grafici	`"We made out for a while, and he started to feel me up. I felt a bulge in his pants."`
Livello 4	Contenuti che descrivono fantasie sessuali, industria sessuale professionale e pubblicità, e riproduzione animale sessualizzata. Sono inclusi: Fantasie di sesso di diversi tipi, tra cui immaginare nudità reale o fittizia Settore sessuale professionale senza descrizioni di scene di sesso Annunci per preservativi, lubrificanti, giocattoli sessuali, abbigliamento e così via. Descrizioni della riproduzione sessuale tra animali o personaggi simili ad animali con alcuni contenuti grafici Menzioni di atti sessuali e nudità con nucleo morbido	`"I got into BDSM because I had some friends into the lifestyle and it piqued my interest. I like using silk, scarves, collars, and bondage…"`
Livello 5	Contenuti che descrivono spettacoli erotici o esperienze come esperienza personale, BDSM con consenso chiaro, storie erotiche e siti Web. Sono inclusi: Menzioni di massaggi sessuali, erotici o tantrici, strip club, spettacoli erotici come esperienza personale (non come servizio professionale) Esperienze personali e descrizioni correlate agli attributi e alle procedure BDSM in generale o in situazioni con contenuto chiaro per la pratica BDSM Menzioni di contenuti erotici non commerciali correlati al desiderio sessuale o al piacere	`"We both climaxed at the same time."`
Livello 6	Contenuti che descrivono la richiesta di servizi commerciali sessuali, contenenti descrizioni dettagliate dell'attività sessuale, abusi sessuali violenti e stupri e scambi di potere non consensuali, abusi e voyeurismo. Sono inclusi: Menzioni di stimolazione dei genitali con le mani o altri oggetti, masturbazione, ecc. Fetish o contenuto grezzo che coinvolge fluidi corporei, situazioni di controllo sessuale o attività BDSM senza consenso chiaro Testi che descrivono la violenza sessuale, l'aggressione sessuale, lo stupro o l'abuso nei dettagli grafici Testi che attribuiscono qualità positive all'aggressione sessuale Testi che cercano o forniscono istruzioni per eseguire l'aggressione sessuale Atti di ricatto e minacce per rivelare immagini sessuali non consentate o video registrati in precedenza	`"I love forced sex, it's so much hotter."`
Livello 7	Contenuti utilizzati per promuovere, approvare, glorifiche forme estreme di schiavitù sessuale. Contenuto estremo o illegale. Sono inclusi: Sesso con animali, cadaveri, ecc. Paedofilia Cercare o fornire istruzioni sulla pulitura dei bambini Riferimenti espliciti o potenziali all'inceto Reclutamento del traffico sessuale umano	`"I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son."`

Livelli di gravità della violenza

Livello di gravità	Descrizione	Testo di esempio
Livello 0	Contenuto che contiene azioni non violente o termini correlati alla violenza usati in un senso generale che è innocuo per tutti i destinatari, inclusi i bambini. Valuta gli ambiti seguenti: Oggetti comuni quando non vengono usati come armi Pistole giocattolo, non realistico o finta pistole Menzioni di corde quando non utilizzate come noose	`"According to our child and parent testers, here are the best long-range soakers for soft blasters for toddlers suitable for epic water battles."`
Livello 1	Contenuto che contiene termini o atti correlati alla violenza utilizzati in senso generale, ma può acquisire un significato diverso in base al contesto. Valuta gli ambiti seguenti: Subset di testi che contengono descrizioni di atti violenti, in cui la contestualizzazione del testo completo non possiede finalità violente Statistiche ufficiali e documentazione su armi, armi, violenza domestica, guerra, militare, ecc. Risorse educative correlate alla violenza News/media coverage Termini e contenuti medici Sport di caccia o tiro a fuoco e specifiche tecniche di pistola Pratica di combattimento Simboli terroristici e antiterrorismo non correlati all'ISIS/al-Qaida	`"Carnivores such as lions and tigers are prone to killing one another. Death occurs at the paws, claws, jaws, or tusks that might fatally gore one another during fights."`
Livello 2	Contenuto che contiene termini o atti di violenza in esperienze fittizie o reali che non sono estremamente grafiche e senza glorificazione o approvazione di malintent. Valuta gli ambiti seguenti: Prima, seconda e terza persona narrazione in videogiochi, testi letterari/artistici che raffigurano scene violente o grafiche Suggerimenti e consigli per i giochi Esperienze personali in cui un individuo descrive come sono stati esposti ad alcuni tipi di violenza Menzioni di corde quando usate come noose senza soggetti umani presenti o non correlati al noose La finalità dell'utente consiste nel creare un elenco di blocchi con contenuto violento	`"She wishes she could have killed her whole family."`
Livello 3	Contenuti con termini o atti di violenza nei casi che contengono contenuti grafici, opinioni che esprimono pregiudizi, pregiudizi, opinioni giudicanti o opinioni opinioni sulla violenza. Valuta gli ambiti seguenti: Lasciare crudeltà per alcuni animali Testi che sostengono un impatto positivo di alcuni tipi di violenza	`"Some people just need to be slapped."`
Livello 4	Contenuto che descrive una logica in primo piano per il motivo per cui le vittime vengono fisicamente abusate, attribuzione infondata di qualità positiva di abusi, minacce di atti violenti e fantasie relative a come danneggiare un'altra persona, e media gore. Valuta gli ambiti seguenti: Testi che mettono la vittima in colpa o raffigurano autori in una luce positiva Descrizioni grafiche della violenza e della morte con media gore Una relazione autopsia, un'indagine forense, un crimine o una scena di morte Carne e pollame, e sacrifici di animali religiosi Riferimenti a genocidi storici o recenti ed eventi di sparatoria noti con vittime di massa senza approvazione o glorificazione Riferimenti a eventi terroristici e violenti estremisti senza approvazione o glorificazione	`"Victims of abuse deserve to be hit. They push and push until they get what they deserve."`
Livello 5	Contenuti che puntano a un'ulteriore violenza, fornendo istruzioni dirette su come danneggiare individui o gruppi specifici. Valuta gli ambiti seguenti: Testi che incitano la violenza fisica contro individui/gruppi mirati Istruzioni su come causare violenza fisica a individui o abusi sugli animali Testi che cercano consigli su come eseguire atti violenti su animali, individui o gruppi Bullismo e intimidazione	`"Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught."`
Livello 6	Contenuti che descrivono gruppi estremisti e organizzazioni terroristiche, uccisioni di massa e danni fisici espliciti in alto gore, e promozione del terrorismo e della sua propaganda. Valuta gli ambiti seguenti: Materiale ufficiale di propaganda terroristica o estremista e ideologia violenta su Internet l'incitamento a intraprendere un'azione violenta	`"We must kill them all. God wills it, and society will be better for it."`
Livello 7	Contenuti utilizzati per descrivere, elogiare, sostenere, promuovere, approvare, glorificare forme estreme di violenza. Contenuto che supporta organizzazioni terroristiche e radicalizza, indica o esegue il training. Valuta gli ambiti seguenti: Lavoro forzato tra cui bambini, servitù domestica o trattamento medico Materiale terroristico online e violento di propaganda estremista che glorifica le uccisioni come parte dell'attività terroristica e gli aiuti offerti a organizzazioni terroristiche o cause terroristiche Testi che cercano istruzioni sull'affiliazione con gruppi estremisti terroristici e violenti su come reclutare, influenzare e addestrare le persone verso la causa Comportamenti illeciti di molestare come lo stalking o la sorveglianza indesiderata Testi che pianificano e coordinano attacchi su individui o gruppi di persone Testi che approvano, glorificano o forniscono istruzioni sul cannibalismo	`"Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight."`

Livelli di gravità autolesionismo

Livello di gravità	Descrizione	Testo di esempio
Livello 0 : Cassaforte	Contenuto che contiene termini correlati all'autolesionismo usati in un senso generale che è innocuo per tutti i destinatari di destinazione, inclusi i bambini. Valuta gli ambiti seguenti: Menzioni del grasso corporeo, indicatori di indice di massa grassa per età e sesso nei contesti correlati alla salute	`"I appreciate your hard work, but you don't need to keep killing yourself over this project."`
Livello 1	Contenuto che contiene termini correlati all'autolesionismo usati in un senso generale, ma possono acquisire un significato diverso in base al contesto. Valuta gli ambiti seguenti: Statistiche ufficiali e documentazione su autolesionismo non suicida (NSSI), suicidio e così via. Risorse educative correlate all'autolesionismo News/media coverage Termini e contenuti medici Azioni che descrivono l'autolesionismo accidentale, i suggerimenti per il primo soccorso e così via.	`"Binging and purging may be a warning sign for people with a history of extreme weight loss."`
Livello 2	Contenuto che contiene termini o atti autolesionismo in esperienze fittizie o reali che non sono estremamente grafiche. Valuta gli ambiti seguenti: Testi letterari/artistici, film, ecc. che raffigurano personaggi che tracciano o commettono suicidio, impegnandosi in autolesionismo o mangiare disordinato senza glorificazione o approvazione Testi in cui atti di autolesionismo o suicidio è raffigurato con bassa gore La finalità dell'utente consiste nel creare elenchi di blocchi di termini autolesionistici	`"Oedipus stabbed his eyes in despair."`
Livello 3	Contenuti con termini o atti correlati all'autolesionismo nei casi che contengono contenuti grafici, opinioni che esprimono pregiudizi, pregiudizi, opinioni giudicanti o opinioni su autolesionismo. Valuta gli ambiti seguenti: Esperienze personali legate all'autolesionismo, come chiedere aiuto prima di ferirsi o commettere suicidio	`"I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?"`
Livello 4	Contenuto che simula vittime o sopravvissuti di suicidio o autolesionismo, attribuzione infondata di qualità positive a autolesionismo, fantasie o desideri di autolesionismo e contiene contenuti grafici espliciti che coinvolgono morte, autopsia, crimine o scena della morte. Valuta gli ambiti seguenti: Autolesionismo presentato come soluzione a un problema, disagio emotivo, fuga da dolore/agonia Testi in cui autolesionismo o suicidio contengono media gore e descrizioni di strumenti come un coltello, una pistola, ecc.	`"It's hilarious when [identity group] kill themselves."`
Livello 5	Contenuti che puntano a promuovere ulteriormente l'autolesionismo, fornendo istruzioni dirette su come eseguire autolesionismo o bullismo di una vittima. Valuta gli ambiti seguenti: Testi che cercano consigli o raccomandazioni su come eseguire atti autolesionici ad eccezione del suicidio Testi che descrivono esperienze personali passate e presenti di autolesionismo che contiene dettagli espliciti Bullismo, intimidazione e pressuring che incita e promuove azioni autolesionismo	`"Go kill yourself, you are worthless."`
Livello 6	Contenuto che descrive istruzioni dettagliate ed esplicite su come commettere un suicidio. Valuta gli ambiti seguenti: Testi che indicano come scrivere un messaggio di addio alla tua famiglia	`"Here is a quick guide to do-it-yourself suicide. One method is asphyxia suicide by inhaling helium inside a plastic bag."`
Livello 7	Contenuto utilizzato per approvare e globare suicidio o altri gravi atti di autolesionismo. Valuta gli ambiti seguenti: Auto-decapitazione Bruciare vivo	`"Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble."`

Contenuto immagine

Avvertenza
Definizioni di gravità