Categorías de daños en Azure AI Content Safety

Artículo
01/20/2024

En esta guía se describen todas las categorías de daños y clasificaciones que Seguridad del contenido de Azure AI usa para marcar el contenido. Tanto el contenido de texto como de imagen usan el mismo conjunto de marcas.

Categorías de daños

Content Safety reconoce cuatro categorías distintas de contenido censurable.

Category	Descripción
Odio y equidad	Los daños relacionados con el odio y la equidad se refieren a cualquier contenido que ataque o utilice un lenguaje peyorativo o discriminatorio con referencia a una persona o grupo de identidad basado en ciertos atributos diferenciadores de estos grupos, incluidos, entre otros, la raza, la etnia, la nacionalidad, la identidad y expresión de género, la orientación sexual, la religión, el estatus migratorio, el estado de capacidad, la apariencia personal y el tamaño corporal. La equidad consiste en garantizar que los sistemas de IA traten a todos los grupos de personas de forma equitativa sin contribuir a las desigualdades sociales existentes. Como en el caso de la incitación al odio, los perjuicios relacionados con la equidad se basan en el trato desigual de los grupos de identidad.
Sexual	Sexual describe el lenguaje relacionado con los órganos anatómicos y los genitales, el embarazo, las relaciones románticas, los actos representados en términos eróticos o afectuosos, los actos sexuales físicos, incluidos los representados como una agresión o un acto violento sexual forzado contra la propia voluntad, la prostitución, la pornografía y el abuso.
Violencia	Violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, pistolas y entidades relacionadas, como fabricantes, asociaciones, legislación, etc.
Autolesiones	Autolesión describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar o dañar intencionadamente su propio cuerpo o a suicidarse.

La clasificación puede tener varias etiquetas. Por ejemplo, cuando una muestra de texto pasa a través del modelo de moderación de textos, podría clasificarse como contenido sexual y violencia.

Niveles de gravedad

Cada categoría de daño que el servicio aplica también incluye una clasificación de nivel de gravedad. El nivel de gravedad está pensado para indicar la gravedad de las consecuencias de mostrar el contenido marcado.

Texto: la versión actual del modelo de texto admite la escala de gravedad completa de 0 a 7. El clasificador detecta la gravedad entre todas las gravedades de esta escala. Si el usuario lo especifica, puede devolver gravedades en una escala ajustada de 0, 2, 4 y 6; cada dos niveles adyacentes se asignan a un único nivel.

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

Imagen: la versión actual del modelo de imagen admite una versión ajustada de la escala completa de gravedad 0-7. El clasificador solo devuelve gravedades 0, 2, 4 y 6; cada dos niveles adyacentes se asignan a un único nivel.

[0,1] -> 0
[2,3] -> 2
[4,5] -> 4
[6,7] -> 6

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Niveles de gravedad de odio y equidad

Nivel de gravedad	Descripción	Texto de ejemplo
Nivel 0	Contenido en el que se usan términos relacionados con el odio y la equidad en un sentido general y que es adecuado para todos los públicos de destino, incluidos los niños. Esta característica incluye: Lenguaje general y peyorativo que expresa desagrado hacia grupos de identidad. Menciones generales de atributos de grupos de identidad, como raza, etnia, religión, etc., en contextos históricos, geográficos, médicos y similares, sin ningún tipo de opinión. Términos generales sin trasfondo racial ni intención de ofender fuera del contexto.	`"I hate cats."`
Nivel 1	Contenido en el que se usan términos relacionados con el odio y la equidad en un sentido general, pero que pueden adquirir un significado diferente en función del contexto, y que no hace distinciones entre grupos de identidad y otras personas de manera sesgada o negativa. Esta característica incluye: Estadísticas oficiales, legislación o documentación. Cobertura de noticias y medios. Recursos educativos concebidos para concienciar sobre la diversidad o abordar el discurso de odio. Anuncios de productos y tratamientos para blanquear la piel. Menciones de la esvástica indoeurasiática, la bandera confederada, de EE. UU. o grupos no pertenecientes al Ku Klux Klan que guardan un parecido visual con el Ku Klux Klan.	`"Black people should not be killed by police or mistreated just because of their skin color."`
Nivel 2	Contenido que expresa una caracterización positiva o una actitud protectora hacia grupos de identidad y que suscita una respuesta emocional favorable. Esta característica incluye: Insultos escritos al completo en trabajos de investigación, diccionarios o medios de comunicación con citas directas. Declaraciones de un orador perteneciente a un grupo de identidad sin intención de dirigirse al mismo grupo de identidad. Términos malsonantes, groserías e insultos verbales que no se dirigen a ningún grupo de identidad. Discurso de odio en general dirigido a personas o grupos no identificados sin señalar a ningún grupo de identidad. Intención del usuario de crear una lista de bloqueo de términos ofensivos. Representaciones de la Alemania nazi, Hitler, la bandera confederada de EE. UU. y la simbología del Ku Klux Klan en películas, videojuegos, disfraces, juguetes, recreaciones o jerga en línea.	`"I hate you."`
Nivel 3	Contenido con opiniones negativas o caracterizaciones prejuiciosas, sentenciosas o estereotipadas. Esta característica incluye: Opinión basada en estereotipos o sentimientos negativos. Manifestación de opiniones prejuiciosas, sentenciosas o tendenciosas. Comparaciones negativas o positivas que hacen distinciones entre grupos de identidad y otras personas. Menciones en mundos ficticios. Discriminación laboral en ofertas de trabajo. Hechos históricos y artefactos relacionados con la Alemania nazi, la bandera confederada de la guerra civil de EE. UU., o el Ku Klux Klan.	`"I don't like [identity group] because they are all so aggressive. They attacked us over and over again for no reason at all."`
Nivel 4	Contenido con insultos verbales directos motivados por opiniones, comentarios negativos y expresiones racistas usadas como descripciones contra grupos de identidad con la intención de herir a las personas a causa de sus atributos. Esta característica incluye: Referencias usadas para señalar la raza o el color de la piel de una persona. Fomento del rechazo y el aislamiento social. Burlas e imitación de atributos de grupos de identidad.	`"All [identity group] are ugly."`
Nivel 5	Contenido que implique la deshumanización o el menosprecio de personas o grupos y que favorezca opiniones negativas a través de comportamientos de deshumanización, violencia, negación de los hechos, acoso o intimidación. Esta característica incluye: Textos que niegan acontecimientos históricos violentos y bien documentados, como el Holocausto. Textos que describen a personas o grupos como física o mentalmente inferiores en función de la pertenencia a un grupo de identidad. Textos que cuestionan, niegan o denigran la existencia de un grupo de identidad. Imposición de los atributos deseados o esperados. Teorías eugenésicas y de "mejora racial" contra grupos de identidad. Productos comerciales modernos con símbolos nazis, de la bandera confederada de EE. UU. o del Ku Klux Klan.	`"The [real world event] is a fraud. What we've discovered is that sources have been lying about the number of victims. Here is proof."`
Nivel 6	Contenido basado en opiniones negativas y discurso de odio hacia grupos de identidad. Y que se refieren a las características del grupo que distinguen al grupo de identidad de otras personas e incitan a tomar medidas contra grupos de identidad por sus atributos. Esto puede incluir: Propaganda de incitación al odio que pueda percibirse como una amenaza directa o un llamamiento a la violencia contra un grupo de identidad. Discurso de odio incendiario, ofensivo o soez. Textos que supuestamente afirman la superioridad de un grupo sobre las personas que poseen atributos de grupos de identidad con el fin de justificar la discriminación, la segregación o la exclusión. Textos que describen sentimientos de satisfacción por un acontecimiento violento contra un grupo de identidad.	`"Send [identity group] back to the gas chambers."`
Nivel 7	Contenido basado en una opinión negativa y que manifiesta la intención de cometer delitos de odio y acoso y suscita una respuesta emocional hostil y la distinción entre grupos de identidad y otras personas, lo que conduce a la comisión de delitos. Esta característica incluye: Preparación de delitos de odio y alabanza y ensalzamiento de la violencia contra un grupo de identidad. Textos que contienen material de reclutamiento de grupos supremacistas. Textos destinados a radicalizar y fomentar el discurso de odio contra un grupo de identidad.	`"Millions of [identity group] were wiped out because they were the inferior race. Murdering them continues to be right and honorable because…"`

Niveles de gravedad sexual

Nivel de gravedad	Descripción	Texto de ejemplo
Nivel 0	Contenido en el que se usan términos sexuales en un sentido general y que es inofensivo para todos los públicos de destino, incluidos los niños. Menciones de relaciones familiares. Contenido que es inofensivo para todos los públicos de destino, incluidos los niños.	`"The sports bra and yoga pants were too tight for comfort."`
Nivel 1	Contenido en el que se usan términos sexuales en un sentido general, pero que puede adquirir un significado diferente según el contexto. Esto incluye: Estadísticas oficiales y documentación sobre temas relacionados con el sexo. Cobertura de noticias y medios. Términos anatómicos, anatomía sexual y tratamiento médico. Recursos educativos sobre sexo, bienestar sexual, concienciación, etc. Menciones del sexo biológico o descripciones de la reproducción sexual. Textos que describen relaciones románticas en términos no gráficos.	`"Fewer young adults are having sex than in previous generations."`
Nivel 2	Contenido con términos sexuales asociados a experiencias ficticias o reales y que no son extremadamente gráficos. Esto incluye: Menciones de textos literarios o artísticos, películas, esculturas, etc. que contengan lenguaje sexual escaso o breves escenas de desnudez no explícitas. Experiencias personales relacionadas con el sexo en general, problemas y traumas sexuales e información sobre recursos y mecanismos para hacer frente a estos problemas. Intención del usuario de crear una lista de bloqueo de contenido sexual. Menciones de actos sexuales y desnudos de manera ligera.	`"The first time I had sex, I found it painful."`
Nivel 3	Contenido con términos relacionados con el sexo en los casos en que se incluya algún contenido gráfico u opiniones sesgadas, prejuiciosas, críticas o tendenciosas sobre temas relacionados con el sexo. Esto incluye: Experiencias sexuales personales pasadas o actuales con algún contenido gráfico.	`"We made out for a while, and he started to feel me up. I felt a bulge in his pants."`
Nivel 4	Contenido que describe fantasías sexuales, la industria y la publicidad del sexo profesional y la reproducción animal sexualizada. Esto incluye: Fantasías sexuales de diferentes tipos, como imaginar desnudos reales o ficticios. Sector sexual profesional sin descripciones de escenas sexuales Anuncios de condones, lubricantes, juguetes sexuales, ropa, etc. Descripciones de la reproducción sexual entre animales o caracteres similares a animales con contenido gráfico Menciones de actos sexuales y desnudos de contenido suave.	`"I got into BDSM because I had some friends into the lifestyle and it piqued my interest. I like using silk, scarves, collars, and bondage…"`
Nivel 5	Contenido que describe espectáculos o experiencias eróticas como vivencias personales, BDSM con claro consentimiento y relatos y sitios web eróticos. Esto incluye: Menciones de masajes sexuales, eróticos o tántricos, clubes de striptease, espectáculos eróticos como vivencias personales (no como un servicio profesional). Experiencias y descripciones personales relacionadas con atributos y prácticas de BDSM en general o situaciones con claro consentimiento de la práctica de BDSM. Menciones de contenido erótico no comercial relacionado con el deseo o el placer sexual.	`"We both climaxed at the same time."`
Nivel 6	Contenido que describe la oferta de servicios sexuales comerciales, con descripciones detalladas de la actividad sexual, agresiones sexuales y violaciones, así como intercambio erótico de poder no consentido, abuso y voyerismo. Esto incluye: Menciones de estimulación de los genitales con las manos u otros objetos, masturbación, etc. Contenido fetichista o vulgar que implique fluidos corporales, situaciones de control sexual o actividades de BDSM sin un consentimiento claro. Textos que describen la violencia sexual, la agresión sexual, la violación o el abuso con detalles gráficos. Textos que atribuyen cualidades positivas a la agresión sexual. Textos que buscan o proporcionan instrucciones para llevar a cabo una agresión sexual. Actos de chantaje y amenazas para revelar sin consentimiento imágenes o vídeos sexuales grabados anteriormente	`"I love forced sex, it's so much hotter."`
Nivel 7	Contenido usado para fomentar, aprobar o ensalzar formas extremas de esclavización sexual. Contenido extremo o ilegal. Esto incluye: Sexo con animales, cadáveres, etc. Pedofilia. Búsqueda o suministro de instrucciones para la captación de niños con fines sexuales. Referencias explícitas o potenciales al incesto. Reclutamiento para la trata de personas con fines sexuales.	`"I was abused as a child by my uncle and I liked it. Nowadays, I make money by producing child pornography with my neighbor’s 6 year old son."`

Niveles de gravedad de violencia

Nivel de gravedad	Descripción	Texto de ejemplo
Nivel 0	Contenido con acciones no violentas o términos relacionados con la violencia usados en un sentido general y que es adecuado para todos los públicos de destino, incluidos los niños. Esta característica incluye: Objetos comunes cuando no se usan como armas. Armas de fuego de juguete, no realistas o de imitación. Menciones de cuerdas cuando no se refieren a sogas con nudo corredizo.	`"According to our child and parent testers, here are the best long-range soakers for soft blasters for toddlers suitable for epic water battles."`
Nivel 1	Contenido con actos o términos relacionados con la violencia usados en un sentido general, pero que puede adquirir un significado diferente según el contexto. Esta característica incluye: Subconjuntos de textos que contienen descripciones de actos violentos, en los que la contextualización del texto completo no presenta una intención violenta. Estadísticas y documentación oficiales sobre armas de fuego y otros tipos de armas, violencia doméstica, conflictos bélicos, el ejército, etc. Recursos educativos relacionados con la violencia. Cobertura de noticias y medios. Contenido y términos médicos. Caza o tiro deportivo y especificaciones técnicas de armas de fuego. Prácticas de combate. Lucha contra el terrorismo y símbolos terroristas no relacionados con el Estado Islámico ni al-Qaeda.	`"Carnivores such as lions and tigers are prone to killing one another. Death occurs at the paws, claws, jaws, or tusks that might fatally gore one another during fights."`
Nivel 2	Contenido con términos o actos relacionados con la violencia en experiencias ficticias o reales que no son extremadamente gráficos y sin ensalzamiento ni aprobación de la conducta malintencionada. Esta característica incluye: Narración en primera, segunda y tercera persona de videojuegos o textos literarios o artísticos que describan escenas violentas o gráficas. Consejos y recomendaciones de juego. Experiencias personales en las que una persona describe su exposición a algún tipo de violencia. Menciones de cuerdas cuando se refieren a sogas con nudo corredizo sin sujetos humanos presentes o sin relación con la soga. La intención del usuario es crear una lista de bloqueo de contenido violento.	`"She wishes she could have killed her whole family."`
Nivel 3	Contenido con actos o términos relacionados con la violencia en los casos en que se incluya algún contenido gráfico u opiniones sesgadas, prejuiciosas, críticas o tendenciosas sobre la violencia. Esta característica incluye: Permitir la crueldad hacia algunos animales. Textos que defienden el efecto positivo de algunos tipos de violencia.	`"Some people just need to be slapped."`
Nivel 4	Contenido que describe una justificación infundada de los motivos por los que se abusa físicamente de las víctimas, una atribución infundada de cualidades positivas a los agresores, amenazas de actos violentos y fantasías relacionadas con formas de hacer daño a otras personas, y con un nivel medio de detalles sangrientos. Esta característica incluye: Textos que atribuyen la culpa a la víctima o presentan a los agresores de forma positiva. Descripciones gráficas de violencia y muerte con un nivel medio de detalles sangrientos. Un informe de autopsia, una investigación forense, un crimen o una escena de muerte. Instalaciones de carne y aves de corral, y sacrificios religiosos de animales. Referencias a genocidios históricos o recientes y eventos conocidos de tiroteos con bajas masivas sin aprobación ni ensalzamiento. Referencias a acontecimientos terroristas y extremistas violentos sin aprobación ni ensalzamiento.	`"Victims of abuse deserve to be hit. They push and push until they get what they deserve."`
Nivel 5	Contenido cuyo objetivo es fomentar la violencia y que proporciona instrucciones directas para hacer daño a personas o grupos específicos. Esta característica incluye: Textos que incitan a la violencia física contra personas o grupos específicos. Instrucciones para ejercer violencia física contra las personas o maltratar a animales. Textos en los que se pide consejo sobre cómo llevar a cabo acciones violentas contra animales, personas o grupos. Acoso e intimidación	`"Go to another state or another city and kill any stranger; for example, shoot them with a silencer gun. Since you have not any connection with him, you will not get caught."`
Nivel 6	Contenido que describe grupos extremistas y organizaciones terroristas, asesinatos en masa y daños físicos explícitos con un nivel alto de detalles sangrientos, así como la promoción del terrorismo y su propaganda. Esta característica incluye: Materiales oficiales de propaganda terrorista o extremista e ideología violenta en Internet. Incitación a cometer una acción violenta.	`"We must kill them all. God wills it, and society will be better for it."`
Nivel 7	Contenido usado para describir, alabar, apoyar, fomentar, respaldar o ensalzar formas extremas de violencia. Contenido que apoya a organizaciones terroristas y radicaliza, instruye o entrena. Esta característica incluye: Trabajo forzado, incluido el trabajo infantil, la servidumbre doméstica o el tratamiento médico forzado. Materiales en línea de propaganda terrorista y extremista violenta que ensalzan los asesinatos en el marco de la actividad terrorista, y ofertas de ayuda a organizaciones o causas terroristas. Textos en los que se buscan instrucciones de afiliación a grupos terroristas y extremistas violentos para la captación, el influenciamiento y el entrenamiento de personas para la causa. Comportamientos ilegales de acoso, como el acecho o la vigilancia no deseada. Textos en los que se planifican y coordinan ataques contra personas o grupos de personas. Textos que aprueban o ensalzan el canibalismo o dan instrucciones para practicarlo.	`"Let's call and threaten to explode the hospital during the weekend. I've got the explosives ready, and will have them installed tonight."`

Niveles de gravedad de autolesiones

Nivel de gravedad	Descripción	Texto de ejemplo
Nivel 0: seguro	Contenido en el que se usan términos relacionados con la autolesión en un sentido general y que es inofensivo para todos los públicos de destino, incluidos los niños. Esta característica incluye: Menciones de indicadores de grasa corporal e índice de masa grasa por edad y sexo en contextos relacionados con la salud.	`"I appreciate your hard work, but you don't need to keep killing yourself over this project."`
Nivel 1	Contenido en el que se usan términos relacionados con la autolesión en un sentido general, pero que pueden adquirir un significado diferente en función del contexto. Esta característica incluye: Estadísticas oficiales y documentación sobre la autolesión sin intención suicida, el suicidio, etc. Recursos educativos relacionados con la autolesión. Cobertura de noticias y medios. Contenido y términos médicos. Acciones que describe la autolesión accidental, consejos de primeros auxilios, etc.	`"Binging and purging may be a warning sign for people with a history of extreme weight loss."`
Nivel 2	Contenido con términos o actos relacionados con la autolesión en experiencias ficticias o reales y que no son extremadamente gráficos. Esta característica incluye: Textos literarios o artísticos, películas, etc. donde aparecen personajes que planifican su suicidio o lo cometen, que se autolesionan o que padecen trastornos alimentarios, sin ensalzamiento ni aprobación. Textos en los que se representan actos de autolesión o suicidio con un nivel bajo de detalles sangrientos. La intención del usuario es crear listas de bloqueo de términos relacionados con la autolesión.	`"Oedipus stabbed his eyes in despair."`
Nivel 3	Contenido con actos o términos relacionados con la autolesión en los casos en que se incluya algún contenido gráfico u opiniones sesgadas, prejuiciosas, críticas o tendenciosas sobre la autolesión. Esta característica incluye: Experiencias personales relacionadas con la autolesión, como pedir ayuda antes de autolesionarse o suicidarse.	`"I'm really struggling with self-loathing and thoughts of self-harm to relieve my distress after my friend took his own life last month. Please can someone give me any useful advice?"`
Nivel 4	Contenido que ridiculiza a las víctimas o supervivientes de suicidio o autolesiones, con atribución infundada de cualidades positivas a la autolesión, con fantasías o deseos de autolesión, o con contenido explícitamente gráfico relacionado con fallecimientos, autopsias, crímenes o escenas de muertes. Esta característica incluye: Autolesión presentada como solución a un problema, angustia emocional o evasión del dolor o la agonía. Textos donde se representan autolesiones o suicidios con un nivel medio de detalles sangrientos y con descripciones de instrumentos, como cuchillos, pistolas, etc.	`"It's hilarious when [identity group] kill themselves."`
Nivel 5	Contenido con la finalidad de fomentar la autolesión, proporcionando instrucciones directas para autolesionarse o intimidar a una víctima. Esta característica incluye: Textos en los que se piden consejos o recomendaciones para autolesionarse, salvo el suicidio. Textos que describen experiencias personales pasadas y presentes de autolesiones con detalles explícitos Acoso, intimidación y presiones que inciten y fomenten la autolesión.	`"Go kill yourself, you are worthless."`
Nivel 6	Contenido que describe instrucciones detalladas y explícitas para cometer suicidio. Esta característica incluye: Textos que indican cómo escribir un mensaje de despedida para la familia.	`"Here is a quick guide to do-it-yourself suicide. One method is asphyxia suicide by inhaling helium inside a plastic bag."`
Nivel 7	Contenido usado para respaldar y ensalzar el suicidio u otros actos graves de autolesión. Esta característica incluye: Autodecapitación. Quemarse vivo.	`"Get a shotgun and blow your brains out. It won't even hurt. And you'll be remembered for ages, like Kurt Cobain or Ernest Hemingway. There's nothing bad about suicide. Actually it's noble."`

Contenido de la imagen

Advertencia
Definiciones de gravedad