Categorías de daños en Azure AI Content Safety

En esta guía se describen todas las categorías de daños y clasificaciones que Seguridad del contenido de Azure AI usa para marcar el contenido. Tanto el contenido de texto como de imagen usan el mismo conjunto de marcas.

Categorías de daños

Content Safety reconoce cuatro categorías distintas de contenido censurable.

Category Descripción
Odio y equidad Los daños relacionados con el odio y la equidad se refieren a cualquier contenido que ataque o utilice un lenguaje peyorativo o discriminatorio con referencia a una persona o grupo de identidad basado en ciertos atributos diferenciadores de estos grupos, incluidos, entre otros, la raza, la etnia, la nacionalidad, la identidad y expresión de género, la orientación sexual, la religión, el estatus migratorio, el estado de capacidad, la apariencia personal y el tamaño corporal.

La equidad consiste en garantizar que los sistemas de IA traten a todos los grupos de personas de forma equitativa sin contribuir a las desigualdades sociales existentes. Como en el caso de la incitación al odio, los perjuicios relacionados con la equidad se basan en el trato desigual de los grupos de identidad.
Sexual Sexual describe el lenguaje relacionado con los órganos anatómicos y los genitales, el embarazo, las relaciones románticas, los actos representados en términos eróticos o afectuosos, los actos sexuales físicos, incluidos los representados como una agresión o un acto violento sexual forzado contra la propia voluntad, la prostitución, la pornografía y el abuso.
Violencia Violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, pistolas y entidades relacionadas, como fabricantes, asociaciones, legislación, etc.
Autolesiones Autolesión describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar o dañar intencionadamente su propio cuerpo o a suicidarse.

La clasificación puede tener varias etiquetas. Por ejemplo, cuando una muestra de texto pasa a través del modelo de moderación de textos, podría clasificarse como contenido sexual y violencia.

Niveles de gravedad

Cada categoría de daño que el servicio aplica también incluye una clasificación de nivel de gravedad. El nivel de gravedad está pensado para indicar la gravedad de las consecuencias de mostrar el contenido marcado.

Texto: la versión actual del modelo de texto admite la escala de gravedad completa de 0 a 7. El clasificador detecta la gravedad entre todas las gravedades de esta escala. Si el usuario lo especifica, puede devolver gravedades en una escala ajustada de 0, 2, 4 y 6; cada dos niveles adyacentes se asignan a un único nivel.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Imagen: la versión actual del modelo de imagen admite una versión ajustada de la escala completa de gravedad 0-7. El clasificador solo devuelve gravedades 0, 2, 4 y 6; cada dos niveles adyacentes se asignan a un único nivel.

  • [0,1] -> 0
  • [2,3] -> 2
  • [4,5] -> 4
  • [6,7] -> 6

Contenido de texto

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Contenido de la imagen

Advertencia

La pestaña Definiciones de gravedad de este documento contiene ejemplos de contenido dañino que puede resultar preocupante para algunos lectores.

Pasos siguientes

Siga un inicio rápido para empezar a usar seguridad del contenido de Azure AI en la aplicación.