Leer en inglés

Compartir a través de


Mitigación de falsos resultados en Seguridad del contenido de Azure AI

Esta guía proporciona un proceso paso a paso para controlar los falsos positivos y los falsos negativos de los modelos de Seguridad del contenido de Azure AI.

Los falsos positivos se producen cuando el sistema marca incorrectamente como nocivo un contenido que no lo es; los falsos negativos se producen cuando el contenido nocivo no se marca como tal. Aborde estos casos para garantizar la integridad y fiabilidad de su proceso de moderación de contenidos, incluida la implementación de IA generativa responsable.

Requisitos previos

Revisión y comprobación

Realice una evaluación inicial para confirmar que el contenido marcado es realmente un falso positivo o falso negativo. Esto puede implicar lo siguiente:

  • Comprobar el contexto del contenido marcado.
  • Comparar el contenido marcado con las categorías de riesgo de seguridad de contenido y las definiciones de gravedad:

Personalización de la configuración de gravedad

Si la evaluación confirma que encontró un falso positivo o falso negativo, puede intentar personalizar la configuración de gravedad para mitigar el problema. La configuración depende de la plataforma que use.

Si está usando directamente la API independiente de Seguridad del contenido de Azure AI, pruebe a experimentar estableciendo el umbral de gravedad en distintos niveles para categorías de daños basándose en la salida de la API. Alternativamente, si prefiere el enfoque sin código, puede probar esas configuraciones en Estudio de Seguridad del contenido o en la página Seguridad del contenido de Estudio de IA de Azure. Las instrucciones se pueden encontrar aquí.

Además de ajustar los niveles de gravedad de los falsos negativos, también puede usar listas de bloqueados. Encontrará más información sobre el uso de listas de bloqueados para la moderación de textos en Usar listas de bloqueados para la moderación de textos.

Creación de una categoría personalizada basada en su propia directiva de IAR

A veces, es posible que tenga que crear una categoría personalizada para asegurarse de que el filtrado se alinea con su directiva de IA responsable específica, ya que es posible que las categorías predefinidas o el filtrado de contenido no sean suficientes.

Consulte la Documentación sobre categorías personalizadas para crear sus propias categorías con la API de Seguridad del contenido de Azure AI.

Documentación de problemas y envío de comentarios a Azure

Si, después de haber probado todos los pasos mencionados anteriormente, Seguridad del contenido de Azure AI sigue sin poder resolver los falsos positivos o negativos, es probable que haya un problema de definición de directivas o de modelo que requiera más atención.

Documente los detalles de los falsos positivos y/o falsos negativos proporcionando la siguiente información al Equipo de soporte de Seguridad del contenido:

  • Descripción del contenido marcado.
  • Contexto en el que se publicó el contenido.
  • Motivo dado por Seguridad del contenido de Azure AI para la marca (si es positivo).
  • Explicación de por qué el contenido es un falso positivo o negativo.
  • Cualquier ajuste ya intentado mediante la configuración de la gravedad o usando categorías personalizadas.
  • Recortes de pantalla o registros del contenido marcado y de las respuestas del sistema.

Esta documentación ayuda a escalar el problema a los equipos apropiados para su resolución.