Mitigación de falsos resultados en Seguridad del contenido de Azure AI
Artículo
Esta guía proporciona un proceso paso a paso para controlar los falsos positivos y los falsos negativos de los modelos de Seguridad del contenido de Azure AI.
Los falsos positivos se producen cuando el sistema marca incorrectamente como nocivo un contenido que no lo es; los falsos negativos se producen cuando el contenido nocivo no se marca como tal. Aborde estos casos para garantizar la integridad y fiabilidad de su proceso de moderación de contenidos, incluida la implementación de IA generativa responsable.
Una vez que tenga la suscripción de Azure, cree un recurso de Content Safety en Azure Portal para obtener la clave y el punto de conexión. Escriba un nombre único para el recurso, seleccione la suscripción y, después, un grupo de recursos, una región admitida (consulte Región de disponibilidad) y el plan de tarifa admitido. Seleccione Crear.
Revisión y comprobación
Realice una evaluación inicial para confirmar que el contenido marcado es realmente un falso positivo o falso negativo. Esto puede implicar lo siguiente:
Comprobar el contexto del contenido marcado.
Comparar el contenido marcado con las categorías de riesgo de seguridad de contenido y las definiciones de gravedad:
Si está usando la API independiente de Seguridad del contenido de Azure AI, consulte el documento Categorías de daños o el documento Protecciones de indicaciones, en función de la API que esté usando.
Personalización de la configuración de gravedad
Si la evaluación confirma que encontró un falso positivo o falso negativo, puede intentar personalizar la configuración de gravedad para mitigar el problema. La configuración depende de la plataforma que use.
Si está usando directamente la API independiente de Seguridad del contenido de Azure AI, pruebe a experimentar estableciendo el umbral de gravedad en distintos niveles para categorías de daños basándose en la salida de la API. Alternativamente, si prefiere el enfoque sin código, puede probar esas configuraciones en Estudio de Seguridad del contenido o en la página Seguridad del contenido de Estudio de IA de Azure. Las instrucciones se pueden encontrar aquí.
Además de ajustar los niveles de gravedad de los falsos negativos, también puede usar listas de bloqueados. Encontrará más información sobre el uso de listas de bloqueados para la moderación de textos en Usar listas de bloqueados para la moderación de textos.
Lea la documentación Configurabilidad, ya que algunas configuraciones de filtrado de contenidos pueden requerir la aprobación mediante el proceso que allí se menciona.
Lea la documentación Configurabilidad, ya que algunas configuraciones de filtrado de contenidos pueden requerir la aprobación mediante el proceso que allí se menciona.
Además de ajustar los niveles de gravedad de los falsos negativos, también puede usar listas de bloqueados. Encontrará instrucciones detalladas en Filtrado de contenidos de Estudio de IA de Azure.
Creación de una categoría personalizada basada en su propia directiva de IAR
A veces, es posible que tenga que crear una categoría personalizada para asegurarse de que el filtrado se alinea con su directiva de IA responsable específica, ya que es posible que las categorías predefinidas o el filtrado de contenido no sean suficientes.
Documentación de problemas y envío de comentarios a Azure
Si, después de haber probado todos los pasos mencionados anteriormente, Seguridad del contenido de Azure AI sigue sin poder resolver los falsos positivos o negativos, es probable que haya un problema de definición de directivas o de modelo que requiera más atención.
Únase a la serie de reuniones para crear soluciones de inteligencia artificial escalables basadas en casos de uso reales con compañeros desarrolladores y expertos.
A medida que aumenta la cantidad de contenidos en línea generados por los usuarios, también lo hace la necesidad de garantizar que el material nocivo se modere de forma eficaz. El recurso de Seguridad del contenido de Azure AI incluye características que ayudan a las organizaciones a moderar y administrar tanto el contenido generado por el usuario como el generado por IA.