Seguridad del contenido en el portal de la Fundición de IA de Azure

2025-05-31

Seguridad del contenido de Azure AI es un servicio de IA que detecta contenido perjudicial generado por usuario y generado por inteligencia artificial en aplicaciones y servicios. La seguridad del contenido de Azure AI incluye API que permiten detectar y evitar la salida de contenido dañino. La página interactive Content Safety pruébela en el portal de Azure AI Foundry le permite ver, explorar y probar código de ejemplo para detectar contenido dañino en distintas modalidades.

Características

Puede usar la seguridad del contenido de Azure AI para los escenarios siguientes:

Contenido de texto:

Contenido moderado de texto: esta característica examina y modera el contenido de texto, lo que identifica y clasifica en función de diferentes niveles de gravedad para garantizar las respuestas adecuadas.
Detección de base: este filtro determina si las respuestas de la inteligencia artificial se basan en orígenes proporcionados por el usuario de confianza, lo que garantiza que las respuestas se "basen" en el material previsto. La detección de la base es útil para mejorar la confiabilidad y la precisión fáctica de las respuestas.
Detección de materiales protegidos para texto: esta característica identifica el material de texto protegido, como letras de canciones conocidas, artículos u otro contenido, lo que garantiza que la inteligencia artificial no genera este contenido sin permiso.
Detección de materiales protegidos para código: detecta segmentos de código en la salida del modelo que coinciden con el código conocido de repositorios públicos, lo que ayuda a evitar la reproducción no acreditado o no autorizada del código fuente.
Escudos de indicaciones: esta característica proporciona una API unificada para abordar "Jailbreak" y "Ataques indirectos":
- Ataques de jailbreak: intentos de los usuarios para manipular la inteligencia artificial para pasar sus protocolos de seguridad o directrices éticas. Entre los ejemplos se incluyen las indicaciones diseñadas para engañar a la inteligencia artificial para dar respuestas inapropiadas o realizar tareas que se programó para evitar.
- Ataques indirectos: también conocidos como ataques de inyección de indicaciones entre dominios, los ataques indirectos implican la inserción de indicaciones malintencionadas en documentos que la inteligencia artificial podría procesar. Por ejemplo, si un documento contiene instrucciones ocultas, la inteligencia artificial podría seguirlas involuntariamente, lo que conduce a salidas no deseadas o no seguras.

Contenido de imagen:

Contenido moderado de la imagen: similar a la moderación de texto, esta característica filtra y evalúa el contenido de la imagen para detectar objetos visuales inapropiados o dañinos.
Contenido contextual moderado: está diseñado para controlar una combinación de texto e imágenes, evaluando el contexto general y los posibles riesgos en varios tipos de contenido.

Personalice sus propias categorías:

Categorías personalizadas: permite a los usuarios definir categorías específicas para moderar y filtrar contenido, adaptar los protocolos de seguridad a necesidades únicas.
Mensaje del sistema de seguridad: proporciona un método para configurar un "mensaje del sistema" para indicar a la inteligencia artificial sobre el comportamiento deseado y las limitaciones, reforzar los límites de seguridad y ayudar a evitar salidas no deseadas.

Descripción de las categorías de daños

Categorías de daños

Categoría	Descripción	Término de API
Odio y equidad	Los daños de odio y equidad hacen referencia a cualquier contenido que ataque o use lenguaje discriminatorio con referencia a una persona o grupo de identidades basado en determinados atributos diferenciadores de estos grupos. Entre otras cosas, nos ocupamos de: Raza, etnia o nacionalidad Grupos de identidad de género y expresión Orientación sexual Religión Apariencia personal y tamaño corporal Estado de discapacidad Acoso	`Hate`
Sexual	Sexual describe el lenguaje relacionado con los órganos anatómicos y los genitales, las relaciones románticas y los actos sexuales, los actos representados en términos eróticos o afectuosos, incluidos los representados como una agresión o un acto violento sexual forzado contra la propia voluntad. Entre otras cosas, nos ocupamos de: Contenido vulgar Prostitución Desnudos y pornografía Abuso Captación, abuso y explotación infantil	`Sexual`
Violencia	La violencia describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar o matar a alguien o algo; describe armas, pistolas y entidades relacionadas. Entre otras cosas, nos ocupamos de: Armas Acoso e intimidación Terrorismo y extremismo violento Acoso	`Violence`
Autolesiones	La autolesión describe el lenguaje relacionado con acciones físicas destinadas a herir, lesionar, dañar el propio cuerpo o suicidarse. Entre otras cosas, nos ocupamos de: Trastornos alimentarios Acoso e intimidación	`SelfHarm`

Niveles de gravedad

Nivel	Descripción
Seguro	El contenido puede estar relacionado con las categorías de violencia, lesiones autoinfligidas, contenido sexual u odio. Sin embargo, los términos se usan en contextos generales, periodísticos, científicos, médicos y profesionales similares, que son apropiados para la mayoría del público.
Bajo nivel	Contenido que expresa prejuicios, juicios u opiniones, incluye un uso ofensivo del lenguaje, estereotipos, casos de uso que exploran un mundo ficticio (por ejemplo, los juegos, la literatura) y representaciones con baja intensidad.
Mediana	El contenido que usa un lenguaje ofensivo, insultante, burlón, intimidatorio o degradante hacia grupos de identidad específicos, incluye representaciones de búsqueda y ejecución de instrucciones dañinas, fantasías, glorificación, promoción del daño con una intensidad media.
Alto	Contenido que muestra instrucciones, acciones, daños o abusos explícitos y gravemente perjudiciales; incluye la aprobación, glorificación o promoción de actos gravemente perjudiciales, formas extremas o ilegales de daño, radicalización o intercambio o abuso de poder no consentido.

Limitaciones

Consulte la información general sobre la seguridad de contenido para las regiones admitidas, los límites de velocidad y los requisitos de entrada para todas las características. Consulte la página Compatibilidad con idiomas para ver los idiomas admitidos.

Paso siguiente

Para empezar a usar Seguridad del contenido de Azure AI en el portal de la Fundición de IA de Azure, siga la guía paso a paso.