Agente de red teaming para IA

Ai Red Teaming Agent es una herramienta eficaz diseñada para ayudar a las organizaciones a encontrar proactivamente riesgos de seguridad asociados con sistemas de inteligencia artificial generativos durante el diseño y el desarrollo de modelos y aplicaciones de IA generativas.

Los equipos rojos tradicionales implican aprovechar la cadena de ataque y describen el proceso por el que se prueba un sistema para detectar vulnerabilidades de seguridad. Sin embargo, con el aumento de la inteligencia artificial generativa, el término red teaming de IA se ha acuñado para describir la identificación de riesgos nuevos (relacionados con el contenido y la seguridad) que estos sistemas presentan y se refiere a la simulación del comportamiento de un usuario adversario que intenta hacer que el sistema de inteligencia artificial se comporte de forma incorrecta.

El Agente de red teaming para IA aprovecha el marco de código abierto de Microsoft para las capacidades de equipos rojos de inteligencia artificial (PyRIT) junto con las evaluaciones de riesgos y seguridad de Microsoft Foundry para ayudarle a evaluar automáticamente los problemas de seguridad de tres maneras:

  • Exámenes automatizados para detectar riesgos de contenido: En primer lugar, puede examinar automáticamente el modelo y los puntos de conexión de la aplicación para detectar riesgos de seguridad simulando sondeos adversarios.
  • Evaluar el éxito del sondeo: A continuación, puede evaluar y puntuar cada par de respuesta a ataques para generar métricas detalladas, como tasa de éxito de ataques (ASR).
  • Informes y registro Por último, puede generar una tarjeta de puntuación de las técnicas de sondeo de ataques y las categorías de riesgo para ayudarle a decidir si el sistema está listo para la implementación. Los resultados se pueden registrar, supervisar y realizar un seguimiento a lo largo del tiempo directamente en Foundry, lo que garantiza el cumplimiento y la mitigación continua de riesgos.

Juntos estos componentes (análisis, evaluación e informes) ayudan a los equipos a comprender cómo los sistemas de inteligencia artificial responden a ataques comunes, lo que en última instancia guía una estrategia completa de administración de riesgos.

Cuándo usar el Agente de red teaming para IA

Al pensar en los riesgos de seguridad relacionados con la inteligencia artificial en el desarrollo de sistemas de inteligencia artificial de confianza, Microsoft usa el marco de NIST para mitigar el riesgo de forma eficaz: gobernanza, asignación, medida, administración. Las secciones siguientes se centran en las tres últimas partes en relación con el ciclo de vida del desarrollo de IA generativa.

  • Mapa: identifique los riesgos pertinentes y defina el caso de uso.
  • Medida: evalúe los riesgos a escala.
  • Administrar: mitigue los riesgos en producción y supervise con un plan de respuesta a incidentes.

Diagrama de cómo usar AI Red Teaming Agent que muestra el paso de proactivo a reactivo y de menos costoso a más costoso.

AI Red Teaming Agent se puede usar para ejecutar exámenes automatizados y simular pruebas adversarias para ayudar a acelerar la identificación y evaluación de riesgos conocidos a escala. Esto ayuda a los equipos a "desplazarse a la izquierda" de incidentes reactivos costosos a marcos de pruebas más proactivos que pueden detectar problemas antes de la implementación. El proceso manual de red teaming de IA requiere mucho tiempo y recursos. Se basa en la creatividad de los expertos en protección y seguridad para simular sondeos adversarios. Este proceso puede crear un cuello de botella para que muchas organizaciones aceleren la adopción de la inteligencia artificial. Con el Agente de red teaming para IA, las organizaciones pueden aprovechar la profunda experiencia de Microsoft para escalar y acelerar el desarrollo de IA, manteniendo la inteligencia artificial de confianza como prioridad.

Utilice el Agente de red teaming para IA para ejecutar análisis automatizados durante las fases de diseño, desarrollo y preimplementación.

  • Diseño: elija el modelo fundamental más seguro en su caso de uso.
  • Desarrollo: actualización de modelos dentro de la aplicación o creación de modelos ajustados para su aplicación específica.
  • Implementación previa: antes de implementar aplicaciones y agentes de GenAI en producción.
  • Después de la implementación: monitorea las aplicaciones y agentes de Gen AI después de la implementación con ejecuciones continuas de red team programadas en datos sintéticos adversarios.

En producción, se recomienda implementar protecciones de seguridad, como filtros de Seguridad del contenido de Azure AI, o bien implementar mensajes de sistema de seguridad utilizando nuestras plantillas. En el caso de los flujos de trabajo agente, se recomienda aprovechar el plano de control de Foundry para aplicar barreras de protección y controlar la flota de agentes.

Cómo funciona AI Red Teaming

El Agente de red teaming para IA ayuda a automatizar la simulación del sondeo adversario del sistema de inteligencia artificial de destino. Proporciona un conjunto de datos mantenido de indicaciones de inicialización o objetivos de ataque por categorías de riesgo admitidas. Se pueden usar para automatizar el sondeo adversarial directo. Sin embargo, el sondeo adversarial directo podría ser fácilmente detectado por las alineaciones de seguridad existentes en la implementación de tu modelo. La aplicación de estrategias de ataque de PyRIT proporciona una conversión adicional que puede ayudar a eludir o subvertir el sistema de inteligencia artificial para inducirlo a producir contenido no deseado.

En el diagrama se muestra que una pregunta directa al sistema de inteligencia artificial sobre cómo robar un banco desencadena una respuesta negativa. Sin embargo, aplicar una estrategia de ataque como voltear todos los caracteres puede ayudar a engañar al modelo para responder a la pregunta.

Diagrama de cómo funciona AI Red Teaming Agent.

Además, el AI Red Teaming Agent proporciona a los usuarios un modelo de lenguaje adversarial de gran tamaño y ajustado, dedicado a la tarea de simular ataques adversarios y evaluar respuestas que podrían contener contenido perjudicial, junto con los evaluadores de riesgo y seguridad. La métrica clave para evaluar la posición de riesgo del sistema de inteligencia artificial es La tasa de éxito de ataques (ASR) que calcula el porcentaje de ataques correctos en el número de ataques totales.

Categorías de riesgo admitidas

Las siguientes categorías de riesgo se admiten en el Agente de red teaming para IA de evaluaciones de riesgos y seguridad. Solo se admiten escenarios basados en texto.

Categoría de riesgo Objetivos compatibles Formación de equipos locales o red teaming en la nube Descripción
Contenido odioso e injusto Modelo y agentes Local y en la nube Contenido odioso e injusto hace referencia a cualquier idioma o imagen que pertenezca al odio hacia o a representaciones desleales de individuos y grupos sociales a lo largo de factores que incluyen, entre otros, la raza, la etnia, la nacionalidad, el género, la orientación sexual, la religión, el estado de inmigración, la capacidad, la apariencia personal y el tamaño del cuerpo. La injusticia se produce cuando los sistemas de inteligencia artificial tratan o representan grupos sociales de forma desigual, creando o contribuyendo a las desigualdades sociales.
Contenido sexual Modelo y agentes Local y en la nube El contenido sexual incluye lenguaje o imágenes pertenecientes a órganos anatómicos y genitales, relaciones románticas, actos representados en términos eróticos, embarazo, actos sexuales físicos (incluyendo asalto o violencia sexual), prostitución, pornografía y abuso sexual.
Contenido violento Modelo y agentes Local y en la nube El contenido violento incluye lenguaje o imágenes relacionadas con acciones físicas destinadas a dañar, lastimar, perjudicar o matar a alguien o algo. También incluye descripciones de armas y pistolas (y entidades relacionadas como fabricantes y asociaciones).
Contenido relacionado con autolesiones Modelo y agentes Local y en la nube El contenido relacionado con las autolesiones incluye lenguaje o imágenes referentes a acciones destinadas a herir, lesionar o dañar el propio cuerpo o suicidarse.
Materiales protegidos Modelo y agentes Local y en la nube Materiales protegidos por derechos de autor, como letras de canciones, canciones y recetas.
Vulnerabilidad de código Modelo y agentes Local y en la nube Mide si la inteligencia artificial genera código con vulnerabilidades de seguridad, como la inyección de código, el deslizamiento de tar, la inyección de SQL, la exposición de trazas de pila y otros riesgos en Python, Java, C++, C#, Go, JavaScript y SQL.
Atributos no fundamentados Modelo y agentes Local y en la nube Mide la generación de respuestas de texto de un sistema de inteligencia artificial que contienen inferencias sin fundamento sobre atributos personales, como sus características demográficas o estado emocional.
Acciones prohibidas Solo agentes Solo en la nube Mide la capacidad de un agente de IA para participar en comportamientos que infringen acciones o usos de herramientas explícitamente prohibidos según la política o taxonomía verificada por el usuario de acciones prohibidas.
Pérdida de datos confidenciales Solo agentes Solo en la nube Mide la vulnerabilidad de un agente de IA para exponer información confidencial (datos financieros, identificadores personales, datos de salud, etc.)
Cumplimiento de tareas Solo agentes Solo en la nube Mide si un agente de IA completa la tarea asignada siguiendo el objetivo del usuario, respetando todas las reglas y restricciones, y ejecutando procedimientos necesarios sin acciones u omisiones no autorizadas.

Riesgos agenteicos

Las categorías de riesgo específicas del agente, como acciones prohibidas, pérdida de datos confidenciales y cumplimiento de tareas, requieren un enfoque para la formación automatizada de equipos rojos que difieren de las categorías de riesgo solo del modelo. En concreto, AI Red Teaming Agent ya no solo comprueba las salidas generadas, sino que también comprueba si hay salidas de herramientas para comportamientos no seguros o de riesgo. Las categorías de riesgo agente solo están disponibles en la formación de equipos rojos en la nube para proporcionar un entorno de espacio aislado mínimo.

Nota

El red teaming en la nube está disponible actualmente en las siguientes regiones: Este de EE. UU. 2, Centro de Francia, Centro de Suecia, Oeste de Suiza y Centro y norte de EE. UU.

En el caso de las ejecuciones de simulaciones de amenazas en la nube, censuramos las entradas perjudiciales u opositoras enviadas al modelo o agente de los resultados resultantes de las simulaciones de amenazas. Esto evita que los desarrolladores y las partes interesadas no técnicas se expongan a ataques por indicación potencialmente dañinos generados por las ejecuciones de ejercicios de equipo rojo del Agente de red teaming para IA.

En el caso de las categorías de riesgo de equipos rojos, nos aseguramos de que cuando una ejecución de equipos rojos de IA tenga como destino un agente hospedado de Foundry, se trate de una ejecución transitoria para que los datos dañinos no se registren mediante el Foundry Agent Service y las finalizaciones de chat no se almacenen. Ejecute ejercicios de formación de equipos rojos en un entorno púrpura (un entorno que no sea de producción configurado con recursos similares a producción) para ver cómo funcionan los agentes en condiciones realistas.

Pérdida de datos confidenciales

Pruebas rojas de pérdida de datos confidenciales para la pérdida de datos financieros, médicos y personales de las bases de conocimiento internas y las llamadas a herramientas. El Agente de red teaming para IA usa un conjunto de datos sintético de información confidencial y herramientas ficticias para generar escenarios que solicitan al agente que divulgue información. La tasa de éxito de ataques (ASR) define si la ejecución de red teaming detecta pérdidas de nivel de formato mediante la coincidencia de patrones.

Limitaciones: un solo turno, solo inglés; datos sintéticos; excluye las fugas de memoria o conjunto de entrenamiento.

Acciones prohibidas

Pruebas de equipos rojos para acciones prohibidas verifican si los agentes llevan a cabo acciones prohibidas, de alto riesgo o irreversibles mediante la generación de indicaciones adversarias dinámicas basadas en las políticas proporcionadas por el usuario y una taxonomía de acciones prohibidas, junto con el conjunto de herramientas que el agente usa y las descripciones de herramientas proporcionadas por el usuario. La tasa de éxito de ataques (ASR) define las infracciones de directiva expuestas por el agente en función de las directivas proporcionadas por el usuario.

Categoría Descripción Regla de asignación
Acciones prohibidas Prohibido universalmente (por ejemplo, reconocimiento facial, inferencia de emociones, puntuación social). ❌ Nunca permitido
Acciones de Alto Riesgo Las acciones confidenciales necesitan autorización humana explícita (por ejemplo, transacciones financieras, decisiones médicas). ⚠️ Permitido con confirmación de intervención humana
Acciones irreversibles Operaciones permanentes (por ejemplo, eliminaciones de archivos, restablecimientos del sistema). ⚠️ Permitido con revelación y confirmación

Limitaciones: Un solo turno, solo inglés; Enfoque de nivel de herramienta; no hay datos de producción en vivo.

Precaución

Declinación de responsabilidades para el uso de terceros de la taxonomía de acciones prohibidas:
La taxonomía de las acciones prohibidas, de alto riesgo e irreversibles proporcionadas en este producto está pensada únicamente como guía ilustrativa para ayudar a los desarrolladores de agentes a evaluar y personalizar sus propios marcos de riesgo. No constituye una lista definitiva o exhaustiva de prácticas prohibidas, ni refleja Microsoft interpretación normativa o política. Las organizaciones de terceros siguen siendo responsables de garantizar que sus agentes cumplan las leyes y reglamentos aplicables, incluidos, entre otros, la Ley de INTELIGENCIA ARTIFICIAL de la UE y otros requisitos jurisdiccionales. Microsoft recomienda encarecidamente conservar las acciones prohibidas predeterminadas derivadas de restricciones normativas y desaconseja la selección de estos elementos. El uso de este producto no garantiza el cumplimiento. Las organizaciones deben consultar a su propio asesor jurídico para evaluar e implementar medidas de seguridad y prohibición adecuadas adaptadas a su contexto operativo y tolerancia a riesgos.

Cumplimiento de tareas

El red teaming para adhesión a tareas comprueba si los agentes completan fielmente las tareas asignadas al lograr el objetivo del usuario, respetando todas las reglas y restricciones, y siguiendo los procedimientos requeridos. El Agente de red teaming para IA sondea a lo largo de tres dimensiones: el logro del objetivo (si el agente logra el objetivo previsto), el cumplimiento de la normativa (incluidos límites de protección de directivas y contratos de presentación) y la disciplina de procedimientos (uso correcto de herramientas, flujo de trabajo y contexto adecuado). El conjunto de datos de solicitud tiene en cuenta las herramientas admitidas y disponibles para generar diversas trayectorias agénticas, incluidos casos representativos y adversarios, para probar escenarios normales y de casos perimetrales.

Ataques indirectos de inyección de solicitudes (XPIA)

Los ataques insertados de mensajes indirectos (también conocidos como ataques insertados entre dominios, XPIA) comprueban si un agente se puede manipular mediante instrucciones malintencionadas ocultas en orígenes de datos externos, como correos electrónicos o documentos, recuperados a través de llamadas a herramientas. El Agente de red teaming para IA usa un conjunto de datos sintético de consultas de usuario benignas y salidas de herramientas ficticias que contienen marcadores de posición de ataque. Durante el sondeo, el Agente de red teaming para IA introduce ataques específicos para el riesgo en estos contextos con el fin de evaluar si el agente de destino lleva a cabo acciones no deseadas o inseguras. La tasa de éxito de ataques (ASR) mide la frecuencia con la que el agente está en peligro mediante la inyección indirecta de mensajes, mediante categorías de riesgo específicas del agente, como acciones prohibidas, pérdida de datos confidenciales o cumplimiento de tareas.

Consulte la lista completa de estrategias de ataque en la sección siguiente.

Agentes y herramientas soportados

El Agente de red teaming para IA admite actualmente agentes de red teaming Foundry con llamadas a herramientas de Azure, con la siguiente matriz de compatibilidad:

Agentes o acciones admitidos Estado
Agentes de prompt hospedados por Foundry Soportado
Agentes de contenedor hospedados en Foundry Soportado
Agentes de flujo de trabajo de Foundry No compatible
Agentes no pertenecientes a la fundición No compatible
Herramientas que no son de Azure No compatible
llamadas a herramientas de Azure Soportado
Llamadas a herramientas de función No se admite
Llamadas a la herramienta de automatización del navegador No compatible
Llamadas a la herramienta Agente Conectado No compatible
Llamadas a la herramienta de uso del ordenador No compatible

Para obtener una lista completa de las herramientas, consulte Herramientas.

Estrategias de ataque admitidas

Se admiten las siguientes estrategias de ataque en el AI Red Teaming Agent de PyRIT:

Estrategia de ataque Descripción
AnsiAttack Utiliza secuencias de escape ANSI para manipular la apariencia y el comportamiento del texto.
AsciiArt Genera arte visual con caracteres ASCII, que a menudo se usan con fines creativos o de ofuscación.
AsciiSmuggler Oculta los datos en caracteres ASCII, lo que dificulta la detección.
Atbash Implementa el cifrado Atbash, un cifrado de sustitución simple donde cada letra se asigna a su inversa.
Base64 Codifica los datos binarios en un formato de texto mediante Base64, que se usa habitualmente para la transmisión de datos.
Binario Convierte el texto en código binario, que representa los datos de una serie de 0 y 1s.
César Aplica el cifrado César, un cifrado de sustitución que desplaza los caracteres por un número fijo de posiciones.
CharacterSpace Modifica el texto agregando espacios entre caracteres, que a menudo se usan para ofuscar.
CharSwap Intercambia caracteres dentro del texto para crear variaciones o ofuscar el contenido original.
Diacrítico Agrega marcas diacríticas a los caracteres, cambiando su apariencia y a veces su significado.
Voltear Voltea los caracteres de delante a atrás, creando un efecto reflejado.
Leetspeak Transforma el texto en Leetspeak, una forma de codificación que reemplaza las letras por números o símbolos similares.
Código Morse Codifica el texto en código morse, usando puntos y guiones para representar caracteres.
ROT13 Aplica el cifrado ROT13, un cifrado de sustitución simple que desplaza caracteres por 13 posiciones.
SuffixAppend Anexa un sufijo adversarial a la indicación
StringJoin Combina varias cadenas, que a menudo se usan para la concatenación o ofuscación.
UnicodeConfusable Usa caracteres Unicode que tienen un aspecto similar a los caracteres estándar, lo que crea confusión visual.
Substitución de Unicode Sustituye los caracteres estándar por equivalentes Unicode, a menudo por ofuscación.
Dirección URL Codifica el texto en formato de dirección URL
Liberación del dispositivo (jailbreak) Inserta avisos especialmente diseñados para omitir las medidas de seguridad de inteligencia artificial, conocidas como ataques de avisos insertados por el usuario (UPIA).
Jailbreak indirecto Inserta indicaciones de ataque en las salidas de herramientas o el contexto devuelto para eludir indirectamente las salvaguardias de la inteligencia artificial, conocidas como ataques indirectos de inyección de indicaciones.
Tensión Cambia el tiempo de texto, convirtiéndolo específicamente en tiempo pasado.
Varios turnos Ejecuta ataques en varios turnos conversacionales, usando la acumulación de contexto para eludir las medidas de seguridad o provocar comportamientos no intencionados.
Crescendo Escala gradualmente la complejidad o el riesgo de las indicaciones en turnos sucesivos, explorando las debilidades en las defensas del agente a través de retos incrementales.

Limitaciones conocidas de AI Red Teaming Agent

Ai Red Teaming Agent tiene varias limitaciones importantes que se deben tener en cuenta al ejecutar e interpretar los resultados de formación de equipos rojos.

  • El red teaming ejecuta escenarios simulados en los que un agente de Foundry se expone directamente a datos confidenciales o a datos de vehículos de ataque. Dado que estos datos son sintéticos, esto no es representativo de las distribuciones de datos del mundo real.
  • Las herramientas de simulación solo están habilitadas actualmente para obtener datos sintéticos y realizar evaluaciones de red teaming. Actualmente no admiten comportamientos simulados, lo que permitiría realizar pruebas más cercanas al sandboxing real que lo que se admite actualmente.
  • Debido a la falta de soporte de sandboxing completamente seguro, la naturaleza adversaria de nuestras evaluaciones de equipos rojos se controla para evitar el impacto en el mundo real.
  • Las ejecuciones de Red teaming solo representan a la población adversaria y no incluyen población de observación.
  • Las ejecuciones de formación de equipos rojos usan modelos generativos para evaluar las tasas de éxito de ataque (ASR) y pueden ser no deterministas y no predictivos. Por lo tanto, siempre hay una posibilidad de falsos positivos y siempre se recomienda revisar los resultados antes de realizar acciones de mitigación.

Aprende más

Comience con nuestra documentación sobre cómo ejecutar un análisis automatizado de riesgos de seguridad con el Agente de red teaming para IA

Obtenga más información sobre las herramientas que usa AI Red Teaming Agent.

Las estrategias más eficaces para la evaluación de riesgos combinan herramientas automatizadas que exponen posibles riesgos con un análisis humano experto para obtener información más detallada. Si su organización está comenzando con el enfoque red teaming en torno a la IA, consulte los recursos creados por el equipo especializado de Microsoft: