Escudos de avisos
Los modelos de inteligencia artificial generativa pueden suponer riesgos de vulnerabilidad de seguridad por parte de actores malintencionados. Para mitigar estos riesgos, integramos mecanismos de seguridad para restringir el comportamiento de modelos de lenguaje grande (LLM) dentro de un ámbito operativo seguro. Sin embargo, a pesar de estas medidas de seguridad, los LLM pueden seguir siendo vulnerables a las entradas adversarias que omiten los protocolos de seguridad integrados.
Escudos de avisos es una API unificada que analiza las entradas de LLM y detecta ataques de mensajes de usuario y ataques de documentos, que son dos tipos comunes de entradas adversarias.
Escudos de avisos para mensajes de usuario
Anteriormente denominada detección de riesgo de jailbreak, este escudo tiene como destino los ataques de inyección de mensajes de usuario, en los que los usuarios aprovechan deliberadamente las vulnerabilidades del sistema para obtener el comportamiento no autorizado del modelo de lenguaje grande. Esto podría dar lugar a una generación de contenido inapropiada o a infracciones de restricciones impuestas por el sistema.
Escudos de avisos para documentos
Este escudo tiene como objetivo proteger contra ataques que utilizan información no proporcionada directamente por el usuario o desarrollador, como documentos externos. Los atacantes podrían insertar instrucciones ocultas en estos materiales para obtener un control no autorizado sobre la sesión de LLM.
Tipos de ataques de entrada
Los dos tipos de ataques de entrada que detecta Escudos de avisos se describen en esta tabla.
Tipo | Atacante | Punto de entrada | Método | Objetivo/impacto | Comportamiento resultante |
---|---|---|---|---|---|
Ataques de mensajes de usuario | Usuario | Mensajes para el usuario | Omisión de solicitudes del sistema/entrenamiento RLHF | Modificación del comportamiento de LLM previsto | Realización de acciones restringidas en el entrenamiento |
Ataques de documentos | Tercero | Contenido de terceros (documentos, correos electrónicos) | Interpretación errónea del contenido de terceros | Obtención de control o acceso no autorizado | Ejecución de acciones o comandos no deseados |
Subtipos de ataques de mensajes de usuario
Escudos de avisos para ataques de mensajes de usuario reconoce las siguientes clases de ataques:
Category | Descripción |
---|---|
Intento de cambiar las reglas del sistema | Esta categoría incluye, pero no se limita a, las solicitudes para usar un nuevo asistente de inteligencia artificial o sistema sin restricciones sin reglas, principios o limitaciones, o solicitudes que indiquen a la inteligencia artificial que omita y olvide sus reglas, instrucciones y turnos anteriores. |
Inserción de un simulacro de conversación para confundir el modelo | Este ataque usa turnos conversacionales diseñados por el usuario insertados en una sola consulta de usuario para indicar al asistente del sistema o IA que omita las reglas y limitaciones. |
Juego de roles | Este ataque indica al asistente del sistema o IA que actúe como otro "rol del sistema" que no tiene limitaciones del sistema existentes, o asigna cualidades humanas antropomórficas al sistema, como emociones, pensamientos y opiniones. |
Ataques de codificación | Este ataque intenta usar la codificación, como un método de transformación de caracteres, estilos de generación, cifrados u otras variaciones de lenguaje natural, para eludir las reglas del sistema. |
Subtipos de ataques de documentos
Escudos de avisos para ataques de documentos reconoce las siguientes clases de ataques:
Category | Descripción |
---|---|
Contenido manipulado | Comandos relacionados con la falsificación, ocultación, manipulación o inserción de información específica. |
Intrusión | Comandos relacionados con la creación de puertas traseras, la elevación de privilegios no autorizada y la obtención de acceso a LLM y sistemas |
Recopilación de información | Comandos relacionados con la eliminación, modificación o acceso a datos o robo de estos. |
Disponibilidad | Comandos que hacen que el usuario no pueda utilizar el modelo, bloquean una funcionalidad determinada o fuerzan el modelo para generar información incorrecta. |
Fraude | Comandos relacionados con la estafa al usuario sin dinero, contraseñas, información o actuación en nombre del usuario sin autorización |
Malware | Comandos relacionados con la propagación de malware a través de vínculos malintencionados, correos electrónicos, etc. |
Intento de cambiar las reglas del sistema | Esta categoría incluye, pero no se limita a, las solicitudes para usar un nuevo asistente de inteligencia artificial o sistema sin restricciones sin reglas, principios o limitaciones, o solicitudes que indiquen a la inteligencia artificial que omita y olvide sus reglas, instrucciones y turnos anteriores. |
Inserción de un simulacro de conversación para confundir el modelo | Este ataque usa turnos conversacionales diseñados por el usuario insertados en una sola consulta de usuario para indicar al asistente del sistema o IA que omita las reglas y limitaciones. |
Juego de roles | Este ataque indica al asistente del sistema o IA que actúe como otro "rol del sistema" que no tiene limitaciones del sistema existentes, o asigna cualidades humanas antropomórficas al sistema, como emociones, pensamientos y opiniones. |
Ataques de codificación | Este ataque intenta usar la codificación, como un método de transformación de caracteres, estilos de generación, cifrados u otras variaciones de lenguaje natural, para eludir las reglas del sistema. |
Limitaciones
Disponibilidad del idioma
Actualmente, la API de Escudos de avisos admite el idioma inglés. Aunque nuestra API no restringe el envío de contenido que no está en inglés, no podemos garantizar el mismo nivel de calidad y precisión en el análisis de este tipo de contenido. Se recomienda que los usuarios envíen contenido principalmente en inglés para garantizar los resultados más confiables y precisos de la API.
Limitaciones de longitud del texto
Consulte Requisitos de entrada para conocer las limitaciones máximas de longitud de texto.
Regions
Para usar esta API, debe crear el recurso de Seguridad del contenido de Azure AI en las regiones admitidas. Consulte Disponibilidad de la región.
Limitaciones de TPS
Consulte Tasas de consulta.
Si necesita una tarifa más alta, póngase en contacto con nosotros para solicitarla.
Pasos siguientes
Siga el inicio rápido para empezar a usar la seguridad del contenido de Azure AI para detectar riesgos de entrada de usuario.
Comentarios
https://aka.ms/ContentUserFeedback.
Proximamente: Ao longo de 2024, retiraremos gradualmente GitHub Issues como mecanismo de comentarios sobre o contido e substituirémolo por un novo sistema de comentarios. Para obter máis información, consulte:Enviar e ver os comentarios