Directivas de seguridad de contenido predeterminadas
El servicio Azure OpenAI incluye la seguridad predeterminada aplicada a todos los modelos, excepto Azure OpenAI Whisper. Estas configuraciones proporcionan una experiencia responsable de forma predeterminada, incluidos los modelos de filtrado de contenido, las listas de bloqueo, la transformación de mensajes, las credenciales de contenido y otras.
La seguridad predeterminada tiene como objetivo mitigar riesgos como el odio y la imparcialidad, sexual, violencia, autolesión, contenido material protegido y ataques por inyección de mensajes de usuario. Para obtener más información sobre el filtrado de contenido, visite nuestra documentación que describe las categorías y los niveles de gravedad aquí.
Toda la seguridad es configurable. Para obtener más información sobre la capacidad de configuración, visite nuestra documentación sobre cómo configurar el filtrado de contenido.
Modelos de texto: GPT-4, GPT-3.5
Los modelos de texto del servicio Azure OpenAI pueden tomar y generar texto y código. Estos modelos aprovechan los modelos de filtrado de contenido de texto de Azure para detectar y evitar contenido dañino. Este sistema funciona tanto en las indicaciones como en la finalización.
Categoría de riesgo | Solicitud o finalización | Umbral de gravedad |
---|---|---|
Odio y equidad | Indicaciones y finalizaciones | Media |
Violencia | Indicaciones y finalizaciones | Media |
Sexual | Indicaciones y finalizaciones | Media |
Autolesiones | Indicaciones y finalizaciones | Media |
Ataque por inyección de indicaciones de usuario (liberar) | Mensajes | N/D |
Material protegido: texto | Finalizaciones | N/D |
Material protegido: código | Finalizaciones | N/D |
Modelos de visión: GPT-4o, GPT-4 Turbo, DALL-E 3, DALL-E 2
GPT-4o y GPT-4 Turbo
Categoría de riesgo | Solicitud o finalización | Umbral de gravedad |
---|---|---|
Odio y equidad | Indicaciones y finalizaciones | Media |
Violencia | Indicaciones y finalizaciones | Media |
Sexual | Indicaciones y finalizaciones | Media |
Autolesiones | Indicaciones y finalizaciones | Media |
Identificación de individuos e inferencia de atributos confidenciales | Mensajes | N/D |
Ataque por inyección de indicaciones de usuario (liberar) | Mensajes | N/D |
DALL-E 3 y DALL-E 2
Categoría de riesgo | Solicitud o finalización | Umbral de gravedad |
---|---|---|
Odio y equidad | Indicaciones y finalizaciones | Bajo |
Violencia | Indicaciones y finalizaciones | Bajo |
Sexual | Indicaciones y finalizaciones | Bajo |
Autolesiones | Indicaciones y finalizaciones | Bajo |
Credenciales de contenido | Finalizaciones | N/D |
Generación engañosa de candidatos políticos | Mensajes | N/D |
Representaciones de figuras públicas | Mensajes | N/D |
Ataque por inyección de indicaciones de usuario (liberar) | Mensajes | N/D |
Material protegido: personajes de Arte y Estudios | Mensajes | N/D |
Palabras soeces | Mensajes | N/D |
Además de las configuraciones de seguridad anteriores, Azure OpenAI DALL-E también incluye la transformación de indicaciones de forma predeterminada. Esta transformación se produce en todas las indicaciones para mejorar la seguridad de su indicación original, específicamente en las categorías de riesgo de diversidad, generación engañosa de candidatos políticos, representaciones de figuras públicas, material protegido y otros.