Cómo configurar los filtros de contenido con Azure OpenAI Service

Artículo
10/16/2024

El sistema de filtrado de contenido integrado en Azure OpenAI Service se ejecuta junto con los modelos principales, incluidos los modelos de generación de imágenes DALL-E. Usa un conjunto de modelos de clasificación de varias clases para detectar cuatro categorías de contenido dañino (violencia, odio, sexo y autolesiones) en cuatro niveles de gravedad respectivamente (seguro, bajo, medio y alto). También emplea clasificadores binarios opcionales para detectar riesgo de jailbreak, texto existente y código de repositorios públicos. La configuración de filtrado de contenido predeterminada se establece para filtrar en el umbral de gravedad media para las cuatro categorías de daños en el contenido para las solicitudes y finalizaciones. Esto significa que el contenido que se detecta en el nivel de gravedad medio o alto se filtra con los filtros de contenido, mientras que el contenido detectado en el nivel de gravedad bajo o seguro no se filtra. Obtenga más información sobre las categorías de contenido, los niveles de gravedad y el comportamiento del sistema de filtrado de contenido aquí. La detección de riesgo de jailbreak y los modelos de código y texto protegidos son opcionales y están desactivados de forma predeterminada. Para los modelos de código y texto de material protegido y de jailbreak, la característica de configuración permite a todos los clientes activar y desactivar los modelos. Los modelos están desactivados de forma predeterminada y se pueden activar según su escenario. Algunos modelos deben estar en determinados escenarios para conservar la cobertura en el compromiso de derechos de autor del cliente.

Nota:

Todos los clientes tienen la capacidad de modificar los filtros de contenido y configurar los umbrales de gravedad (bajo, medio, alto). La aprobación es necesaria para desactivar los filtros de contenido parcialmente o totalmente desactivados. Los clientes administrados solo pueden solicitar el control de filtrado de contenido completo mediante este formato: Revisión de acceso limitado de Azure OpenAI: filtros de contenido modificados. En este momento, no es posible convertirse en un cliente administrado.

Los filtros de contenido se pueden configurar en el nivel de recurso. Una vez creada una nueva configuración, se puede asociar a una o varias implementaciones. Para obtener más información sobre la implementación de modelos, consulte la guía de implementación de recursos.

Requisitos previos

Debe tener un recurso de Azure OpenAI y una implementación de modelo de lenguaje grande (LLM) para configurar filtros de contenido. Siga un inicio rápido para comenzar.

Descripción de la configuración del filtro de contenido

Azure OpenAI Service incluye la configuración de seguridad predeterminada aplicada a todos los modelos, excepto Azure OpenAI Whisper. Estas configuraciones le proporcionan una experiencia responsable de forma predeterminada, incluyendo modelos de filtrado de contenidos, listas de bloqueo, transformación de avisos, credenciales de contenido, y otros. Aquí encontrará más información.

Todos los clientes también pueden configurar filtros de contenido y crear directivas de seguridad personalizadas adaptadas a sus requisitos de casos de uso. La característica de configuración permite a los clientes ajustar la configuración, por separado para solicitudes y finalizaciones, para filtrar el contenido de cada categoría de contenido en distintos niveles de gravedad, tal y como se describe en la tabla siguiente. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.

Gravedad filtrada	Configurable para solicitudes	Configurable para finalizaciones	Descripciones
Bajo, medio, alto	Sí	Sí	Configuración de filtrado más estricta. El contenido detectado en niveles de gravedad bajo, medio y alto se filtra.
Medio y alto	Sí	Sí	El contenido detectado en el nivel de gravedad bajo no se filtra, sino que se filtra el contenido de un nivel medio y alto.
Alto	Sí	Sí	El contenido detectado en niveles de gravedad bajo y medio no se filtra. Solo se filtra el contenido en el nivel de gravedad alto.
Sin filtros	Si se aprueba¹	Si se aprueba¹	No se filtra ningún contenido, independientemente del nivel de gravedad detectado. Requiere aprobación¹.
Solo anotar	Si se aprueba¹	Si se aprueba¹	Deshabilita la funcionalidad de filtro, por lo que el contenido no se bloqueará, pero las anotaciones se devuelven a través de la respuesta de la API. Requiere aprobación¹.

¹ En el caso de los modelos de Azure OpenAI, solo los clientes aprobados para el filtrado de contenidos modificado tienen el control total de los filtros de contenido y pueden desactivarlos. Solicite filtros de contenido modificado mediante este formulario: Revisión de acceso limitado de Azure OpenAI: filtros de contenido modificados. Los clientes de Azure Government pueden solicitar filtros de contenido modificados mediante este formulario: Azure Government: Solicitud de filtrado de contenido modificado para Azure OpenAI Service.

Los filtros de contenido configurables para entradas (indicaciones) y salidas (finalizaciones) están disponibles para los siguientes modelos de Azure OpenAI:

Serie de modelos GPT
GPT-4 Turbo Vision GA^* (turbo-2024-04-09)
GPT-4o
GPT-4o mini
DALL-E 2 y 3

Los filtros de contenido configurables no están disponibles para

o1-preview
o1-mini

^*Solo está disponible para GPT-4 Turbo Vision GA, no se aplica a la versión preliminar de GPT-4 Turbo Vision

Las configuraciones de filtrado de contenido se crean dentro de un recurso en Azure AI Studio y se pueden asociar a implementaciones. Obtenga más información sobre la capacidad de configuración aquí.

Los clientes son responsables de garantizar que las aplicaciones que integran Azure OpenAI cumplan con el código de conducta.

Descripción de otros filtros

Puede configurar las siguientes categorías de filtro además de los filtros de categoría de daños predeterminados.

Categoría de filtro	Estado	Configuración predeterminada	¿Se aplica a la solicitud o a la finalización?	Descripción
Escudos de solicitudes frente a ataques directos (jailbreak)	GA	Activado	Mensaje de usuario	Filtra o anota las indicaciones del usuario que podrían presentar un riesgo de jailbreak. Para más información sobre cómo las anotaciones, visite Filtrado de contenido de Azure OpenAI Service.
Escudos de solicitudes frente a ataques indirectos	GA	Activado	Mensaje de usuario	Filtrado o anotación de ataques indirectos, también conocidos como ataques indirectos de solicitudes o ataques de inyección de solicitudes entre dominios, una posible vulnerabilidad en la que terceros colocan instrucciones malintencionadas dentro de documentos a los que el sistema de inteligencia artificial generativa puede acceder y procesar. Obligatorio: formato de documento.
Material protegido: código	GA	Activado	Completion	Filtra el código protegido u obtiene la cita de ejemplo y la información de licencia en anotaciones para fragmentos de código que coinciden con cualquier fuente de código público, impulsado por GitHub Copilot. Para más información sobre el consumo de anotaciones, consulte la guía de conceptos de filtrado de contenido.
Material protegido: texto	GA	Activado	Completion	Identifica y bloquea el contenido de texto conocido para que no aparezca en la salida del modelo (por ejemplo, letras de canciones, recetas y contenido web seleccionado).

Configuración de filtros de contenido mediante Azure OpenAI Studio

En los pasos siguientes se muestra cómo establecer una configuración de filtrado de contenido personalizada para un recurso.

Vaya a Azure OpenAI Studio y vaya a la pestaña Filtros de contenido (en la parte inferior izquierda del panel de navegación, según lo designado por el cuadro rojo siguiente).
Cree una nueva configuración de filtrado de contenido personalizado.

Esto conduce a la siguiente vista de configuración, donde puede elegir un nombre para la configuración de filtrado de contenido personalizado. Después de escribir un nombre, puede configurar los filtros de entrada (indicaciones de usuario) y los filtros de salida (respuesta del modelo). Para las cuatro primeras categorías de contenido hay tres niveles de gravedad que se pueden configurar: Bajo, medio y alto. Puede usar los controles deslizantes para establecer el umbral de gravedad si determina que la aplicación o el escenario de uso requieren un filtrado diferente al de los valores predeterminados. Algunos filtros permiten determinar si el modelo debe anotar o bloquear. Al seleccionar Anotar, se ejecuta el modelo correspondiente y se devuelven anotaciones a través de la respuesta de la API, pero no se filtrará el contenido. Además de las anotaciones, también puede elegir filtrar el contenido cambiando el botón de alternancia Filtrar a Activado.

Si el caso de uso se aprobó para los filtros de contenido modificados como se describió anteriormente, recibirá control total sobre las configuraciones de filtrado de contenido y puede optar por activar el filtrado parcialmente o totalmente desactivado.
Puede crear varias configuraciones de filtrado de contenido según sus requisitos.
A continuación, para que una configuración de filtrado de contenido personalizada esté operativa, asigne una configuración a una o varias implementaciones en el recurso. Para ello, vaya a la pestaña Implementaciones y seleccione la implementación. Después, seleccione Editar.
En la ventana Actualizar implementación que aparece, seleccione el filtro personalizado en el menú desplegable Filtro de contenido. Seleccione Guardar y cerrar para aplicar la configuración seleccionada a la implementación.
También puede editar y eliminar una configuración de filtro de contenido si es necesario. Para ello, vaya a la pestaña Filtros de contenido y seleccione una configuración. A continuación, seleccione la acción deseada. Solo puede editar una configuración de filtrado a la vez.

Nota

Antes de eliminar una configuración de filtrado de contenido, deberá anular la asignación de cualquier implementación en la pestaña Implementaciones.

Seguimiento de los procedimientos recomendados

Se recomienda informar a las decisiones de configuración de filtrado de contenido a través de una identificación iterativa (por ejemplo, pruebas de equipo rojo, pruebas de esfuerzo y análisis) y el proceso de medición para solucionar los posibles daños que son pertinentes para un modelo, aplicación y escenario de implementación específicos. Después de implementar mitigaciones como el filtrado de contenido, repita la medición para probar la eficacia. Las recomendaciones y los procedimientos recomendados para la inteligencia artificial responsable de Azure OpenAI, que se basan en el estándar de inteligencia artificial responsable de Microsoft, se pueden encontrar en La introducción a la inteligencia artificial responsable de Azure OpenAI.

Obtenga más información sobre las prácticas de inteligencia artificial responsable de Azure OpenAI: Introducción a las prácticas de inteligencia artificial responsable para los modelos de Azure OpenAI.
Obtenga más información sobre las categorías de filtrado de contenido y los niveles de gravedad con el Azure OpenAI Service.
Obtenga más información sobre Read Teaming en nuestro: artículo Introducción a los modelos lingüísticos de gran tamaño (LLM).

Compartir a través de

Cómo configurar los filtros de contenido con Azure OpenAI Service

Requisitos previos

Descripción de la configuración del filtro de contenido

Descripción de otros filtros

Configuración de filtros de contenido mediante Azure OpenAI Studio

Seguimiento de los procedimientos recomendados

Comentarios

Recursos adicionales

Compartir a través de

Cómo configurar los filtros de contenido con Azure OpenAI Service

Requisitos previos

Descripción de la configuración del filtro de contenido

Descripción de otros filtros

Configuración de filtros de contenido mediante Azure OpenAI Studio

Seguimiento de los procedimientos recomendados

Contenido relacionado

Comentarios

Recursos adicionales