Cómo configurar los filtros de contenido con Azure OpenAI Service

Artículo
09/27/2024

El sistema de filtrado de contenido integrado en Azure OpenAI Service se ejecuta junto con los modelos principales, incluidos los modelos de generación de imágenes DALL-E. Usa un conjunto de modelos de clasificación de varias clases para detectar cuatro categorías de contenido dañino (violencia, odio, sexo y autolesiones) en cuatro niveles de gravedad respectivamente (seguro, bajo, medio y alto). También emplea clasificadores binarios opcionales para detectar riesgo de jailbreak, texto existente y código de repositorios públicos. La configuración de filtrado de contenido predeterminada se establece para filtrar en el umbral de gravedad media para las cuatro categorías de daños en el contenido para las solicitudes y finalizaciones. Esto significa que el contenido que se detecta en el nivel de gravedad medio o alto se filtra con los filtros de contenido, mientras que el contenido detectado en el nivel de gravedad bajo o seguro no se filtra. Obtenga más información sobre las categorías de contenido, los niveles de gravedad y el comportamiento del sistema de filtrado de contenido aquí. La detección de riesgo de jailbreak y los modelos de código y texto protegidos son opcionales y están desactivados de forma predeterminada. Para los modelos de código y texto de material protegido y de jailbreak, la característica de configuración permite a todos los clientes activar y desactivar los modelos. Los modelos están desactivados de forma predeterminada y se pueden activar según su escenario. Algunos modelos deben estar en determinados escenarios para conservar la cobertura en el compromiso de derechos de autor del cliente.

Nota:

Todos los clientes tienen la capacidad de modificar los filtros de contenido y configurar los umbrales de gravedad (bajo, medio, alto). La aprobación es necesaria para desactivar los filtros de contenido parcialmente o totalmente desactivados. Los clientes administrados solo pueden solicitar el control de filtrado de contenido completo mediante este formato: Revisión de acceso limitado de Azure OpenAI: filtros de contenido modificados. En este momento, no es posible convertirse en un cliente administrado.

Los filtros de contenido se pueden configurar en el nivel de recurso. Una vez creada una nueva configuración, se puede asociar a una o varias implementaciones. Para obtener más información sobre la implementación de modelos, consulte la guía de implementación de recursos.

Requisitos previos

Debe tener un recurso de Azure OpenAI y una implementación de modelo de lenguaje grande (LLM) para configurar filtros de contenido. Siga un inicio rápido para comenzar.

Descripción de la configuración del filtro de contenido

Azure OpenAI Service incluye la configuración de seguridad predeterminada aplicada a todos los modelos, excepto Azure OpenAI Whisper. Estas configuraciones le proporcionan una experiencia responsable de forma predeterminada, incluyendo modelos de filtrado de contenidos, listas de bloqueo, transformación de avisos, credenciales de contenido, y otros. Aquí encontrará más información.

Todos los clientes también pueden configurar filtros de contenido y crear directivas de seguridad personalizadas adaptadas a sus requisitos de casos de uso. La característica de configuración permite a los clientes ajustar la configuración, por separado para solicitudes y finalizaciones, para filtrar el contenido de cada categoría de contenido en distintos niveles de gravedad, tal y como se describe en la tabla siguiente. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.

Gravedad filtrada	Configurable para solicitudes	Configurable para finalizaciones	Descripciones
Bajo, medio, alto	Sí	Sí	Configuración de filtrado más estricta. El contenido detectado en niveles de gravedad bajo, medio y alto se filtra.
Medio y alto	Sí	Sí	El contenido detectado en el nivel de gravedad bajo no se filtra, sino que se filtra el contenido de un nivel medio y alto.
Alto	Sí	Sí	El contenido detectado en niveles de gravedad bajo y medio no se filtra. Solo se filtra el contenido en el nivel de gravedad alto.
Sin filtros	Si se aprueba¹	Si se aprueba¹	No se filtra ningún contenido, independientemente del nivel de gravedad detectado. Requiere aprobación¹.
Solo anotar	Si se aprueba¹	Si se aprueba¹	Deshabilita la funcionalidad de filtro, por lo que el contenido no se bloqueará, pero las anotaciones se devuelven a través de la respuesta de la API. Requiere aprobación¹.

¹ En el caso de los modelos de Azure OpenAI, solo los clientes aprobados para el filtrado de contenidos modificado tienen el control total de los filtros de contenido y pueden desactivarlos. Aplicar filtros de contenido modificados mediante este formulario: Revisión de acceso limitado de Azure OpenAI: Filtros de contenido modificados para clientes de Azure Government, solicite filtros de contenido modificados mediante este formulario: Azure Government: Solicitud de filtrado de contenido modificado para el servicio Azure OpenAI.

Los filtros de contenido configurables para entradas (indicaciones) y salidas (finalizaciones) están disponibles para los siguientes modelos de Azure OpenAI:

Serie de modelos GPT
GPT-4 Turbo Vision GA^* (turbo-2024-04-09)
GPT-4o
GPT-4o mini
DALL-E 2 y 3

^*Solo está disponible para GPT-4 Turbo Vision GA, no se aplica a la versión preliminar de GPT-4 Turbo Vision

Las configuraciones de filtrado de contenido se crean dentro de un recurso en Azure AI Studio y se pueden asociar a implementaciones. Obtenga más información sobre la capacidad de configuración aquí.

Los clientes son responsables de garantizar que las aplicaciones que integran Azure OpenAI cumplan con el código de conducta.

Descripción de otros filtros

Puede configurar las siguientes categorías de filtro además de los filtros de categoría de daños predeterminados.

Categoría de filtro	Estado	Configuración predeterminada	¿Se aplica a la solicitud o a la finalización?	Descripción
Escudos de solicitudes frente a ataques directos (jailbreak)	GA	Activado	Mensaje de usuario	Filtra o anota las indicaciones del usuario que podrían presentar un riesgo de jailbreak. Para más información sobre cómo las anotaciones, visite Filtrado de contenido de Azure OpenAI Service.
Escudos de solicitudes frente a ataques indirectos	GA	Activado	Mensaje de usuario	Filtrado o anotación de ataques indirectos, también conocidos como ataques indirectos de solicitudes o ataques de inyección de solicitudes entre dominios, una posible vulnerabilidad en la que terceros colocan instrucciones malintencionadas dentro de documentos a los que el sistema de inteligencia artificial generativa puede acceder y procesar. Obligatorio: formato de documento.
Material protegido: código	GA	Activado	Completion	Filtra el código protegido u obtiene la cita de ejemplo y la información de licencia en anotaciones para fragmentos de código que coinciden con cualquier fuente de código público, impulsado por GitHub Copilot. Para más información sobre el consumo de anotaciones, consulte la guía de conceptos de filtrado de contenido.
Material protegido: texto	GA	Activado	Completion	Identifica y bloquea el contenido de texto conocido para que no aparezca en la salida del modelo (por ejemplo, letras de canciones, recetas y contenido web seleccionado).

Configuración de filtros de contenido mediante Azure OpenAI Studio

En los pasos siguientes se muestra cómo establecer una configuración de filtrado de contenido personalizada para un recurso.

Vaya a Azure OpenAI Studio y vaya a la pestaña Filtros de contenido (en la parte inferior izquierda del panel de navegación, según lo designado por el cuadro rojo siguiente).
Cree una nueva configuración de filtrado de contenido personalizado.

Esto conduce a la siguiente vista de configuración, donde puede elegir un nombre para la configuración de filtrado de contenido personalizado.
Esta es la vista de la configuración de filtrado de contenido predeterminada, donde el contenido se filtra en niveles de gravedad media y alta en todas las categorías. Puede modificar el nivel de gravedad de filtrado de contenido para las solicitudes de usuario y las finalizaciones de modelo por separado (la configuración de las solicitudes se encuentra en la columna izquierda y la configuración de las finalizaciones se encuentra en la columna derecha, como se indica con los cuadros azules siguientes) en cada una de las cuatro categorías de contenido (las categorías de contenido se muestran en el lado izquierdo de la pantalla, tal como se indica con el cuadro verde siguiente). Hay tres niveles de gravedad para cada categoría que se pueden configurar: bajo, medio y alto. Puede usar el control deslizante para establecer el umbral de gravedad.
Si determina que la aplicación o el escenario de uso requiere un filtrado más estricto para algunas o todas las categorías de contenido, puede configurar las opciones, por separado para solicitudes y finalizaciones, para filtrar en niveles de gravedad más altos que la configuración predeterminada. Se muestra un ejemplo en la imagen siguiente, donde el nivel de filtrado de las solicitudes de usuario se establece una configuración más estricta para el odio y el sexo, filtrando también el contenido de gravedad baja junto con contenido clasificado como de gravedad media y alta (descrito en el cuadro rojo siguiente). En el ejemplo, los niveles de filtrado para finalizaciones de modelos se establecen en la configuración más estricta para todas las categorías de contenido (cuadro azul a continuación). Con esta configuración de filtrado modificada en su lugar, el contenido de baja, media y alta gravedad se filtrará por las categorías de odio y sexual en los avisos del usuario; El contenido de gravedad media y alta se filtrará por las categorías de auto daño y violencia en los avisos del usuario; y el contenido de gravedad baja, media y alta se filtrarán para todas las categorías de contenido en las finalizaciones del modelo.
Si el caso de uso se aprobó para los filtros de contenido modificados como se describió anteriormente, recibirá control total sobre las configuraciones de filtrado de contenido y puede optar por activar el filtrado parcialmente o totalmente desactivado. En la imagen siguiente, el filtrado está desactivado para la violencia (cuadro verde a continuación), mientras que las configuraciones predeterminadas se mantienen para otras categorías. Aunque se ha deshabilitado la funcionalidad de filtro para la violencia, el contenido se seguirá anotando. Para desactivar todos los filtros y anotaciones, desactive Filtros y anotaciones (cuadro rojo a continuación).

Puede crear varias configuraciones de filtrado de contenido según sus requisitos.
Para activar los modelos opcionales, puede seleccionar cualquiera de las casillas situadas en el lado izquierdo. Cuando cada uno de los modelos opcionales esté activado, puede indicar si el modelo debe anotar o filtrar.
Al seleccionar Anotar, se ejecuta el modelo correspondiente y se devuelven anotaciones a través de la respuesta de la API, pero no se filtrará el contenido. Además de las anotaciones, también puede elegir filtrar el contenido cambiando el botón de alternancia Filtrar a Activado.
Puede crear varias configuraciones de filtrado de contenido según sus requisitos.
A continuación, para que una configuración de filtrado de contenido personalizada esté operativa, asigne una configuración a una o varias implementaciones en el recurso. Para ello, vaya a la pestaña Implementaciones y seleccione Editar implementación (que se describe cerca de la parte superior de la pantalla en un cuadro rojo a continuación).
Vaya a opciones avanzadas (que se describen en el cuadro azul siguiente) seleccione la configuración de filtro de contenido adecuada para esa implementación en la lista desplegable Filtro de contenido (que se describe cerca de la parte inferior del cuadro de diálogo en el cuadro rojo siguiente).
Seleccione Guardar y cerrar para aplicar la configuración seleccionada a la implementación.
También puede editar y eliminar una configuración de filtro de contenido si es necesario. Para ello, vaya a la pestaña Filtros de contenido y seleccione la acción deseada (opciones que se describen cerca de la parte superior de la pantalla en el cuadro rojo siguiente). Solo puede editar o eliminar una configuración de filtrado a la vez.

Nota

Antes de eliminar una configuración de filtrado de contenido, deberá anular la asignación de cualquier implementación en la pestaña Implementaciones.

Seguimiento de los procedimientos recomendados

Se recomienda informar a las decisiones de configuración de filtrado de contenido a través de una identificación iterativa (por ejemplo, pruebas de equipo rojo, pruebas de esfuerzo y análisis) y el proceso de medición para solucionar los posibles daños que son pertinentes para un modelo, aplicación y escenario de implementación específicos. Después de implementar mitigaciones como el filtrado de contenido, repita la medición para probar la eficacia. Las recomendaciones y los procedimientos recomendados para la inteligencia artificial responsable de Azure OpenAI, que se basan en el estándar de inteligencia artificial responsable de Microsoft, se pueden encontrar en La introducción a la inteligencia artificial responsable de Azure OpenAI.

Obtenga más información sobre las prácticas de inteligencia artificial responsable de Azure OpenAI: Introducción a las prácticas de inteligencia artificial responsable para los modelos de Azure OpenAI.
Obtenga más información sobre las categorías de filtrado de contenido y los niveles de gravedad con el Azure OpenAI Service.
Obtenga más información sobre Read Teaming en nuestro: artículo Introducción a los modelos lingüísticos de gran tamaño (LLM).

Compartir a través de

Cómo configurar los filtros de contenido con Azure OpenAI Service

Requisitos previos

Descripción de la configuración del filtro de contenido

Descripción de otros filtros

Configuración de filtros de contenido mediante Azure OpenAI Studio

Seguimiento de los procedimientos recomendados

Comentarios

Recursos adicionales

Compartir a través de

Cómo configurar los filtros de contenido con Azure OpenAI Service

Requisitos previos

Descripción de la configuración del filtro de contenido

Descripción de otros filtros

Configuración de filtros de contenido mediante Azure OpenAI Studio

Seguimiento de los procedimientos recomendados

Contenido relacionado

Comentarios

Recursos adicionales