Cómo configurar los filtros de contenido con Azure OpenAI Service

Nota:

Todos los clientes tienen la capacidad de modificar los filtros de contenido y configurar los umbrales de gravedad (bajo, medio, alto). La aprobación es necesaria para desactivar los filtros de contenido parcialmente o totalmente desactivados. Los clientes administrados solo pueden solicitar el control de filtrado de contenido completo mediante este formato: Revisión de acceso limitado de Azure OpenAI: filtros de contenido modificados.

El sistema de filtrado de contenido integrado en Azure OpenAI Service se ejecuta junto con los modelos principales y usa un conjunto de modelos de clasificación de varias clases para detectar cuatro categorías de contenido dañino (violencia, odio, sexo y autolesiones) en cuatro niveles de gravedad respectivamente (seguro, bajo, medio y alto). También emplea clasificadores binarios opcionales para detectar riesgo de jailbreak, texto existente y código de repositorios públicos. La configuración de filtrado de contenido predeterminada se establece para filtrar en el umbral de gravedad media para las cuatro categorías de daños en el contenido para las solicitudes y finalizaciones. Esto significa que el contenido que se detecta en el nivel de gravedad medio o alto se filtra con los filtros de contenido, mientras que el contenido detectado en el nivel de gravedad bajo o seguro no se filtra. Obtenga más información sobre las categorías de contenido, los niveles de gravedad y el comportamiento del sistema de filtrado de contenido aquí. La detección de riesgo de jailbreak y los modelos de código y texto protegidos son opcionales y están desactivados de forma predeterminada. Para los modelos de código y texto de material protegido y de jailbreak, la característica de configuración permite a todos los clientes activar y desactivar los modelos. Los modelos están desactivados de forma predeterminada y se pueden activar según su escenario. Algunos modelos deben estar en determinados escenarios para conservar la cobertura en el compromiso de derechos de autor del cliente.

Los filtros de contenido se pueden configurar en el nivel de recurso. Una vez creada una nueva configuración, se puede asociar a una o varias implementaciones. Para obtener más información sobre la implementación de modelos, consulte la guía de implementación de recursos.

La característica de configuración está disponible en versión preliminar y permite a los clientes ajustar la configuración, por separado para solicitudes y finalizaciones, para filtrar el contenido de cada categoría de contenido en distintos niveles de gravedad, como se describe en la tabla siguiente. El contenido detectado en el nivel de gravedad "seguro" está etiquetado en anotaciones, pero no está sujeto al filtrado y no es configurable.

Gravedad filtrada Configurable para solicitudes Configurable para finalizaciones Descripciones
Bajo, medio, alto Configuración de filtrado más estricta. El contenido detectado en niveles de gravedad bajo, medio y alto se filtra.
Medio y alto Configuración predeterminada. El contenido detectado en el nivel de gravedad bajo no se filtra, sino que se filtra el contenido de un nivel medio y alto.
Alto El contenido detectado en niveles de gravedad bajo y medio no se filtra. Solo se filtra el contenido en el nivel de gravedad alto.
Sin filtros Si se aprueba* Si se aprueba* No se filtra ningún contenido, independientemente del nivel de gravedad detectado. Requiere aprobación*.

* Solo los clientes aprobados tienen control total sobre el filtrado de contenido y pueden desactivar los filtros de contenido parcialmente o desactivarlos por completo. Los clientes administrados solo pueden solicitar el control de filtrado de contenido completo mediante este formulario: Revisión de acceso limitado de Azure OpenAI: Filtros de contenido modificados

Los clientes son responsables de garantizar que las aplicaciones que integran Azure OpenAI cumplan con el código de conducta.

Categoría de filtro Configuración predeterminada ¿Se aplica a la solicitud o a la finalización? Descripción
Detección de riesgo de jailbreak Desactivado Aviso Se puede activar para filtrar o anotar las indicaciones del usuario que podrían presentar un riesgo de jailbreak. Para obtener más información sobre cómo consumir anotaciones, visite Filtrado de contenido de Azure OpenAI Service
Material protegido: código apagado Completion Se puede activar para obtener la información de citación y licencia de ejemplo en anotaciones para fragmentos de código que coincidan con cualquier origen de código público. Para más información sobre el consumo de anotaciones, consulte la guía de conceptos de filtrado de contenido.
Material protegido: texto apagado Completion Se puede activar para identificar e impedir que el contenido de texto conocido se muestre en la salida del modelo (por ejemplo, letras de canciones, recetas y contenido web seleccionado).

Configuración de filtros de contenido mediante Azure OpenAI Studio (versión preliminar)

En los pasos siguientes se muestra cómo establecer una configuración de filtrado de contenido personalizada para un recurso.

  1. Vaya a Azure OpenAI Studio y vaya a la pestaña Filtros de contenido (en la parte inferior izquierda del panel de navegación, según lo designado por el cuadro rojo siguiente).

    Captura de pantalla de la interfaz de usuario de AI Studio con la pestaña Filtros de contenido resaltada

  2. Cree una nueva configuración de filtrado de contenido personalizado.

    Captura de pantalla de la interfaz de usuario de la configuración de filtrado de contenido con la opción para crear seleccionada

    Esto conduce a la siguiente vista de configuración, donde puede elegir un nombre para la configuración de filtrado de contenido personalizado.

    Captura de pantalla de al interfaz de usuario de la configuración de filtrado de contenido

  3. Esta es la vista de la configuración de filtrado de contenido predeterminada, donde el contenido se filtra en niveles de gravedad media y alta en todas las categorías. Puede modificar el nivel de gravedad de filtrado de contenido para las solicitudes de usuario y las finalizaciones de modelo por separado (la configuración de las solicitudes se encuentra en la columna izquierda y la configuración de las finalizaciones se encuentra en la columna derecha, como se indica con los cuadros azules siguientes) en cada una de las cuatro categorías de contenido (las categorías de contenido se muestran en el lado izquierdo de la pantalla, tal como se indica con el cuadro verde siguiente). Hay tres niveles de gravedad para cada categoría que se pueden configurar: bajo, medio y alto. Puede usar el control deslizante para establecer el umbral de gravedad.

    Captura de pantalla de al interfaz de usuario de al configuración de filtrado de contenido con las solicitudes de usuarios y las finalizaciones de modelos resaltadas

  4. Si determina que la aplicación o el escenario de uso requiere un filtrado más estricto para algunas o todas las categorías de contenido, puede configurar las opciones, por separado para solicitudes y finalizaciones, para filtrar en niveles de gravedad más altos que la configuración predeterminada. Se muestra un ejemplo en la imagen siguiente, donde el nivel de filtrado de las solicitudes de usuario se establece una configuración más estricta para el odio y el sexo, filtrando también el contenido de gravedad baja junto con contenido clasificado como de gravedad media y alta (descrito en el cuadro rojo siguiente). En el ejemplo, los niveles de filtrado para finalizaciones de modelos se establecen en la configuración más estricta para todas las categorías de contenido (cuadro azul a continuación). Con esta configuración de filtrado modificada en su lugar, el contenido de baja, media y alta gravedad se filtrará por las categorías de odio y sexual en los avisos del usuario; El contenido de gravedad media y alta se filtrará por las categorías de auto daño y violencia en los avisos del usuario; y el contenido de gravedad baja, media y alta se filtrarán para todas las categorías de contenido en las finalizaciones del modelo.

    Captura de pantalla de la configuración del filtrado de contenido de gravedad baja, media y alta resaltado.

  5. Si el caso de uso se aprobó para los filtros de contenido modificados como se describió anteriormente, recibirá control total sobre las configuraciones de filtrado de contenido y puede optar por activar el filtrado parcialmente o totalmente desactivado. En la imagen siguiente, el filtrado está desactivado para la violencia (cuadro verde a continuación), mientras que las configuraciones predeterminadas se mantienen para otras categorías. Aunque se ha deshabilitado la funcionalidad de filtro para la violencia, el contenido se seguirá anotando. Para desactivar todos los filtros y anotaciones, desactive Filtros y anotaciones (cuadro rojo a continuación).

    Captura de pantalla de la configuración del filtrado de contenido establecido como auto-daño y violencia deshabilitado.

    Puede crear varias configuraciones de filtrado de contenido según sus requisitos.

  6. Para activar los modelos opcionales, puede seleccionar cualquiera de las casillas situadas en el lado izquierdo. Cuando cada uno de los modelos opcionales esté activado, puede indicar si el modelo debe anotar o filtrar.

  7. Al seleccionar Anotar, se ejecuta el modelo correspondiente y se devuelven anotaciones a través de la respuesta de la API, pero no se filtrará el contenido. Además de las anotaciones, también puede elegir filtrar el contenido cambiando el botón de alternancia Filtrar a Activado.

  8. Puede crear varias configuraciones de filtrado de contenido según sus requisitos.

    Captura de pantalla de varias configuraciones de contenido en Azure Portal.

  9. A continuación, para que una configuración de filtrado de contenido personalizada esté operativa, asigne una configuración a una o varias implementaciones en el recurso. Para ello, vaya a la pestaña Implementaciones y seleccione Editar implementación (que se describe cerca de la parte superior de la pantalla en un cuadro rojo a continuación).

    Captura de pantalla de la configuración del filtrado de contenido con una implementación editada resaltada.

  10. Vaya a opciones avanzadas (que se describen en el cuadro azul siguiente) seleccione la configuración de filtro de contenido adecuada para esa implementación en la lista desplegable Filtro de contenido (que se describe cerca de la parte inferior del cuadro de diálogo en el cuadro rojo siguiente).

    Captura de pantalla de edición de la configuración de implementación con las opciones avanzadas seleccionadas.

  11. Seleccione Guardar y cerrar para aplicar la configuración seleccionada a la implementación.

    Captura de pantalla de edición de la configuración de implementación con el filtro de contenido seleccionado.

  12. También puede editar y eliminar una configuración de filtro de contenido si es necesario. Para ello, vaya a la pestaña Filtros de contenido y seleccione la acción deseada (opciones que se describen cerca de la parte superior de la pantalla en el cuadro rojo siguiente). Solo puede editar o eliminar una configuración de filtrado a la vez.

    Captura de pantalla de la configuración de filtrado de contenido con las opciones de editar y eliminar destacadas.

    Nota

    Antes de eliminar una configuración de filtrado de contenido, deberá anular la asignación de cualquier implementación en la pestaña Implementaciones.

Procedimientos recomendados

Se recomienda informar a las decisiones de configuración de filtrado de contenido a través de una identificación iterativa (por ejemplo, pruebas de equipo rojo, pruebas de esfuerzo y análisis) y el proceso de medición para solucionar los posibles daños que son pertinentes para un modelo, aplicación y escenario de implementación específicos. Después de implementar mitigaciones como el filtrado de contenido, repita la medición para probar la eficacia. Las recomendaciones y los procedimientos recomendados para la inteligencia artificial responsable de Azure OpenAI, que se basan en el estándar de inteligencia artificial responsable de Microsoft, se pueden encontrar en La introducción a la inteligencia artificial responsable de Azure OpenAI.

Pasos siguientes