Nota sobre transparencia para las evaluaciones de seguridad de Inteligencia artificial de Azure Studio

Artículo
05/21/2024

Importante

Algunas de las características descritas en este artículo solo pueden estar disponibles en versión preliminar. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

¿Qué es una nota sobre transparencia?

Los sistemas de inteligencia artificial incluyen no solo la tecnología, sino también las personas que la usarán y las que se verán afectadas por ella, así como los entornos en los que se implementan. La creación de un sistema adecuado a su finalidad requiere comprender cómo funciona la tecnología, cuáles son sus capacidades y limitaciones, y cómo conseguir el mejor rendimiento. Las notas sobre transparencia de Microsoft están pensadas para ayudarle a entender cómo funciona nuestra tecnología de inteligencia artificial, las elecciones que los propietarios del sistema pueden hacer que influyan en el rendimiento y el comportamiento del sistema y la importancia de pensar en todo el sistema, incluida la tecnología, las personas y el entorno. Puede usar notas sobre transparencia al desarrollar o implementar su propio sistema, o compartirlas con las personas que usarán o se verán afectadas por el sistema.

Las notas sobre transparencia de Microsoft forman parte de un esfuerzo más amplio en Microsoft para poner en práctica nuestros principios de inteligencia artificial. Para más información, consulte los principios de inteligencia artificial de Microsoft.

Conceptos básicos de las evaluaciones de seguridad de Inteligencia artificial de Azure Studio

Introducción

Las evaluaciones de seguridad de Inteligencia artificial de Azure Studio permiten a los usuarios evaluar la salida de su aplicación de IA generativa para detectar riesgos de contenido textual: contenido odioso e injusto, contenido sexual, contenido violento, contenido relacionado con autolesiones, vulnerabilidades de jailbreak. Las evaluaciones de seguridad también pueden ayudar a generar conjuntos de datos adversarios para ayudarle a acelerar y aumentar la operación de formación de equipos rojos (red teaming). Las evaluaciones de seguridad de Inteligencia artificial de Azure Studio reflejan los compromisos de Microsoft para asegurarse de que los sistemas de inteligencia artificial se creen de forma segura y responsable al poner en marcha nuestros principios de inteligencia artificial responsable.

Términos clave

El contenido odioso e injusto hace referencia a cualquier lenguaje relacionado con el odio hacia individuos o representaciones injustas de individuos y grupos sociales mediante factores que incluyen, entre otros, la raza, la etnia, la nacionalidad, el género, la orientación sexual, la religión, el estado de inmigración, la capacidad, la apariencia personal y el tamaño del cuerpo. Un injusticia se produce cuando los sistemas de inteligencia artificial tratan o representan grupos sociales de forma desigual, lo que crea y contribuye a las desigualdades sociales.
El contenido sexual incluye lenguaje relacionado con órganos anatómicos y genitales, relaciones románticas, actos representados en términos eróticos, embarazo, actos sexuales físicos (incluidos el acoso o la violencia sexual), prostitución, pornografía y abuso sexual.
El contenido violento incluye lenguaje relacionado con acciones físicas destinadas a dañar, herir, perjudicar o matar a alguien o algo. También incluye descripciones de armas y pistolas (y entidades relacionadas, como fabricantes y asociaciones).
El contenido relacionado con las autolesiones incluye lenguaje relacionado con las acciones destinadas a dañar, herir o perjudicar el cuerpo de uno mismo o matarse.
Jailbreak, ataques de solicitudes directas o ataques de inyección de solicitudes de usuario, hace referencia a usuarios que manipulan solicitudes para insertar entradas dañinas en los LLM para distorsionar las acciones y salidas. Un ejemplo de un comando de jailbreak es un ataque "DAN" (Do Anything Now, Haz cualquier cosa ahora), que puede engañar al LLM en una generación de contenido inapropiada o ignorar las restricciones impuestas por el sistema.
La tasa de defectos (riesgo de contenido) se define como el porcentaje de instancias del conjunto de datos de prueba que supera un umbral en la escala de gravedad en función de todo el tamaño del conjunto de datos.
El término Equipo rojo (Red-teaming) ha descrito históricamente ataques adversarios sistemáticos para probar vulnerabilidades de seguridad. Con el aumento de los modelos de lenguaje grande (LLM), el término se extendió más allá de la ciberseguridad tradicional y evolucionó en el uso común para describir muchos tipos de sondeos, pruebas y ataques de sistemas de IA. Con los LLM, tanto el uso beneficioso como el perjudicial pueden producir resultados potencialmente dañinos, que pueden adoptar muchas formas, incluido el contenido perjudicial como discursos de odio, la incitación o glorificación de la violencia, referencia a contenido de autolesión o contenido sexual.

Funcionalidades

Comportamiento del sistema

Inteligencia artificial de Azure Studio aprovisiona un modelo GPT-4 de Azure OpenAI y organiza ataques adversarios contra la aplicación para generar un conjunto de datos de prueba de alta calidad. A continuación, aprovisiona otro modelo GPT-4 para anotar el conjunto de datos de prueba para el contenido y la seguridad. Los usuarios proporcionan su punto de conexión de aplicación de IA generativa que desean probar y las evaluaciones de seguridad generarán un conjunto de datos de prueba estático respecto a ese punto de conexión junto con su etiqueta de riesgo de contenido (muy bajo, bajo, medio, alto) y razonamiento para la etiqueta generada por IA.

Casos de uso

Uso previsto

Las evaluaciones de seguridad no están diseñadas para usarse con ningún fin distinto de evaluar los riesgos de contenido y las vulnerabilidades de jailbreak de la aplicación de IA generativa:

Evaluación de la implementación previa de la aplicación de IA generativa: mediante el asistente para evaluación en Azure AI Studio o el SDK de Python de Azure AI, las evaluaciones de seguridad pueden evaluar de forma automatizada los posibles riesgos de contenido o seguridad.
Aumento de las operaciones de formación de equipos rojos: mediante el simulador adversario, las evaluaciones de seguridad pueden simular interacciones adversarias con la aplicación de IA generativa para intentar descubrir los riesgos de contenido y seguridad.
Comunicación de los riesgos de contenido y seguridad a las partes interesadas: mediante Inteligencia artificial de Azure Studio, puede compartir el acceso al proyecto de Inteligencia artificial de Azure Studio con resultados de evaluaciones de seguridad con auditores o partes interesadas de cumplimiento.

Consideraciones al elegir un caso de uso

Animamos a los clientes a aprovechar las evaluaciones de seguridad de Inteligencia artificial de Azure Studio en sus soluciones o aplicaciones innovadoras. Sin embargo, estas son algunas consideraciones a tener en cuenta para elegir un caso de uso:

Las evaluaciones de seguridad deben incluir un mecanismo human-in-the-loop: el uso de evaluaciones automatizadas, como las evaluaciones de seguridad de Inteligencia artificial de Azure Studio, debe incluir revisores humanos, como expertos en dominios, para evaluar si la aplicación de IA generativa se ha probado exhaustivamente antes de la implementación a los usuarios finales.
Las evaluaciones de seguridad no incluyen cobertura completa y total: aunque las evaluaciones de seguridad pueden proporcionar una manera de aumentar las pruebas de posibles riesgos de contenido o seguridad, no se diseñó para reemplazar las operaciones manuales de formación de equipos rojos específicamente orientadas al dominio, los casos de uso y el tipo de usuarios finales de la aplicación.
Escenarios admitidos:
- Para la simulación adversaria: respuesta a preguntas, chat multiturno, resumen, búsqueda, reescritura de texto, y generación de contenido sin fundamento y con fundamento.
- Para anotaciones automatizadas: respuesta a preguntas y chat multiturno.
Actualmente, el servicio se usa mejor con el dominio inglés solo para generaciones textuales. Se considerarán características adicionales, incluida la compatibilidad con varios modelos, para futuras versiones.
La cobertura de los riesgos de contenido proporcionados en las evaluaciones de seguridad es una submuestra de un número limitado de grupos y temas marginados:
- La métrica de odio e injusticia incluye cierta cobertura para un número limitado de grupos marginados para el factor demográfico de género (por ejemplo, hombres, mujeres, personas no binarias) y raza, ascendencia, origen étnico y nacionalidad (por ejemplo, negro, mexicano, europeo). No todos los grupos marginados de género y raza, ascendencia, etnicidad y nacionalidad están cubiertos. Otros factores demográficos relevantes para el odio y la injusticia no tienen cobertura actualmente (por ejemplo, discapacidad, sexualidad, religión).
- Las métricas de contenido sexual, violento y autolesión se basan en una conceptualización preliminar de estos daños que están menos desarrollados que el odio y la injusticia. Esto significa que podemos hacer alegaciones menos fuertes sobre la cobertura de la medición y qué tan bien las mediciones representan las distintas formas en que pueden producirse estos daños. La cobertura de estos tipos de contenido incluye un número limitado de temas relacionados con el sexo (por ejemplo, violencia sexual, relaciones, actos sexuales), violencia (por ejemplo, abuso, lesiones a otros, secuestro) y autolesiones (por ejemplo, muerte intencional, autolesiones intencionales, trastornos alimenticios).
Actualmente, las evaluaciones de seguridad de Inteligencia artificial de Azure Studio no permiten complementos ni extensibilidad.
Para mantener la calidad actualizada y mejorar la cobertura, apuntaremos a una cadencia de las futuras versiones de mejora a las funcionalidades de simulación y anotación adversarias del servicio.

Limitaciones técnicas, factores operativos e intervalos

El campo de los modelos de lenguaje grande (LLM) continúa evolucionando a un ritmo rápido, lo que requiere una mejora continua de las técnicas de evaluación para garantizar una implementación segura y confiable del sistema de inteligencia artificial. Las evaluaciones de seguridad de Inteligencia artificial de Azure Studio reflejan el compromiso de Microsoft de seguir innovando en el campo de la evaluación de LLM. Nuestro objetivo es proporcionar las mejores herramientas para ayudarle a evaluar la seguridad de las aplicaciones de IA generativa, pero reconocemos que la evaluación eficaz es un trabajo continuo en curso.
Actualmente, la personalización de las evaluaciones de seguridad de Inteligencia artificial de Azure Studio está limitada. Solo esperamos que los usuarios proporcionen su punto de conexión de aplicación de IA generativa de entrada y nuestro servicio generará un conjunto de datos estático etiquetado para el riesgo de contenido.
Por último, debe señalarse que este sistema no automatiza ninguna acción ni tarea, solo proporciona una evaluación de las salidas de la aplicación de IA generativa, que debe revisar un humano responsable de la toma de decisiones en el bucle antes de elegir implementar la aplicación o el sistema de IA generativa en producción para los usuarios finales.

Rendimiento del sistema

Prácticas recomendadas para mejorar el rendimiento del sistema

Al tener en cuenta el dominio, que podría tratar alguna parte del contenido de forma más susceptible que otro, considere la posibilidad de ajustar el umbral para calcular la tasa de defectos.
Al usar las evaluaciones de seguridad automatizadas, a veces puede haber un error en las etiquetas generadas por IA para la gravedad de un riesgo de contenido o su razonamiento. Hay una columna de comentarios humanos manual para habilitar la validación con el método humna-in-the-loop de los resultados de evaluación de seguridad automatizada.

Evaluación de las evaluaciones de seguridad de Inteligencia artificial de Azure Studio

Métodos de evaluación

Para todos los tipos de riesgo de contenido admitidos, hemos comprobado internamente la calidad comparando la tasa de coincidencias aproximadas entre los etiquetadores humanos mediante una escala de gravedad de 0 a 7 y el anotador automatizado de las evaluaciones de seguridad también con una escala de gravedad de 0 a 7 en los mismos conjuntos de datos. Para cada área de riesgo, teníamos etiquetadores humanos y un anotador automatizado etiquetando 500 textos en inglés de un solo turno. Los etiquetadores humanos y el anotador automatizado no usaron exactamente las mismas versiones de las directrices de anotación; mientras que las directrices del anotador automatizo derivan de las directrices para los seres humanos, estas se han desviado en distintos grados (las directrices de odio e injusticia son las que más se han desviado). A pesar de estas pequeñas y moderadas diferencias, creemos que sigue siendo útil compartir tendencias generales e información de nuestra comparación de coincidencias aproximadas. En nuestras comparaciones, buscamos coincidencias con una tolerancia de 2 niveles (donde la etiqueta humana coincide exactamente con la etiqueta del anotador automatizado o estaba dentro de 2 niveles por encima o por debajo de la gravedad), coincide con una tolerancia de 1 nivel y coincide con una tolerancia de 0 niveles.

Evaluation results

En general, vimos una alta tasa de coincidencias aproximadas entre los riesgos de autolesión y contenido sexual en todos los niveles de tolerancia. Para la violencia y para el odio y la injusticia, la tasa aproximada de coincidencias entre los niveles de tolerancia fue menor. Estos resultados se produjeron en parte debido a una mayor desviación en el contenido de las directrices de anotación para los etiquetadores humanos frente al anotador automatizado y, en parte, debido a la mayor cantidad de contenido y complejidad en las directrices específicas.

Aunque nuestras comparaciones se realizan entre entidades que usan ligera o moderadamente directrices de anotación diferentes (y, por tanto, no son comparaciones estándar de acuerdo de modelo humano), estas comparaciones proporcionan una estimación de la calidad que podemos esperar de las evaluaciones de seguridad de Inteligencia artificial de Azure Studio según los parámetros de estas comparaciones. En concreto, solo examinamos las muestras en inglés, por lo que es posible que nuestros hallazgos no se generalicen en otros idiomas. Además, cada muestra de conjunto de datos constó de solo un solo turno, por lo que se necesitan más experimentos para comprobar la generalización de nuestros resultados de evaluación en escenarios de varios turnos (por ejemplo, una conversación de ida y vuelta que incluya las consultas del usuario y las respuestas del sistema). Los tipos de muestras que se usan en estos conjuntos de datos de evaluación también pueden afectar considerablemente a la tasa de coincidencia aproximada entre las etiquetas humanas y un anotador automatizado; si las muestras son más fáciles de etiquetar (por ejemplo, si todas las muestras están libres de riesgos de contenido), es posible que esperemos que la tasa de coincidencia aproximada sea mayor. La calidad de las etiquetas humanas para una evaluación también podría afectar a la generalización de nuestros hallazgos.

Evaluación e integración de las evaluaciones de seguridad de Inteligencia artificial de Azure Studio para su uso

La medición y evaluación de la aplicación de IA generativa son una parte fundamental de un enfoque holístico para la administración de riesgos de IA. Las evaluaciones de seguridad de Inteligencia artificial de Azure Studio son complementarias a otras prácticas de administración de riesgos de IA y deben usarse en conjunto. Los expertos en dominio y los revisores del método human-in-the-loop deben proporcionar una supervisión adecuada al usar evaluaciones de seguridad asistidas por IA en el diseño, el desarrollo y el ciclo de implementación de aplicaciones de IA generativa. Debe comprender las limitaciones y los usos previstos de las evaluaciones de seguridad, teniendo cuidado de no depender de las salidas generadas por las evaluaciones de seguridad asistidas por IA de Inteligencia artificial de Azure Studio de forma aislada.

Debido a la naturaleza no determinista de los LLM, es posible que experimente resultados falsos negativos o positivos, como un nivel de gravedad alta del contenido violento puntuado como "muy bajo" o "bajo". Además, los resultados de la evaluación pueden tener significados diferentes para audiencias diferentes. Por ejemplo, las evaluaciones de seguridad podrían generar una etiqueta para la gravedad "baja" del contenido violento que podría no alinearse con la definición de un revisor humano de la gravedad que podría tener ese contenido violento específico. En Inteligencia artificial de Azure Studio, proporcionamos una columna de comentarios humanos con pulgares hacia arriba y pulgares hacia abajo al ver los resultados de la evaluación para exponer qué instancias se aprobaron o marcaron como incorrectas por un revisor humano. Considere el contexto de cómo los resultados pueden interpretarse para la toma de decisiones por parte de otros usuarios con los que puede compartir la evaluación y validar los resultados de la evaluación con el nivel de análisis adecuado para el nivel de riesgo en el entorno en el que opera cada aplicación de IA generativa.

Compartir a través de