Compartir a través de


Observabilidad en IA generativa

Importante

Los elementos marcados (versión preliminar) en este artículo se encuentran actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin acuerdo de nivel de servicio y no se recomienda para las cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

En el mundo actual controlado por ia, Generative AI Operations (GenAIOps) está revolucionando la forma en que las organizaciones crean e implementan sistemas inteligentes. A medida que las empresas usan cada vez más la inteligencia artificial para transformar la toma de decisiones, mejorar las experiencias de los clientes y la innovación de combustible, un elemento es fundamental: marcos de evaluación sólidos. La evaluación no es solo un punto de control. Es la base de confianza en las aplicaciones de inteligencia artificial. Sin una evaluación rigurosa, los sistemas de inteligencia artificial pueden generar contenido que sea:

  • Fabricado o sin fundamento en la realidad
  • Irrelevantes o incoherentes a las necesidades del usuario
  • Perjudicial para perpetuar los riesgos de contenido y los estereotipos
  • Peligroso en la propagación de información errónea
  • Vulnerable a vulnerabilidades de seguridad

Aquí es donde los evaluadores son esenciales. Estas herramientas especializadas miden tanto la frecuencia como la gravedad de los riesgos en las salidas de IA, lo que permite a los equipos abordar sistemáticamente los problemas de calidad, seguridad y seguridad en todo el recorrido de desarrollo de la inteligencia artificial, desde la selección del modelo adecuado para supervisar el rendimiento de producción, la calidad y la seguridad.

¿Qué son los evaluadores?

Los evaluadores son herramientas especializadas que miden la calidad, la seguridad y la confiabilidad de las respuestas de inteligencia artificial. Al implementar evaluaciones sistemáticas a lo largo del ciclo de vida de desarrollo de inteligencia artificial, los equipos pueden identificar y solucionar posibles problemas antes de que afecten a los usuarios. Los siguientes evaluadores admitidos proporcionan funcionalidades de evaluación completas en diferentes tipos y preocupaciones de aplicaciones de IA:

RAG (generación aumentada de recuperación):

Evaluador Propósito
Recuperación Mide la eficacia en que el sistema recupera información relevante.
Recuperación de documentos Mide la precisión en los resultados de recuperación dada la verdad básica.
Base Mide la coherencia de la respuesta con respecto al contexto recuperado.
Base Pro Mide si la respuesta es coherente con respecto al contexto recuperado.
Pertinencia Mide la importancia de la respuesta con respecto a la consulta.
Integridad de la respuesta Mide en qué medida se completa la respuesta (no falta información crítica) con respecto a la verdad básica.

Agentes (versión preliminar):

Evaluador Propósito
Resolución de intenciones Mide la precisión en que el agente identifica y aborda las intenciones del usuario.
Cumplimiento de tareas Mide cuán bien lleva a cabo el agente las tareas identificadas.
Precisión de llamadas de herramienta Mide el estado en que el agente selecciona y llama a las herramientas correctas.

Uso general:

Evaluador Propósito
Fluidez Mide la calidad y la legibilidad del lenguaje natural.
Coherencia Mide la coherencia lógica y el flujo de respuestas.
Aseguramiento de Calidad Mide exhaustivamente varios aspectos de calidad en la respuesta a preguntas.

Seguridad y seguridad (versión preliminar):

Evaluador Propósito
Violencia Detecta contenido violento o incitación.
Sexual Identifica contenido sexual inapropiado.
Autolesiones Detecta el contenido que promueve o describe el daño propio.
Odio e injusticia Identifica contenido sesgado, discriminatorio o odioso.
Atributos no fundamentados Detecta información fabricada o alucinada inferida de las interacciones del usuario.
Vulnerabilidad de código Identifica problemas de seguridad en el código generado.
Materiales protegidos Detecta el uso no autorizado de contenido protegido o con derechos de autor.
Seguridad del contenido Evaluación completa de diversos problemas de seguridad.

Similitud textual:

Evaluador Propósito
Similitud Medición de similitud textual asistida por IA.
Puntuación F1 Media armónica de precisión y recuperación en token se superpone entre la respuesta y la verdad fundamental.
BLEU La puntuación de la evaluación bilingüe Understudy para las medidas de calidad de traducción se superpone en n-gramas entre la respuesta y la verdad fundamental.
GLEU La variante de Google-BLEU para las medidas de evaluación de nivel de frase se superpone en n-gramas entre la respuesta y la verdad del suelo.
ROUGE La Understudy orientada a la recuperación para las medidas de evaluación de Gisting se superpone en n-gramas entre la respuesta y la verdad fundamental.
METEORO La métrica para la evaluación de la traducción con medidas de ordenación explícita se superpone en n-gramas entre la respuesta y la verdad fundamental.

Azure OpenAI Graders (versión preliminar):

Evaluador Propósito
Etiquetador de modelos Clasifica el contenido mediante directrices y etiquetas personalizadas.
Puntuador de modelos Genera puntuaciones numéricas (intervalo personalizado) para el contenido en función de las directrices personalizadas.
Comprobador de cadenas Realiza validaciones de texto flexibles y coincidencia de patrones.
Similitud textual Evalúa la calidad del texto o determina la proximidad semántica.

Mediante el uso de estos evaluadores estratégicamente a lo largo del ciclo de vida de desarrollo, los equipos pueden crear aplicaciones de inteligencia artificial más confiables, seguras y eficaces que satisfagan las necesidades del usuario al tiempo que minimizan los posibles riesgos.

Diagrama del ciclo de vida de GenAIOps empresarial, en el que se muestra la selección de modelos, la creación de una aplicación de IA y la puesta en funcionamiento.

Las tres fases de la evaluación de GenAIOps

Selección del modelo base

Antes de desarrollar la aplicación, necesitas seleccionar el fundamento correcto. Esta evaluación inicial le ayuda a comparar diferentes modelos en función de:

  • Calidad y precisión: ¿Qué tan relevantes y coherentes son las respuestas del modelo?
  • Rendimiento de tareas: ¿el modelo controla los casos de uso específicos de forma eficaz?
  • Consideraciones éticas: ¿El modelo está libre de sesgos dañinos?
  • Perfil de seguridad: ¿Cuál es el riesgo de generar contenido no seguro?

Herramientas disponibles: pruebas comparativas de Azure AI Foundry para comparar modelos en conjuntos de datos públicos o sus propios datos, y el SDK de evaluación de Azure AI para probar puntos de conexión de modelos específicos.

Evaluación previa a la producción

Después de seleccionar un modelo base, el siguiente paso consiste en desarrollar una aplicación de inteligencia artificial, como un bot de chat con tecnología de IA, una aplicación de generación aumentada por recuperación (RAG), una aplicación de IA agente o cualquier otra herramienta de inteligencia artificial generativa. Una vez completado el desarrollo, comienza la evaluación de preproducción. Antes de realizar la implementación en un entorno de producción, las pruebas exhaustivas son esenciales para asegurarse de que el modelo está listo para su uso real.

La evaluación previa a la producción implica:

  • Pruebas con conjuntos de datos de evaluación: estos conjuntos de datos simulan interacciones realistas del usuario para asegurarse de que la aplicación de inteligencia artificial funciona según lo previsto.
  • Identificación de casos perimetrales: la búsqueda de escenarios en los que la calidad de respuesta de la aplicación de IA podría degradar o producir salidas no deseadas.
  • Evaluación de la solidez: asegurarse de que el modelo puede controlar una variedad de variaciones de entrada sin caídas significativas de calidad o seguridad.
  • Medición de métricas clave: se evalúan métricas como la base de respuesta, la relevancia y la seguridad para confirmar la preparación para producción.

Diagrama de evaluación de preproducción para modelos y aplicaciones con los seis pasos.

La fase de preproducción actúa como una comprobación de calidad final, lo que reduce el riesgo de implementar una aplicación de inteligencia artificial que no cumpla los estándares de rendimiento o seguridad deseados.

Herramientas y enfoques de evaluación:

  • Aporte sus propios datos: puede evaluar las aplicaciones de IA en la fase de preproducción utilizando sus propios datos de evaluación con evaluadores admitidos, que incluyen calidad de la generación, seguridad o evaluadores personalizados, y ver los resultados a través del portal de Azure AI Foundry. Utiliza el asistente para la evaluación de Azure AI Foundry o los evaluadores admitidos del SDK de evaluación de Azure AI, incluidos los evaluadores de calidad de generación, seguridad o personalizados, y visualiza los resultados mediante el portal de Azure AI Foundry.
  • Simuladores y agente de formación de equipo rojo de IA (versión preliminar): Si no tiene datos de evaluación (datos de prueba), los simuladores del SDK de evaluación de Azure AI pueden ayudarle mediante la generación de consultas relacionadas con temas o adversarios. Estos simuladores prueban la respuesta del modelo a consultas de tipo ataque o adecuadas para situaciones (casos perimetrales).
    • Los simuladores adversarios insertan consultas estáticas que imitan posibles riesgos o ataques de seguridad, o intentan jailbreaks, lo que ayuda a identificar limitaciones y a preparar el modelo para condiciones inesperadas.
    • Los simuladores adecuados para el contexto generan conversaciones típicas y relevantes que esperaría que los usuarios prueben la calidad de las respuestas. Con los simuladores adecuados para el contexto, puede evaluar métricas como la base, la relevancia, la coherencia y la fluidez de las respuestas generadas.
    • AI Red Teaming Agent (versión preliminar) simula ataques complejos de amenaza contra su sistema de inteligencia artificial utilizando una amplia gama de ataques de seguridad y protección mediante el marco abierto de Microsoft para la Herramienta de Identificación de Riesgos de Python o PyRIT. Los exámenes automatizados mediante el agente de formación de equipos rojos de IA mejoran la evaluación de riesgos de preproducción mediante la prueba sistemática de aplicaciones de inteligencia artificial para detectar riesgos. Este proceso implica escenarios de ataque simulados para identificar puntos débiles en las respuestas del modelo antes de la implementación real. Al ejecutar exámenes de formación de equipo rojo de IA, puede detectar y mitigar posibles problemas de seguridad antes de la implementación. Se recomienda usar esta herramienta con procesos humanos en bucle, como el sondeo convencional de formación de equipos rojos de IA para ayudar a acelerar la identificación de riesgos y ayudar a la evaluación por parte de un experto humano.

Como alternativa, también puede usar el widget de evaluación del portal de Azure AI Foundry para probar las aplicaciones de IA generativas.

Una vez que se logran resultados satisfactorios, la aplicación de inteligencia artificial se puede implementar en producción.

Supervisión posterior a la producción

Después de la implementación, la supervisión continua garantiza que la aplicación de IA mantenga la calidad en condiciones reales:

  • Seguimiento del rendimiento: medición regular de las métricas clave.
  • Respuesta a incidentes: acción rápida cuando ocurren salidas perjudiciales o inapropiadas.

La supervisión eficaz ayuda a mantener la confianza del usuario y permite una resolución rápida de problemas.

La observabilidad de Azure AI Foundry proporciona funcionalidades de supervisión completas esenciales para el panorama de inteligencia artificial complejo y en constante evolución actual. Integrada sin problemas con Application Insights de Azure Monitor, esta solución permite la supervisión continua de las aplicaciones de inteligencia artificial implementadas para garantizar un rendimiento, seguridad y calidad óptimos en entornos de producción. El panel de observabilidad de Foundry ofrece información en tiempo real sobre métricas críticas, lo que permite a los equipos identificar y solucionar rápidamente problemas de rendimiento, problemas de seguridad o degradación de la calidad. En el caso de las aplicaciones basadas en agentes, Foundry ofrece funcionalidades de evaluación continua mejoradas que se pueden habilitar para proporcionar una visibilidad más profunda de las métricas de calidad y seguridad, creando un ecosistema de supervisión sólido que se adapta a la naturaleza dinámica de las aplicaciones de inteligencia artificial, a la vez que mantiene altos estándares de rendimiento y confiabilidad.

Al supervisar continuamente el comportamiento de la aplicación de inteligencia artificial en producción, puede mantener experiencias de usuario de alta calidad y solucionar rápidamente los problemas que se produzcan.

Creación de confianza a través de la evaluación sistemática

GenAIOps establece un proceso confiable para administrar aplicaciones de inteligencia artificial a lo largo de su ciclo de vida. Al implementar una evaluación exhaustiva en cada fase, desde la selección de modelos a través de la implementación y versiones posteriores, los equipos pueden crear soluciones de inteligencia artificial que no sean solo eficaces, sino confiables y seguras.

Guía rápida de evaluación

Propósito Proceso Parámetros
¿Para qué está evaluando? Identificación o compilación de evaluadores pertinentes - Cuaderno de ejemplo de calidad y rendimiento

- Calidad de respuesta de agentes

- Seguridad y seguridad (cuaderno de ejemplo seguridad y seguridad)

- Personalizado (bloc de notas de ejemplo personalizado)
¿Qué datos debe usar? Cargar o generar un conjunto de datos pertinente Simulador genérico para medir la calidad y el rendimiento (cuaderno de ejemplo de simulador genérico)

- Simulador adversario para medir la seguridad y la protección (cuaderno de ejemplo del simulador adversario)

Agente formación de equipo rojo de IA para ejecutar exámenes automatizados para evaluar las vulnerabilidades de seguridad y protección (cuaderno de ejemplo del agente formación de equipo rojo de IA)
¿Qué recursos deben llevar a cabo la evaluación? Ejecución de la evaluación - Ejecución local

- Ejecución remota en la nube
¿Cómo ha funcionado mi modelo o aplicación? Analizar resultados Ver puntuaciones de agregado, ver detalles, detalles de puntuación, comparar ejecuciones de evaluación
¿Cómo puedo mejorar? Realizar cambios en los modelos, aplicaciones o evaluadores - Si los resultados de la evaluación no se alinean con los comentarios humanos, ajuste el evaluador.

- Si los resultados de la evaluación se alinean con los comentarios humanos, pero no cumplen los umbrales de calidad y seguridad, aplique mitigaciones dirigidas. Ejemplo de mitigaciones que se aplicarán: Seguridad del contenido de Azure AI

Soporte para regiones

Actualmente, algunos evaluadores asistidos por IA solo están disponibles en las siguientes regiones:

Región Odio e injusticia, Sexual, Violento, Autolesiones, Ataque indirecto, Vulnerabilidades de código, Atributos infundados Base Pro Material protegido
Este de EE. UU. 2 Compatible Compatible Compatible
Centro de Suecia Compatible Compatible No disponible
Centro-norte de EE. UU. Compatible No disponible No disponible
Centro de Francia Compatible No disponible No disponible
Oeste de Suiza Compatible No disponible No disponible

Precios

Las características de observabilidad, como las evaluaciones de riesgos y seguridad y las evaluaciones continuas, se facturan en función del consumo, tal como se muestra en nuestra página de precios de Azure. Seleccione la pestaña con la etiqueta Complete AI Toolchain para ver los detalles de los precios de las evaluaciones.