Compartir a través de


Operaciones de inteligencia artificial generativa para organizaciones con inversiones en MLOps

En este artículo se proporcionan instrucciones para los equipos de cargas de trabajo que tienen inversiones existentes en operaciones de aprendizaje automático (MLOps) y que desean ampliar esas inversiones para incluir patrones y tecnología de inteligencia artificial generativa en su carga de trabajo. Para operacionalizar las características del flujo de trabajo de IA generativa, debe ampliar sus inversiones en MLOps con operaciones de inteligencia artificial generativa (GenAIOps), a veces conocidas como LLMOps. En este artículo se describen los patrones técnicos que son comunes tanto para las cargas de trabajo tradicionales de aprendizaje automático como para las cargas de trabajo de IA generativas, y patrones únicos para la inteligencia artificial generativa. Comprenda dónde puede aplicar las inversiones existentes en la operacionalización y dónde necesita ampliar esas inversiones.

La planeación e implementación de MLOps y GenAIOps forman parte de un área de diseño principal en las cargas de trabajo de inteligencia artificial en Azure. Para más información sobre por qué estas cargas de trabajo necesitan operaciones especializadas, consulte MLOps y GenAIOps para cargas de trabajo de IA en Azure.

Patrones técnicos de IA generativa

Las cargas de trabajo de IA generativa difieren de las cargas de trabajo de aprendizaje automático tradicionales de varias maneras:

  • Céntrese en modelos generativos. Las cargas de trabajo de aprendizaje automático tradicionales se centran en entrenar nuevos modelos para tareas específicas. Las cargas de trabajo de IA generativas consumen y, a veces, ajustan los modelos generativos que pueden abordar una gama más amplia de casos de uso. Algunos de estos modelos son multimodales.

  • Céntrese en ampliar los modelos. El recurso clave en el aprendizaje automático tradicional es el modelo entrenado e implementado. El acceso al modelo se proporciona al código de cliente en una o varias cargas de trabajo, pero la carga de trabajo normalmente no forma parte del proceso de MLOps. Con las soluciones de inteligencia artificial generativa, un aspecto clave de la solución es la solicitud proporcionada al modelo generativo. La solicitud debe estar compuesta de instrucciones y, a menudo, contiene datos de contexto de uno o varios almacenes de datos. El sistema que organiza la lógica, las llamadas a los distintos back-ends o agentes, genera el mensaje y las llamadas al modelo generativo forman parte del sistema de IA generativo que se rige con GenAIOps.

Algunas soluciones de inteligencia artificial generativa usan prácticas tradicionales de aprendizaje automático, como el entrenamiento del modelo y el ajuste preciso. Sin embargo, estas soluciones presentan nuevos patrones que debe estandarizar. Hay tres categorías generales de patrones técnicos para soluciones de IA generativas:

  • Entrenamiento previo y ajuste preciso
  • Ingeniería de avisos
  • Generación aumentada de recuperación (RAG)

Entrenamiento y ajuste de modelos de lenguaje

Muchas soluciones de IA generativa usan modelos de lenguaje de base existentes que no requieren ajuste adecuado antes de usarlo. Sin embargo, algunos casos de uso pueden beneficiarse de ajustar un modelo de base o entrenar un nuevo modelo de IA generativa, como un modelo de lenguaje pequeño (SLM).

El entrenamiento de un nuevo SLM y la optimización de un modelo de base generativa siguen los mismos procesos lógicos que el entrenamiento de modelos de aprendizaje automático tradicionales. Estos procesos deben usar las inversiones existentes en MLOps.

Ingeniería de avisos

La ingeniería de avisos incluye todos los procesos incluidos en el diseño de un aviso efectivo que se envía como entrada a un modelo generativo. Por lo general, hay un orquestador que controla un flujo de trabajo que genera el mensaje. El orquestador puede llamar a varios almacenes de datos directamente o indirectamente a través de agentes para recopilar información, incluidos los datos de puesta a tierra. A continuación, aplica la lógica necesaria para generar el aviso más eficaz. A continuación, el orquestador se implementa como un punto de conexión de API al que el código de cliente accede en una aplicación inteligente.

En el diagrama siguiente se muestra una arquitectura para la ingeniería de avisos.

Diagrama que muestra una arquitectura para la ingeniería de avisos.

Esta categoría de patrones técnicos puede abordar muchos casos de uso:

  • Clasificación
  • Traducción
  • Resumen
  • TRAPO

TRAPO

RAG es un patrón arquitectónico que usa la ingeniería rápida para incorporar datos específicos del dominio como datos de base para un modelo de lenguaje. El modelo de lenguaje se entrena con un conjunto específico de datos. La carga de trabajo puede requerir razonar sobre los datos específicos de su empresa, clientes o dominio. En las soluciones RAG, los datos se consultan y los resultados más relevantes se proporcionan al modelo de lenguaje como parte del mensaje, normalmente a través de una capa de orquestación.

Una implementación típica de RAG consiste en dividir los datos de origen en fragmentos y almacenarlos en un almacén vectorial junto con los metadatos. Los almacenes de vectores, como Búsqueda de Azure AI, permiten realizar búsquedas de similitud textual y vectorial para devolver resultados contextualmente relevantes. Las soluciones de RAG también pueden usar otros almacenes de datos para devolver datos de base.

En el diagrama siguiente se muestra una arquitectura RAG que incluye datos de documentos.

Diagrama que muestra una arquitectura de RAG.

Extender MLOps para patrones técnicos de IA generativa

El proceso de MLOps aborda los procesos de bucle interno y de bucle externo. Los patrones técnicos de la IA generativa también tienen muchas de las mismas actividades. En algunos casos, usted aplica sus inversiones existentes de MLOps. En otros casos, necesitas ampliarlos:

DataOps

Tanto MLOps como GenAIOps aplican los aspectos básicos de las operaciones de datos (DataOps) para crear flujos de trabajo extensibles y reproducibles. Estos flujos de trabajo garantizan que los datos estén limpios, transformados y formateados correctamente para la experimentación y la evaluación. La reproducibilidad del flujo de trabajo y el control de versiones de datos son características importantes de DataOps para todos los patrones técnicos. Los orígenes, los tipos y la intención de los datos dependen del patrón.

Entrenamiento previo y ajuste

Este patrón técnico debería aprovechar al máximo las inversiones en DataOps que ya existen gracias a tu implementación de MLOps. La reproducibilidad y el control de versiones de datos le permiten experimentar con diferentes datos de ingeniería de características, comparar el rendimiento de los diferentes modelos y reproducir los resultados.

RAG e ingeniería rápida

La intención de los datos de las soluciones RAG es proporcionar datos de base (o contexto) que se presentan al modelo de lenguaje como parte de un mensaje. Las soluciones RAG suelen requerir el procesamiento de documentos o conjuntos de datos grandes en una colección de fragmentos de tamaño correcto, semánticamente relevantes y conservar esos fragmentos en un almacén de vectores. Para obtener más información, consulte Diseño y desarrollo de una solución RAG. La reproducibilidad y el control de versiones de datos para las soluciones de RAG le permiten experimentar con diferentes estrategias de fragmentación e inserción, comparar el rendimiento y revertir a versiones anteriores.

Las canalizaciones de datos para la fragmentación de documentos no forman parte de DataOps en los MLOps tradicionales, por lo que tiene que ampliar su arquitectura y operaciones. Las canalizaciones de datos pueden leer datos de varios orígenes dispares, que incluyen datos estructurados y no estructurados. También pueden escribir los datos transformados a distintos destinos. Debe extender las canalizaciones para incluir los almacenes de datos que se usan para poner en tierra los datos. Los almacenes de datos típicos para estos patrones son almacenes de vectores, como la búsqueda de IA.

Al igual que el entrenamiento y la optimización, las canalizaciones de Azure Machine Learning u otras herramientas de canalización de datos se pueden usar para orquestar las fases de fragmentación.

Mantenimiento del índice de búsqueda

También debe ampliar las operaciones para mantener la actualización y validez de los índices de búsqueda en los almacenes de datos. Es posible que tenga que volver a generar periódicamente estos índices si no puede agregar, quitar o actualizar datos incrementalmente en su lugar. Las actualizaciones de índices deben cumplir los requisitos empresariales de actualización de datos, los requisitos no funcionales, como el rendimiento y la disponibilidad, y los requisitos de cumplimiento, como el derecho a olvidar las solicitudes. Debe ampliar el proceso de MLOps existente para tener en cuenta el mantenimiento y la actualización de índices de búsqueda para garantizar la precisión, el cumplimiento y el rendimiento óptimo.

Experimentación

La experimentación, una parte del bucle interno, es el proceso iterativo de crear, evaluar y refinar su solución. En las secciones siguientes se describe la experimentación para los típicos patrones técnicos de IA generativa.

Entrenamiento previo y ajuste

Al ajustar un modelo de lenguaje existente o entrenar un SLM, puede aprovechar las inversiones actuales de MLOps. Por ejemplo, los flujos de trabajo de aprendizaje automático proporcionan un kit de herramientas para realizar experimentos de forma eficaz y efectivamente. Estas canalizaciones permiten administrar todo el proceso de ajuste, desde el preprocesamiento de datos hasta el entrenamiento y la evaluación del modelo.

RAG e ingeniería rápida

La experimentación con cargas de trabajo de ingeniería rápida y RAG requiere que amplíe sus inversiones en MLOps. Para estos patrones técnicos, la carga de trabajo no termina con el modelo. La carga de trabajo requiere un orquestador, que es un sistema que puede ejecutar lógica, llamar a almacenes de datos o agentes para obtener información necesaria, como datos en tierra, generar mensajes y llamar a modelos de lenguaje. Los almacenes de datos y los índices de los almacenes también forman parte de la carga de trabajo. Debe ampliar sus operaciones para controlar estos aspectos de la carga de trabajo.

Puede experimentar en varias dimensiones para soluciones de ingeniería rápidas, incluidas diferentes instrucciones, roles, ejemplos, restricciones y técnicas avanzadas, como el encadenamiento de mensajes. Al experimentar con soluciones RAG, también puede experimentar con otras áreas:

  • Estrategias de segmentación
  • Métodos para enriquecer fragmentos
  • Selección del modelo de incrustación
  • Configuración del índice de búsqueda
  • Tipos de búsquedas que se van a realizar, como vector, texto completo e híbrido

Como se describe en DataOps, la reproducibilidad y el control de versiones de datos son clave para la experimentación. Un buen marco de experimentación permite almacenar entradas, como cambios en hiperparámetros o solicitudes, junto con salidas que se usarán al evaluar el experimento.

Al igual que en el entorno de MLOps existente, puede aprovechar los marcos, como las canalizaciones de Machine Learning. Las canalizaciones de Machine Learning tienen características que admiten la indexación mediante la integración con almacenes vectoriales como AI Search. El entorno de GenAIOps puede aprovechar estas características de canalizaciones y combinarlas con características de flujo de avisos que administran la ingeniería de solicitudes y la lógica de preprocesamiento personalizada.

Evaluación y experimentación

La evaluación es clave en el proceso de experimentación iterativa de creación, evaluación y ajuste de la solución. La evaluación de los cambios le proporciona los comentarios necesarios para realizar sus ajustes o validar que la iteración actual cumple sus requisitos. En las secciones siguientes se describe la evaluación en la fase de experimentación para los patrones técnicos típicos de ia generativa.

Entrenamiento previo y ajuste

Para la evaluación de modelos generativos de IA optimizados o entrenados, deberías aprovechar tus inversiones existentes en MLOps. Por ejemplo, si utiliza canalizaciones de aprendizaje automático para orquestar el entrenamiento de su modelo de aprendizaje automático, puede usar las mismas características de evaluación para ajustar los modelos de lenguaje fundamentales o entrenar nuevos MLF. Estas características incluyen el componente de evaluar modelo, que calcula métricas de evaluación estándar del sector para tipos de modelo específicos y compara resultados entre modelos. Si su carga de trabajo utiliza Azure AI Foundry, podría considerar ampliar el proceso de MLOps para incluir sus capacidades de evaluación que se encuentran en el SDK de evaluación.

RAG e ingeniería rápida

Debe ampliar las inversiones existentes de MLOps para evaluar las soluciones de IA generativas. Puede usar herramientas como Prompt Flow, que ofrece un marco para la evaluación. El flujo de mensajes permite a los equipos definir la lógica de evaluación personalizada especificando criterios y métricas para evaluar el rendimiento de varias variantes de aviso y modelos de lenguaje grandes (LLM). Este enfoque estructurado permite la comparación en paralelo de diferentes configuraciones, como variaciones de hiperparámetros o de arquitectura, para identificar la configuración óptima para tareas específicas.

Los trabajos en el flujo de indicaciones capturan automáticamente los datos de entrada y salida durante todo el proceso de experimentación para crear un registro completo. El análisis de estos datos le permitirá obtener información e identificar configuraciones prometedoras para futuras iteraciones. Puede acelerar el desarrollo de sus soluciones de IA generativa usando flujos de avisos para llevar a cabo una experimentación eficiente y sistemática.

El proceso de experimentación sigue siendo coherente, independientemente del caso de uso de la solución de inteligencia artificial generativa. Estos casos de uso incluyen clasificación, resumen, traducción y RAG. La diferencia importante radica en las métricas que se usan para evaluar los distintos casos de uso. Tenga en cuenta las métricas siguientes en función del caso de uso:

  • Traducción: BLEU
  • Resumen: ROUGE, BLEU, BERTScore, METEOR
  • Clasificación: Precisión, Recuperación, Exactitud, Entropía cruzada
  • RAG: Solidez, Relevancia

Nota:

Para obtener más información sobre cómo evaluar modelos de lenguaje y soluciones RAG, consulte Evaluación de un extremo a otro de LLM.

Por lo general, las soluciones de inteligencia artificial generativa amplían las responsabilidades del equipo de aprendizaje automático desde el entrenamiento de modelos hasta la ingeniería de prompts y el manejo de datos de referencia. Dado que la ingeniería de solicitudes y la experimentación y evaluación de RAG no requieren necesariamente científicos de datos, resulta tentador realizar estas funciones con otros roles, como ingenieros de software e ingenieros de datos. Es posible que encuentre desafíos si omite a los científicos de datos del proceso de experimentación con soluciones rápidas de ingeniería y RAG. Otros roles a menudo carecen del entrenamiento especializado necesario para evaluar científicamente los resultados de forma eficaz como científicos de datos. Para obtener más información, consulte Diseño y desarrollo de una solución RAG.

Invertir en soluciones de inteligencia artificial generativa ayuda a aliviar algunas de las cargas de trabajo en los recursos de ciencia de datos. El papel de los ingenieros de software crece en estas soluciones. Por ejemplo, los ingenieros de software son excelentes recursos para administrar la responsabilidad de orquestación en las soluciones de inteligencia artificial generativa y son expertos en la configuración de las métricas de evaluación en herramientas como el flujo de avisos. Es importante que los científicos de datos revisen este trabajo. Tienen el entrenamiento y la experiencia para comprender cómo evaluar correctamente los experimentos.

Implementación

Algunas soluciones de IA generativa incluyen la implementación de modelos entrenados personalizados o el ajuste de modelos existentes. En el caso de las soluciones de inteligencia artificial generativa, debe incluir las tareas adicionales de desplegar los orquestadores y cualquier sistema de almacenamiento de datos. En las secciones siguientes se describe la implementación de patrones técnicos típicos de ia generativa.

Entrenamiento previo y ajuste

Debe usar las inversiones existentes en MLOps, con algunos ajustes posibles, para implementar modelos de IA generativos y ajustar los modelos de base. Por ejemplo, para ajustar un LLM en el servicio Azure OpenAI, debe asegurarse de que los conjuntos de datos de entrenamiento y validación están en formato JSONL y debe cargar los datos a través de una API REST. También debe crear un trabajo de ajuste preciso. Para implementar una SLM entrenada, puede aprovechar las inversiones existentes en MLOps.

RAG e ingeniería rápida

En el caso de RAG y la ingeniería de prompts, otras consideraciones incluyen la lógica de orquestación, las modificaciones en los almacenes de datos, como los índices y los esquemas, y los ajustes en la lógica de canalización de datos. La lógica de orquestación normalmente se encapsula en marcos como el flujo de avisos, el kernel semántico o LangChain. Puede implementar el orquestador en distintos recursos de proceso, incluidos esos recursos en los que actualmente puede implementar modelos personalizados. Para más información sobre cómo implementar el flujo de mensajes en puntos de conexión en línea que Administra Machine Learning o en Azure App Service, consulte Arquitectura de referencia de chat de AI Foundry de línea de base. Para implementar en App Service, la arquitectura de chat de Azure OpenAI empaqueta el flujo y sus dependencias como contenedor. Esta práctica aumenta la portabilidad y la coherencia en distintos entornos.

Las implementaciones de cambios en los recursos de base de datos, como los cambios en los modelos de datos o los índices, son nuevas tareas que deben controlarse en GenAIOps. Una práctica habitual al trabajar con LLM es usar una puerta de enlace delante de LLM.

Muchas arquitecturas de IA generativa que consumen modelos de lenguaje hospedados en la plataforma, como los que se sirven desde Azure OpenAI, incluyen una puerta de enlace como Azure API Management. Los casos de uso de la puerta de enlace incluyen equilibrio de carga, autenticación y supervisión. La puerta de enlace puede desempeñar un papel en la implementación de modelos recién entrenados o optimizados, lo que le permite implementar progresivamente nuevos modelos. El uso de una puerta de enlace, junto con el control de versiones del modelo, le permite minimizar el riesgo al implementar cambios y revertir a versiones anteriores cuando se producen problemas.

Las implementaciones de elementos específicos de la inteligencia artificial generativa, como el orquestador, deben seguir los procedimientos operativos adecuados:

  • Pruebas rigurosas, incluidas las pruebas unitarias
  • Pruebas de integración
  • Pruebas A/B
  • Pruebas de extremo a extremo
  • Estrategias de despliegue, como despliegues canarios o azul-verde

Dado que las responsabilidades de implementación de aplicaciones de IA generativas se extienden más allá de la implementación del modelo, es posible que necesite roles de trabajo adicionales para administrar la implementación y la supervisión de componentes como la interfaz de usuario, el orquestador y los almacenes de datos. Estos roles a menudo se alinean con los conjuntos de aptitudes de ingeniero de DevOps.

Inferencia y supervisión

La inferencia es el proceso de pasar la entrada a un modelo entrenado e implementado, que luego genera una respuesta. Debe supervisar tanto el aprendizaje automático tradicional como las soluciones de inteligencia artificial generativa desde las perspectivas de la supervisión operativa, el aprendizaje desde la producción y la administración de recursos.

Supervisión operativa

La supervisión operativa es el proceso de observar las operaciones en curso del sistema, incluidos DataOps y el entrenamiento del modelo. Este tipo de supervisión busca desviaciones, incluidos los errores, los cambios en las tasas de error y los cambios en los tiempos de procesamiento.

En el caso del entrenamiento del modelo y la optimización, generalmente observará DataOps para procesar datos de características, entrenamiento del modelo y ajuste preciso. La supervisión de estos procesos de bucle interno debe aprovechar las ventajas de las inversiones existentes en MLOps y DataOps.

Para la ingeniería rápida en soluciones de IA generativa, tiene problemas de supervisión adicionales. Debe supervisar los flujos de datos que procesan los datos de base u otros datos que se utilizan para generar indicaciones. Este procesamiento puede incluir operaciones de almacén de datos, como compilar o volver a generar índices.

En un sistema multiagente, debe supervisar la disponibilidad, las características de rendimiento y la calidad de respuesta y la coherencia de los agentes con los que interactúa el orquestador.

Aprender de la producción

Un aspecto fundamental de la supervisión durante la fase de inferencia es aprender a partir de la producción. La supervisión de modelos de aprendizaje automático tradicional realiza un seguimiento de métricas, como la exactitud, la precisión y la recuperación. Un objetivo clave es evitar el desfase de predicción. Las soluciones que utilizan modelos generativos para hacer predicciones, como un modelo GPT para clasificación, deben aprovechar las inversiones existentes en supervisión de MLOps.

Las soluciones que usan modelos generativos para razonar sobre la base de datos usan métricas como la base, la integridad, el uso y la relevancia. El objetivo es asegurarse de que el modelo responde completamente a la consulta y basa la respuesta en su contexto. En esta solución, debe intentar evitar problemas como el desfase de datos. Quiere asegurarse de que los datos de puesta a tierra y la solicitud que proporcione al modelo son lo máximo relevantes para la consulta del usuario.

Las soluciones que usan modelos generativos para tareas no predictivas, como las soluciones de RAG, a menudo se benefician de los comentarios de personas para evaluar opiniones de utilidad de los usuarios finales. Las interfaces de usuario pueden capturar comentarios como pulgares hacia arriba o hacia abajo. Puede usar estos datos para evaluar periódicamente las respuestas.

Un patrón típico para las soluciones de inteligencia artificial generativa es implementar una puerta de enlace delante de los modelos generativos. Uno de los casos de uso de la puerta de enlace es supervisar los modelos de base. Puede usar la puerta de enlace para registrar mensajes de entrada y salida del modelo.

Otro área clave para supervisar las soluciones generativas es la seguridad del contenido. El objetivo es moderar las respuestas y detectar contenido dañino o no deseado. Microsoft Azure AI Content Safety Studio es una herramienta que puede usar para moderar el contenido.

Administración de recursos

Las soluciones generativas que usan modelos expuestos como servicio, como Azure OpenAI, tienen cuestiones de administración de recursos diferentes a las de los modelos que implementa usted mismo. En el caso de los modelos que se exponen como servicio, la administración de infraestructuras no es un problema. En su lugar, el enfoque se centra en el rendimiento del servicio, la cuota y la limitación. Azure OpenAI usa tokens para facturación, limitación y cuotas. Debe supervisar el uso de cuotas para la administración de los costes y la eficiencia del rendimiento. Azure OpenAI también proporciona funcionalidades de registro para realizar un seguimiento del uso de tokens.

Utillaje

Muchos profesionales de MLOps usan un kit de herramientas estandarizado para organizar actividades como automatización, seguimiento, implementación y experimentación. Este enfoque abstrae los problemas comunes y los detalles de implementación, lo que hace que estos procesos sean más eficientes y fáciles de administrar. Una plataforma unificada popular es MLflow. Antes de buscar nuevas herramientas para admitir patrones de GenAIOps, revise las herramientas de MLOps existentes para evaluar su compatibilidad con la inteligencia artificial generativa. Por ejemplo, MLflow admite una amplia gama de características para los modelos de lenguaje.

También puede explorar las ventajas y desventajas de introducir nuevas herramientas en tu flujo de trabajo. Por ejemplo, el SDK de evaluación de Azure AI para Python podría ser una opción factible porque tiene compatibilidad nativa en el portal de Azure AI Foundry.

Modelos de madurez de MLOps y GenAIOps

Es posible que haya usado el modelo de madurez de MLOps para evaluar la madurez de su entorno y MLOps actual. A medida que amplía las inversiones en MLOps para cargas de trabajo de IA generativa, debe usar el modelo de madurez de GenAIOps para evaluar esas operaciones. Es posible que quiera combinar los dos modelos de madurez, pero se recomienda medir cada modelo de forma independiente porque MLOps y GenAIOps evolucionan por separado. Por ejemplo, puede estar en el nivel cuatro del modelo de madurez de MLOps, pero solo en el nivel uno del modelo de madurez de GenAIOps.

Use la evaluación del modelo de madurez de GenAIOps. Esta evaluación le ayuda a comprender cómo progresan las inversiones en GenAIOps.

Resumen

A medida que empiece a ampliar las inversiones en MLOps para incluir inteligencia artificial generativa, es importante comprender que no es necesario empezar de nuevo. Usted puede usar las inversiones existentes de MLOps para varios de los patrones técnicos de inteligencia artificial generativa. El ajuste de modelos generativos es un buen ejemplo. Algunos procesos de soluciones de IA generativas, como la ingeniería rápida y RAG, son nuevos. Dado que no forman parte de los flujos de trabajo de inteligencia artificial tradicionales, debe ampliar las inversiones de operaciones existentes y obtener nuevas aptitudes para usarlas de forma eficaz.

Colaboradores

Microsoft mantiene este artículo. Los colaboradores siguientes escribieron este artículo.

Para ver los perfiles no públicos de LinkedIn, inicie sesión en LinkedIn.

Pasos siguientes