Aprovechar la pila de Copilot para acelerar la compilación de inteligencia artificial
¿Qué es un agente personalizado?
Los agentes de motor personalizados son agentes copilot programables que proporcionan a los desarrolladores control total sobre la orquestación, los modelos de inteligencia artificial y las integraciones de datos diseñadas para aprovechar las eficaces capacidades de los modelos de lenguaje grande (LLM) para una interacción perfecta del usuario. Estos agentes avanzados marcan una desviación significativa de los bots tradicionales, ofreciendo una amplia gama de características que elevan la experiencia general del usuario. Los agentes de motor personalizados usan la tecnología LLM en su núcleo que les permite comprender y responder fácilmente a las consultas del usuario, creando interacciones dinámicas e inmersivas. Los agentes de motor personalizados también ofrecen funcionalidades avanzadas, como la manipulación de la interfaz de usuario, la ejecución de tareas y la creación de contenido, lo que los convierte en herramientas indispensables para agilizar los flujos de trabajo y aumentar la productividad. Para los desarrolladores, los agentes de motor personalizados proporcionan flexibilidad en la selección y orquestación de modelos, lo que le permite aprovechar las aptitudes existentes de desarrollo de bots de Teams y garantizar la accesibilidad para todos los usuarios de Microsoft 365. Estos agentes son muy adaptables para su uso en el servicio al cliente, el soporte técnico y la entrega de información, con la capacidad de aprovechar los datos contextuales para mejorar las experiencias del usuario. Se integran perfectamente dentro de Teams, participando en conversaciones naturales con los usuarios a través de chats, canales y reuniones, lo que les permite conocer a los usuarios directamente en el flujo de su trabajo.
Descripción de la pila de Copilot
La pila copilot de Microsoft es la arquitectura de un extremo a otro que sustenta las experiencias de Copilot, desde la infraestructura en la nube y los modelos de inteligencia artificial hasta la lógica de orquestación, las capas de extensibilidad y los sistemas de seguridad. Al crear un agente de inteligencia artificial personalizado con el SDK de agentes de Microsoft 365, aprovecha cada capa de esta pila (a menudo adaptando o intercambiando componentes) para crear un agente adecuado para su escenario empresarial. A continuación, desglosamos los componentes principales de la pila de Copilot y explicamos cómo se relacionan con el desarrollo de agentes personalizados, incluidas las herramientas y rutas de desarrollo (Azure OpenAI, la biblioteca de inteligencia artificial de Teams, Copilot Studio, etc.) que puede usar en cada capa.
ruta de acceso de Pro-Code: Azure OpenAI y la biblioteca de inteligencia artificial de Teams
Para los desarrolladores que crean un copiloto centrado en Teams, esta ruta usa el servicio OpenAI de Azure para hospedar el LLM y la biblioteca de inteligencia artificial de Teams para la orquestación dentro de una aplicación de Teams. Escribe código (por ejemplo, con microsoft 365 Agents Toolkit en VS Code) para llamar al modelo elegido y controlar las intenciones. La biblioteca de inteligencia artificial de Teams proporciona scaffolding conversacional, un planificador de intenciones, memoria e integración de plataformas de Teams, para que el bot pueda interpretar los mensajes del usuario y ejecutar acciones. Este enfoque ofrece flexibilidad para integrar las características de Teams (extensiones de mensajes, tarjetas adaptables, etc.) y proporciona un control específico sobre la lógica, a la vez que se beneficia de las funcionalidades de la pila de Copilot. Componentes clave de la pila de Copilot Para crear un copiloto personalizado, es importante comprender cada capa de la pila de Copilot y su rol. La pila se puede visualizar en tres niveles:
- la infraestructura y los modelos de IA back-end,
- la capa de orquestación de IA que administra el razonamiento y el uso de herramientas
- la experiencia del usuario front-end en la que el agente interactúa con los usuarios.
Los agentes personalizados pueden usar las implementaciones de Microsoft para estas capas o introducir otras personalizadas a través del SDK. A continuación, en la sección siguiente, se muestran las principales capas relevantes para los agentes personalizados:
Infraestructura de inteligencia artificial y modelos básicos (back-end)
En la base de la pila se encuentran los modelos de lenguaje grande (LLM) y la infraestructura en la nube que los hospeda y los datos. Microsoft 365 Copilot usa modelos hospedados de la familia GPT (como GPT-4) que se ejecutan en la infraestructura de supercomputación de inteligencia artificial de Azure. Esto proporciona confiabilidad, seguridad y cumplimiento de nivel empresarial (los datos se cifran en tránsito y en reposo, y no se usan para entrenar los modelos de Microsoft). También significa que los sistemas de filtrado y seguridad de contenido se insertan en el nivel de modelo: el servicio Azure OpenAI comprueba automáticamente las solicitudes y las finalizaciones de un modelo de seguridad de contenido de inteligencia artificial, bloqueando o editando salidas que contienen contenido no permitido. Para un agente personalizado, esta capa implica elegir e implementar el modelo. El uso del servicio OpenAI de Azure es un enfoque común: puede poner en marcha una implementación de GPT-4 o GPT-3.5 (por ejemplo, gpt-35-turbo-16k) en Azure, lo que proporciona un punto de conexión privado y una clave de API para llamar a ese modelo. Con Azure OpenAI también puede habilitar la característica "Azure OpenAI en sus datos", básicamente Recuperación de generación aumentada (RAG), para adjuntar un índice de Cognitive Search o una base de datos vectorial de los documentos para que el modelo pueda basar sus respuestas en esos datos. Como alternativa, el SDK de agentes de Microsoft 365 le permite traer otros hosts de modelo: por ejemplo, puede conectar Fundición de IA de Azure modelos o incluso LLM de código abierto si es necesario, lo que proporciona toda flexibilidad en la capa del modelo básico. En todos los casos, la calidad y el ámbito del agente personalizado dependen de esta capa: puede elegir un modelo con mayor longitud de contexto para documentos largos o un modelo específico de dominio para conocimientos especializados. La infraestructura de Microsoft 365 Copilot y Azure también contribuyen a servicios esenciales aquí, como la autenticación segura (a través de Entra ID/AAD), el registro de cumplimiento y el escalado con hardware de GPU eficaz.
Capa de orquestación y razonamiento
Además del modelo sin procesar, la capa de orquestación de Copilot es lo que convierte un LLM en un agente interactivo que puede realizar tareas de varios pasos y usar herramientas. De fábrica, Microsoft 365 Copilot tiene un orquestador que administra el diálogo: alimenta las indicaciones del sistema del modelo con el contexto de usuario, decide cuándo llamar a complementos externos y recorre en iteración los pasos de planeamiento hasta que genera una respuesta final. En los agentes personalizados, puede confiar en la orquestación de Microsoft o implementar la suya propia. La biblioteca de inteligencia artificial de Teams, por ejemplo, proporciona un motor de orquestación para bots: tiene un planificador integrado que usa el modelo para interpretar la entrada del usuario y asignarla a un controlador de acciones o una función en el código. También mantiene el estado de la conversación y el contexto entre turnos, y simplifica la ingeniería rápida, ya que permite definir instrucciones del sistema y diálogos de ejemplo para el bot. Básicamente, es un controlador listo que se ajusta alrededor del LLM, lo que permite interacciones complejas. Con el SDK de agentes de Microsoft 365 (código pro), tiene más control: puede conectarse al bucle de orquestación a través de los puntos de extensibilidad del SDK o incluso reemplazarlo completamente por una orquestación personalizada. Por ejemplo, los escenarios avanzados pueden usar kernel semántico o un planificador a medida para orquestar un sistema multiagente, donde un agente puede llamar a otro. Los gráficos de arquitectura de Microsoft muestran que el "cerebro" de un agente se puede dividir en componentes como Conocimiento, Aptitudes, Planeamiento/Autonomía y el Orquestador que los une. Al desarrollar un copiloto personalizado, decides cuánto de ese cerebro creas tú mismo. Muchos desarrolladores comienzan con el planificador proporcionado (por ejemplo, la biblioteca de inteligencia artificial de Teams) para obtener el control de intenciones y la función que llaman de fábrica y, a continuación, ampliarlo según sea necesario. Crucialmente, la capa de orquestación también es donde se encuentran los avisos del sistema de Copilot y algunos ejemplos de captura: esto garantiza que el modelo siga las instrucciones (por ejemplo, "usted es un asistente que puede hacer X e Y") y da formato a las respuestas correctamente. La plataforma Microsoft 365 Copilot proporciona solicitudes del sistema predeterminadas (incluidas las directivas de contenido) y el SDK le permite aumentar o modificar estas instrucciones para dar forma al comportamiento del agente.
La ilustración siguiente es una ilustración de la pila de Copilot: