Voice Live API para agentes de voz en tiempo real (versión preliminar)

2025-06-27

Nota:

Esta característica actualmente está en su versión preliminar pública. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios para las versiones preliminares de Microsoft Azure.

¿Qué es Voice Live API?

Voice Live API es una solución que permite interacciones de voz de baja latencia y alta calidad para agentes de voz. La API está diseñada para desarrolladores que buscan experiencias escalables y eficientes controladas por voz, ya que elimina la necesidad de orquestar manualmente varios componentes. Mediante la integración del reconocimiento de voz, la inteligencia artificial generativa y las funcionalidades de texto a voz en una única interfaz unificada, proporciona una solución integral para crear experiencias sin problemas.

Descripción de las experiencias de voz a voz

La tecnología de voz a voz está revolucionando la forma en que los seres humanos interactúan con sistemas, ofreciendo soluciones intuitivas basadas en voz. Implementaciones tradicionales implicadas en la combinación de módulos dispares, como voz en texto, reconocimiento de intenciones, administración de cuadros de diálogo, texto a voz, etc. Este encadenamiento puede provocar un aumento de la complejidad de la ingeniería y la latencia percibida por el usuario final.

Con los avances en los modelos de lenguaje grande (LLM) y la inteligencia artificial multifuncional, Voice Live API consolida estas funcionalidades, lo que simplifica los flujos de trabajo para los desarrolladores. Este enfoque mejora las interacciones en tiempo real y garantiza una comunicación natural de alta calidad, lo que hace que sea adecuado para los sectores que requieren soluciones instantáneas habilitadas para voz.

Escenarios clave de Voice Live API

Azure AI Voice Live API es ideal para escenarios en los que las interacciones controladas por voz mejoran la experiencia del usuario. Algunos ejemplos son:

Centros de contacto: desarrolle bots de voz interactivos para el soporte técnico al cliente, navegación por el catálogo de productos y soluciones de autoservicio.
Asistentes de automoción: Permiten asistentes por voz de manos libres en el coche para ejecutar comandos, navegar y resolver consultas generales.
Educación: Cree compañeros de aprendizaje habilitados para voz y tutores virtuales para formación interactiva y educación.
Servicios públicos: cree agentes de voz para ayudar a los ciudadanos con consultas administrativas e información de servicio público.
Recursos humanos: mejore los procesos de RR. HH. con herramientas habilitadas para voz para el soporte técnico de los empleados, el desarrollo profesional y la formación.

Características de Voice Live API

Voice Live API incluye un conjunto completo de características para admitir diversos casos de uso y garantizar interacciones de voz superiores:

Amplia cobertura regional: admite más de 15 configuraciones regionales para la conversión de voz en texto y ofrece más de 600 voces estándar en más de 140 configuraciones regionales para texto a voz, lo que garantiza la accesibilidad global.
Entrada y salida personalizables: use la lista de frases para la personalización Just-In-Time ligera en la entrada de audio. Use voz personalizada para crear voces únicas y alineadas con la marca para la salida de audio.
Opciones flexibles del modelo de IA generativa: elija entre varios modelos, incluidos GPT-4o, GPT-4o-mini y Phi, adaptados a los requisitos conversacionales.
Características de conversación avanzadas:
- Supresión de ruido: reduce el ruido ambiental para una comunicación más clara.
- Cancelación de eco: impide que el agente recoja sus propias respuestas.
- Detección sólida de interrupciones: garantiza un reconocimiento preciso de las interrupciones durante las conversaciones.
- Detección avanzada de fin de turno: permite pausas naturales sin interacciones finales prematuras.
Integración de avatares: proporciona avatares estándar o personalizables sincronizados con la salida de audio, ofreciendo una identidad visual para los agentes de voz.
Función de llamada: habilita acciones externas, el uso de herramientas, y respuestas fundamentadas mediante el patrón VoiceRAG.

Cómo funciona

Voice Live API está totalmente administrado, lo que elimina la necesidad de que los clientes controlen la orquestación de back-end y la integración de componentes. Los desarrolladores proporcionan entrada de audio y reciben salidas de audio, objetos visuales de avatar y desencadenadores de acción, todo ello con una latencia mínima. No es necesario implementar ni administrar ningún modelo de IA generativo, ya que la API controla toda la infraestructura subyacente.

Compatibilidad y diseño de API

Azure AI Voice Live API está diseñado para la compatibilidad con la API de Azure OpenAI Realtime. Los eventos en tiempo real admitidos se encuentran principalmente en paridad con los eventos de la API en tiempo real de Azure OpenAI, con algunas excepciones. Consulte la guía de Voice Live API para obtener más detalles.

Las características exclusivas de Voice Live API están diseñadas para ser opcionales y aditivos. Puede agregar capacidades de Voz de Azure AI, como la supresión de ruido, la cancelación de eco y la detección avanzada de final de turno a sus aplicaciones existentes sin necesidad de cambiar su arquitectura existente.

La API se admite a través de eventos de WebSocket, lo que permite una integración sencilla de servidor a servidor. El servicio back-end o de nivel intermedio se conecta a Voice Live API a través de WebSockets. Puede usar los mensajes de WebSocket directamente para interactuar con la API.

Regiones y SO admitidos

Para impulsar la inteligencia del agente de voz, tiene flexibilidad y elección en el modelo de IA generativa entre GPT-4o, GPT-4o-mini y Phi. Los diferentes modelos de IA generativa proporcionan diferentes tipos de funcionalidades, niveles de inteligencia, velocidad/latencia de inferencia y costo. Dependiendo de lo que más importa para su negocio y caso de uso, puede elegir el modelo que mejor se adapte a sus necesidades.

Todos los modelos compatibles de forma nativa (GPT-4o, GPT-4o-mini y Phi) están totalmente administrados, lo que significa que no tiene que implementar modelos, preocuparse por el planeamiento de la capacidad o por los rendimientos de aprovisionamiento. Simplemente puede usar el modelo que necesita y Voice Live API se encarga del resto.

Voice Live API admite los siguientes modelos y regiones:

Modelo	Descripción	Regiones soportadas
`gpt-4o-realtime-preview`	GPT-4o en tiempo real + opción para usar texto de Azure para voces de voz, incluida la voz personalizada para audio.	`eastus2` `swedencentral`
`gpt-4o-mini-realtime-preview`	GPT-4o mini realtime + opción para usar texto de Azure para voces de voz, incluida la voz personalizada para audio.	`eastus2` `swedencentral`
`gpt-4o`	GPT-4o + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto de Azure a voz, incluida la voz personalizada.	`eastus2` `swedencentral`
`gpt-4o-mini`	GPT-4o mini + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto a voz de Azure, incluida la voz personalizada.	`eastus2` `swedencentral`
`phi4-mm-realtime`	Phi4-mm + salida de audio a través de voces de texto de Azure a voz, incluida la voz personalizada.	`eastus2` `swedencentral`
`phi4-mini`	Phi4-mm + entrada de audio mediante la conversión de voz a texto de Azure y salida de audio a través de la conversión de texto a voz de Azure, incluidas voces personalizadas.	`eastus2` `swedencentral`

Comparación de Voice Live API con otras soluciones de voz a voz

Voice Live API es una alternativa a la orquestación de varios componentes, como el reconocimiento de voz, la inteligencia artificial generativa y el texto a voz. Esta orquestación puede ser compleja y lenta, lo que requiere un esfuerzo de ingeniería significativo para integrar y mantener. Voice Live API simplifica este proceso proporcionando una única interfaz para todos estos componentes, lo que permite a los desarrolladores centrarse en compilar sus aplicaciones en lugar de administrar la infraestructura subyacente.

Para cumplir sus requisitos, puede crear su propia solución o usar Voice Live API. En la tabla siguiente se comparan los dos enfoques:

Requisito de la aplicación	Por cuenta propia	API de Voz en Vivo
Amplia cobertura regional con alta precisión (entrada de audio)	✅	✅
Mantener la personalidad de la marca y el carácter (salida de audio)	✅	✅
Mejoras conversacionales	❌	✅
Elección de modelos de IA generativas	✅	✅
Salida visual con avatar de texto a voz	✅	✅
Bajo costo de ingeniería	❌	✅
Baja latencia percibida por el usuario final	❌	✅

Más información sobre cómo usar Voice Live API
Prueba del inicio rápido de Voice Live API
Consulte la referencia de la API en tiempo real de Azure OpenAI.