Compartir vía


API dinámica de voz para agentes de voz en tiempo real

¿Qué es voice live API?

Voice Live API es una solución que permite interacciones de voz de baja latencia y alta calidad para agentes de voz. La API está diseñada para desarrolladores que buscan experiencias escalables y eficientes controladas por voz, ya que elimina la necesidad de orquestar manualmente varios componentes. Mediante la integración del reconocimiento de voz, la inteligencia artificial generativa y las funcionalidades de texto a voz en una única interfaz unificada, proporciona una solución integral para crear experiencias sin problemas.

Descripción de las experiencias de voz a voz

La tecnología de voz a voz está revolucionando la forma en que los seres humanos interactúan con sistemas, ofreciendo soluciones intuitivas basadas en voz. Las implementaciones tradicionales implicaban combinar módulos dispares, como voz en texto, administración de cuadros de diálogo, texto a voz, etc. Este encadenamiento puede provocar un aumento de la complejidad de la ingeniería y la latencia percibida por el usuario final.

Con los avances en los modelos de lenguaje grande (LLM) y la inteligencia artificial multifuncional, voice live API consolida estas funcionalidades, lo que simplifica los flujos de trabajo para los desarrolladores. Este enfoque mejora las interacciones en tiempo real y garantiza una comunicación natural de alta calidad, lo que hace que sea adecuado para los sectores que requieren soluciones instantáneas habilitadas para voz.

Escenarios clave para voice live API

Azure AI Voice live API es ideal para escenarios en los que las interacciones controladas por voz mejoran la experiencia del usuario. Algunos ejemplos son:

  • Centros de contacto: desarrolle bots de voz interactivos para el soporte técnico al cliente, navegación por el catálogo de productos y soluciones de autoservicio.
  • Asistentes de automoción: Permiten asistentes por voz de manos libres en el coche para ejecutar comandos, navegar y resolver consultas generales.
  • Educación: Cree compañeros de aprendizaje habilitados para voz y tutores virtuales para formación interactiva y educación.
  • Servicios públicos: cree agentes de voz para ayudar a los ciudadanos con consultas administrativas e información de servicio público.
  • Recursos humanos: mejore los procesos de RR. HH. con herramientas habilitadas para voz para el soporte técnico de los empleados, el desarrollo profesional y la formación.

Características de la API de voz en vivo

Voice live API incluye un conjunto completo de características para admitir diversos casos de uso y garantizar interacciones de voz superiores:

  • Amplia cobertura regional: admite más de 140 configuraciones regionales para la conversión de voz en texto y ofrece más de 600 voces estándar en más de 150 configuraciones regionales para texto a voz, lo que garantiza la accesibilidad global.
  • Entrada y salida personalizables: use la lista de frases para la personalización just-in-time ligera en la entrada de audio o los modelos de voz personalizados para el ajuste avanzado del reconocimiento de voz. Use voz personalizada para crear voces únicas y alineadas con la marca para la salida de audio. Consulte Personalización de la entrada y salida dinámicas de voz para obtener más información.
  • Opciones flexibles del modelo de IA generativa: elija entre varios modelos, incluidos GPT-5, GPT-4.1, GPT-4o, Phi y más adaptados a los requisitos de conversación.
  • Características de conversación avanzadas:
    • Supresión de ruido: reduce el ruido ambiental para una comunicación más clara.
    • Cancelación de eco: impide que el agente recoja sus propias respuestas.
    • Detección sólida de interrupciones: garantiza un reconocimiento preciso de las interrupciones durante las conversaciones.
    • Detección avanzada de fin de turno: permite pausas naturales sin interacciones finales prematuras.
  • Integración de avatares: proporciona avatares estándar o personalizables sincronizados con la salida de audio, ofreciendo una identidad visual para los agentes de voz.
  • Función de llamada: habilita acciones externas, el uso de herramientas, y respuestas fundamentadas mediante el patrón VoiceRAG.

Cómo funciona

Voice Live API está totalmente administrado, lo que elimina la necesidad de que los clientes controle la orquestación de back-end o la integración de componentes. Los desarrolladores proporcionan entrada de audio y reciben salidas de audio, objetos visuales de avatar y desencadenadores de acción, todo ello con una latencia mínima. No es necesario implementar ni administrar ningún modelo de IA generativo, ya que la API controla la infraestructura subyacente.

Compatibilidad y diseño de API

La API de voz en tiempo real está diseñada para la compatibilidad con la API en tiempo real de Azure OpenAI. Los eventos en tiempo real admitidos están principalmente a la par con los eventos de la Azure OpenAI Realtime API, con algunas excepciones tal como se describe en la guía de procedimientos de la Voice Live API.

Las características exclusivas de la API de Voice Live están diseñadas para ser opcionales y aditivas. Puede agregar funcionalidades de Azure Speech en herramientas Foundry, como la supresión de ruido, la cancelación de eco y la detección avanzada de la finalización de turno a sus aplicaciones actuales sin necesidad de modificar la arquitectura actual.

La API se admite a través de eventos de WebSocket, lo que permite una integración sencilla de servidor a servidor. El servicio back-end o de nivel intermedio se conecta a la API de voz en vivo a través de WebSockets. Puede usar los mensajes de WebSocket directamente para interactuar con la API.

Regiones y SO admitidos

Para impulsar la inteligencia del agente de voz, tiene flexibilidad y elección en el modelo de IA generativa entre GPT-Realtime, GPT-5, GPT-4.1, Phi y más opciones. Los diferentes modelos de IA generativa proporcionan diferentes tipos de funcionalidades, niveles de inteligencia, velocidad/latencia de inferencia y costo. Dependiendo de lo que más importa para su negocio y caso de uso, puede elegir el modelo que mejor se adapte a sus necesidades.

Todos los modelos admitidos de forma nativa están totalmente administrados, lo que significa que no tiene que implementar modelos, preocuparse por el planeamiento de la capacidad o el rendimiento de aprovisionamiento. Puede usar el modelo que necesita y voice live API se encarga del resto.

Voice Live API admite los siguientes modelos. Para ver las regiones admitidas, consulte las regiones del servicio Voz de Azure.

Modelo Descripción
gpt-realtime GPT en tiempo real + opción para usar voces de texto a voz de Azure, incluida la voz personalizada para audio.
gpt-realtime-mini GPT mini en tiempo real con opción de usar el servicio de conversión de texto a voz de Azure, incluida la voz personalizada para audio.
gpt-4o GPT-4o + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto de Azure a voz, incluida la voz personalizada.
gpt-4o-mini GPT-4o mini + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto a voz de Azure, incluida la voz personalizada.
gpt-4.1 GPT-4.1 + entrada de audio a través de Azure Speech to Text y salida de audio a través de Azure Text to Speech, incluidas las voces personalizadas.
gpt-4.1-mini GPT-4.1 mini + entrada de audio a través de Azure voz a texto + salida de audio a través de Azure texto a voz, incluyendo voz personalizada.
gpt-5 GPT-5 + entrada de audio a través de Azure Speech to Text y salida de audio a través de Azure Text to Speech, incluida la voz personalizada.
gpt-5-mini GPT-5 mini + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto a voz de Azure, incluida la voz personalizada.
gpt-5-nano GPT-5 nano + entrada de audio mediante Azure Speech to Text + salida de audio mediante Azure Text to Speech, incluidas voces personalizadas.
gpt-5-chat GPT-5 chat + entrada de audio a través de la salida de voz en texto y audio de Azure a través de voces de texto de Azure a voz, incluida la voz personalizada.
phi4-mm-realtime Phi4-mm + salida de audio a través de voces de texto de Azure a voz, incluida la voz personalizada.
phi4-mini Phi4-mm + entrada de audio mediante la conversión de voz a texto de Azure y salida de audio a través de la conversión de texto a voz de Azure, incluidas voces personalizadas.

Comparación de voice live API con otras soluciones de voz a voz

Voice live API es una alternativa a la orquestación de varios componentes, como el reconocimiento de voz, la inteligencia artificial generativa y el texto a voz. Esta orquestación puede ser compleja y lenta, lo que requiere un esfuerzo de ingeniería significativo para integrar y mantener. Voice live API simplifica este proceso proporcionando una única interfaz para todos estos componentes, lo que permite a los desarrolladores centrarse en compilar sus aplicaciones en lugar de administrar la infraestructura subyacente.

Para cumplir sus requisitos, puede crear su propia solución o usar voice live API. En esta tabla se comparan los enfoques:

Requisito de la aplicación Hágalo usted mismo API de voz en tiempo real
Amplia cobertura regional con alta precisión (entrada de audio)
Mantener la personalidad de la marca y el carácter (salida de audio)
Mejoras conversacionales
Elección de modelos de IA generativas
Salida visual con avatar de texto a voz
Bajo costo de ingeniería
Baja latencia percibida por el usuario final

Precios

Los precios de la API de voz en vivo están en vigor desde el 1 de julio de 2025.

Los precios de voice live API están por niveles (Pro, Básico y Lite) en función del modelo de IA generativo que se usa.

Usted no ha seleccionado un nivel. Elija un modelo de IA generativo y se apliquen los precios correspondientes.

Categoría de precios Modelos
Voice Live Pro gpt-realtime, gpt-4o, gpt-4.1, , gpt-5, gpt-5-chat
Voz en directo básica gpt-realtime-mini, gpt-4o-mini, , gpt-4.1-mini, gpt-5-mini
Voice live lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Si decide usar voz personalizada, voz personalizada o avatar personalizado para la entrada o salida de voz, se le cobrará por separado por el entrenamiento y el hospedaje del modelo. Consulte precios de Servicios de voz para obtener más información.

Importante

El acceso de voz personalizado se limita en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

Importante

El acceso de avatar personalizado de texto a voz es limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

Escenarios de precios de ejemplo

Estos son algunos escenarios de precios de ejemplo que le ayudarán a comprender cómo se cobra la API dinámica de Voz:

Escenario 1

Un agente de servicio al cliente creado con la entrada estándar de Voz de Azure, GPT-4.1, la salida de Voz de Azure personalizada y un avatar personalizado.

Se le cobra a la tarifa de voz en directo profesional por:

  • Mensaje de texto
  • Audio con Voz de Azure: estándar
  • Audio con Voz de Azure: personalizado

Se le cobra por separado por el entrenamiento y el alojamiento del modelo de:

  • Voz personalizada: profesional
  • Avatar personalizado

Escenario 2

Un agente de aprendizaje creado con gpt-realtime entrada de audio nativa y salida de Voz de Azure estándar.

Se le cobra a la tarifa de voz en directo profesional por:

  • Mensaje de texto
  • Audio nativo con gpt-realtime
  • Audio con Voz de Azure: estándar

Escenario 3

Un agente de entrevistas de talento creado con entrada de audio de gpt-realtime-mini nativo y salida estándar de Voz de Azure y avatar estándar.

Se le cobra a la tarifa de voz en directo básica por:

  • Mensaje de texto
  • Audio nativo con gpt-realtime-mini
  • Audio con Voz de Azure: estándar

Se le cobrará por separado por:

  • Avatar de texto a voz (estándar)

Escenario 4

Un asistente en coche creado con phi4-mm-realtime y voz personalizada de Azure.

Se le cobra a la tarifa de voz en directo lite por:

  • Mensaje de texto
  • Audio nativo con phi4-mm-realtime

Se le cobra a la tarifa de voz en directo profesional por:

  • Audio con Voz de Azure: personalizado

Se le cobra por separado por el entrenamiento y el alojamiento del modelo de:

  • Voz personalizada: profesional

Estimación de costos y uso de tokens

Los tokens son las unidades que usan los modelos de IA generativos para procesar la entrada y generar la salida. 

Puede calcular el uso de tokens para diferentes familias de modelos con voice live API en función de la longitud de audio. Los siguientes cálculos de token se aplican a cada familia de modelos:

Familia de modelos Audio de entrada (tokens por segundo) Audio de salida (tokens por segundo)
Modelos de Azure OpenAI ~10 tokens ~20 tokens
Modelos Phi ~12,5 tokens ~20 tokens

También se le cobra por las entradas de audio y texto almacenadas en caché, incluido el mensaje y el contexto de las conversaciones.