Reproducción de audio en la llamada

2025-06-08

La acción de reproducción proporcionada a través del SDK de Automatización de llamadas de Azure Communication Services permite reproducir mensajes de audio a los participantes en la llamada. Se puede acceder a esta acción a través de la implementación de la aplicación en el lado servidor. Puede reproducir audio para llamar a los participantes a través de uno de los dos métodos;

Proporcionar a Azure Communication Services acceso a archivos de audio precordados en formato WAV, a los que Azure Communication Services puede acceder con compatibilidad con la autenticación.
Texto normal que se puede convertir en salida de voz a través de la integración con los servicios de Azure AI.

Puede usar la integración recién anunciada entre Azure Communication Services y los servicios de Azure AI para reproducir respuestas personalizadas mediante Azure Text-To-Speech. Puede usar voces neuronales como precompiladas o crear voces neuronales personalizadas que sean únicas para su producto o marca. Para obtener más información sobre las voces admitidas, los idiomas y las configuraciones regionales, vea Compatibilidad con idiomas y voz para el servicio de voz.

Nota:

Actualmente, Azure Communication Services admite dos formatos de archivo: archivos MP3 con etiquetas ID3V2TAG y archivos WAV formateados como audio mono PCM (modulación por impulsos codificados) de 16 bits grabados a una frecuencia de 16 KHz. Puede crear sus propios archivos de audio mediante Síntesis de voz con la herramienta de Creación de contenido de audio.

Voces precompiladas de texto neuronal a voz

Microsoft usa el aprendizaje automático avanzado para superar las limitaciones de la síntesis de voz tradicional en el control del estrés y la entonación en el lenguaje hablado. La predicción prosodia y la síntesis de voz se producen simultáneamente, lo que da lugar a una salida de sonido más fluida y natural. Puede usar estas voces neuronales para hacer que las interacciones con sus bots de chat y asistentes de voz sean más naturales y atractivas. Hay más de 100 voces precompiladas entre las que elegir. Obtenga más información sobre voces de texto a voz de Azure.

Casos de uso comunes

La acción de reproducción se puede usar de muchas maneras, algunos ejemplos de cómo es posible que los desarrolladores deseen usar la acción de reproducción en sus aplicaciones se enumeran aquí.

Anuncios

Es posible que la aplicación reproduzca algún tipo de anuncio cuando un participante se una o salga de la llamada, para avisar al resto de usuarios.

Clientes de autoservicio

En escenarios con sistemas de respuesta de voz interactiva (IVR) y asistentes virtuales, puede usar la aplicación o los bots para reproducir mensajes de audio a los autores de llamadas, este mensaje puede estar en forma de un menú para guiar al autor de la llamada a través de su interacción.

Música de espera

La acción de reproducción también se puede usar para reproducir música de espera para los autores de llamadas. Esta acción se puede configurar en un bucle para que la música se siga reproduciendo hasta que un agente esté disponible para ayudar al autor de la llamada.

Mensajes de cumplimiento normativo

Como parte de los requisitos de cumplimiento en varios sectores, se espera que los proveedores difundan mensajes legales o de cumplimiento a los llamantes, por ejemplo, "Esta llamada se registra con fines de calidad".

Arquitectura de ejemplo para reproducir audio en llamada mediante Text-To-Speech

Diagrama en el que se muestra la arquitectura de muestra para Jugar con la IA.

Arquitectura de ejemplo para reproducir audio en una llamada

Captura de pantalla de un flujo de la acción de reproducción.

Limitaciones conocidas

Los mensajes de texto a voz admiten un máximo de 4000 caracteres. Si el mensaje es mayor que este límite, se recomienda usar el lenguaje de marcado de síntesis de voz (SSML) para las acciones de reproducción basadas en texto a voz.
Las voces HD de Azure AI Foundry no tienen soporte oficial. El uso de estas voces da como resultado tiempos de espera.
En escenarios en los que se supera el límite de cuota del servicio de voz, puede solicitar aumentar este limite siguiendo los pasos descritos aquí.

Pasos siguientes

Consulte nuestra guía paso a paso para aprender areproducir indicaciones de voz personalizadas para los usuarios.
Obtenga información sobre el uso y los registros operativos publicados por automatización de llamadas.
Obtenga información sobre recopilación de entradas de cliente.