Reproducción de audio en la llamada

2024-04-18

La acción de reproducción proporcionada a través del SDK de Automatización de llamadas de Azure Communication Services permite reproducir mensajes de audio a los participantes en la llamada. Se puede acceder a esta acción a través de la implementación de la aplicación en el lado servidor. Puede reproducir audio para llamar a los participantes a través de uno de los dos métodos;

Proporcionar a Azure Communication Services acceso a archivos de audio grabados previamente en formato WAV, a los que Azure Communication Services puede acceder con compatibilidad con la autenticación.
Texto normal que se puede convertir en salida de voz a través de la integración con los servicios de Azure AI.

Puede sacar provecho de la integración recién anunciada entre Azure Communication Services y los servicios de Azure AI para reproducir respuestas personalizadas mediante texto a voz de Azure. Puede usar voces neuronales como precompiladas o crear voces neuronales personalizadas que sean únicas para su producto o marca. Para obtener más información sobre las voces admitidas, los idiomas y las configuraciones regionales, vea Compatibilidad con idiomas y voz para el servicio Voz.

Nota:

Azure Communication Services actualmente solo admite archivos WAV con formato como audio de canal mono grabados a 16 KHz. Puede crear sus propios archivos de audio mediante Síntesis de voz con la herramienta de Creación de contenido de audio.

Voces precompiladas de texto neuronal a voz

Microsoft usa redes neuronales profundas para superar los límites de la síntesis de voz tradicional con respecto a la acentuación y a la entonación en el lenguaje hablado. La predicción prosodia y la síntesis de voz se producen simultáneamente, lo que da lugar a una salida de sonido más fluida y natural. Puede usar estas voces neuronales para hacer que las interacciones con sus bots de chat y asistentes de voz sean más naturales y atractivas. Hay más de 100 voces precompiladas entre las que elegir. Obtenga más información sobre voces de texto a voz de Azure.

Casos de uso comunes

La acción de reproducción se puede usar de muchas maneras, a continuación se muestran algunos ejemplos de cómo los desarrolladores podrían usar la acción de reproducción en sus aplicaciones.

Anuncios

Es posible que la aplicación reproduzca algún tipo de anuncio cuando un participante se una o salga de la llamada, para avisar al resto de usuarios.

Clientes de autoservicio

En escenarios con IVR y asistentes virtuales, puede usar la aplicación o los bots para reproducir mensajes de audio a los autores de llamadas, este aviso puede presentarse en forma de un menú para guiar al autor de la llamada a través de su interacción.

Música de espera

La acción de reproducción también se puede usar para reproducir música de espera para los autores de llamadas. Esta acción se puede configurar en un bucle para que la música se siga reproduciendo hasta que un agente esté disponible para ayudar al autor de la llamada.

Mensajes de cumplimiento normativo

Como parte de los requisitos de cumplimiento normativo en varios sectores, se espera que los proveedores reproduzcan mensajes legales o de cumplimiento normativo para los autores de llamadas, por ejemplo, "Esta llamada se grabará con fines de calidad".

Arquitectura de ejemplo para reproducir audio en llamada mediante Text-To-Speech

Jugar con la IA

Arquitectura de ejemplo para reproducir audio en una llamada

Captura de pantalla de un flujo de la acción de reproducción.

Limitaciones conocidas

La acción de reproducción no está habilitada para trabajar con la interoperabilidad de Teams.

Pasos siguientes

Consulte nuestra guía paso a paso para aprender areproducir indicaciones de voz personalizadas para los usuarios.