Compartir a través de


Reproducción de audio en la llamada

La acción de reproducción proporcionada a través del SDK de Automatización de llamadas de Azure Communication Services permite reproducir mensajes de audio a los participantes en la llamada. Se puede acceder a esta acción a través de la implementación de la aplicación en el lado servidor. Puede reproducir audio para llamar a los participantes a través de uno de los dos métodos;

  • Proporcionar a Azure Communication Services acceso a archivos de audio precordados del formato WAV, a los que Azure Communication Services puede acceder con compatibilidad con la autenticación.
  • Texto normal que se puede convertir en salida de voz a través de la integración con los servicios de Azure AI.

Puede usar la integración recién anunciada entre Azure Communication Services y los servicios de Azure AI para reproducir respuestas personalizadas mediante Azure Text-To-Speech. Puede usar voces neuronales como precompiladas o crear voces neuronales personalizadas que sean únicas para su producto o marca. Para obtener más información sobre las voces admitidas, los idiomas y las configuraciones regionales, vea Compatibilidad con idiomas y voz para el servicio de voz.

Nota:

Azure Communication Services admite actualmente dos formatos de archivo, archivos MP3 con archivos ID3V2TAG y WAV con formato de audio de canal mono PCM de 16 bits grabados a 16KHz. Puede crear sus propios archivos de audio mediante Síntesis de voz con la herramienta de Creación de contenido de audio.

Voces precompiladas de texto neuronal a voz

Microsoft usa redes neuronales profundas para superar los límites de la síntesis de voz tradicional con respecto al estrés y la entonación en el lenguaje hablado. La predicción prosodia y la síntesis de voz se producen simultáneamente, lo que da lugar a una salida de sonido más fluida y natural. Puede usar estas voces neuronales para hacer que las interacciones con sus bots de chat y asistentes de voz sean más naturales y atractivas. Hay más de 100 voces precompiladas entre las que elegir. Obtenga más información sobre voces de texto a voz de Azure.

Casos de uso comunes

La acción de reproducción se puede usar de muchas maneras, algunos ejemplos de cómo es posible que los desarrolladores deseen usar la acción de reproducción en sus aplicaciones se enumeran aquí.

Anuncios

Es posible que la aplicación reproduzca algún tipo de anuncio cuando un participante se una o salga de la llamada, para avisar al resto de usuarios.

Clientes de autoservicio

En escenarios con IVR y asistentes virtuales, puede usar la aplicación o los bots para reproducir mensajes de audio a los autores de llamadas, este aviso puede presentarse en forma de un menú para guiar al autor de la llamada a través de su interacción.

Música de espera

La acción de reproducción también se puede usar para reproducir música de espera para los autores de llamadas. Esta acción se puede configurar en un bucle para que la música se siga reproduciendo hasta que un agente esté disponible para ayudar al autor de la llamada.

Mensajes de cumplimiento normativo

Como parte de los requisitos de cumplimiento en varios sectores, se espera que los proveedores jueguen mensajes legales o de cumplimiento a los autores de llamadas, por ejemplo, “Esta llamada se registra con fines de calidad.”

Arquitectura de ejemplo para reproducir audio en llamada mediante Text-To-Speech

Diagrama en el que se muestra la arquitectura de muestra para Jugar con la IA.

Arquitectura de ejemplo para reproducir audio en una llamada

Captura de pantalla de un flujo de la acción de reproducción.

Limitaciones conocidas

  • Los mensajes de texto a voz admiten un máximo de 400 caracteres, si el mensaje es mayor se recomienda usar SSML para acciones de reproducción basadas en la conversión de texto a voz.
  • En escenarios en los que se supera el límite de cuota del servicio de voz, puede solicitar aumentar este limite siguiendo los pasos descritos aquí.

Pasos siguientes