Reproduzir áudio em chamada

Artigo
03/05/2024

A ação de reprodução fornecida por meio do SDK de Automação de Chamadas dos Serviços de Comunicação do Azure permite reproduzir prompts de áudio para os participantes da chamada. Essa ação pode ser acessada por meio da implementação do lado do servidor do seu aplicativo. Você pode reproduzir áudio para chamar os participantes através de um dos dois métodos;

Fornecer acesso aos Serviços de Comunicação do Azure a ficheiros de áudio pré-gravados de formato WAV, aos quais os Serviços de Comunicação do Azure podem aceder com suporte para autenticação
Texto normal que pode ser convertido em saída de voz através da integração com os serviços de IA do Azure.

Você pode usar a integração recém-anunciada entre os Serviços de Comunicação do Azure e os serviços de IA do Azure para reproduzir respostas personalizadas usando o Azure Text-To-Speech. Você pode usar vozes neurais humanas como pré-construídas prontas para uso ou criar vozes neurais personalizadas que são exclusivas para seu produto ou marca. Para obter mais informações sobre vozes, idiomas e localidades suportados, consulte Suporte de idioma e voz para o serviço de Fala.

Nota

Atualmente, os Serviços de Comunicação do Azure suportam dois formatos de ficheiro, ficheiros MP3 com ficheiros ID3V2TAG e ficheiros WAV formatados como áudio monocanal PCM de 16 bits gravado a 16KHz. Você pode criar seus próprios arquivos de áudio usando a síntese de fala com a ferramenta de criação de conteúdo de áudio.

Vozes pré-construídas de texto neural para fala

A Microsoft usa redes neurais profundas para superar os limites da síntese de fala tradicional no que diz respeito ao estresse e entonação na linguagem falada. A predição da prosódia e a síntese da voz ocorrem simultaneamente, resultando em uma saída sonora mais fluida e natural. Você pode usar essas vozes neurais para tornar as interações com seus chatbots e assistentes de voz mais naturais e envolventes. Há mais de 100 vozes pré-construídas para escolher. Saiba mais sobre as vozes de conversão de texto em fala do Azure.

Casos comuns de utilização

A ação de jogo pode ser usada de muitas maneiras, alguns exemplos de como os desenvolvedores podem querer usar a ação de jogo em seus aplicativos estão listados aqui.

Anúncios

Seu aplicativo pode querer reproduzir algum tipo de anúncio quando um participante entra ou sai da chamada, para notificar outros usuários.

Clientes self-service

Em cenários com IVRs e assistentes virtuais, você pode usar seu aplicativo ou bots para reproduzir prompts de áudio para chamadores, esse prompt pode ser na forma de um menu para guiar o chamador através de sua interação.

Segure a música

A ação de reprodução também pode ser usada para reproduzir música de espera para chamadores. Esta ação pode ser configurada em um loop para que a música continue tocando até que um agente esteja disponível para ajudar o chamador.

Reproduzir mensagens de conformidade

Como parte dos requisitos de conformidade em vários setores, espera-se que os fornecedores reproduzam mensagens legais ou de conformidade para os chamadores, por exemplo, "Esta chamada é gravada para fins de qualidade.".

Arquitetura de exemplo para reproduzir áudio em chamadas usando Text-To-Speech

Diagrama mostrando a arquitetura de exemplo para o Play with AI.

Arquitetura de exemplo para reproduzir áudio em uma chamada

Captura de tela do fluxo para ação de jogo.

Limitações conhecidas

Os prompts de texto de conversão de texto em fala suportam um máximo de 400 caracteres, se o prompt for maior do que isso, sugerimos usar SSML para ações de reprodução baseadas em conversão de texto em fala.
Para cenários em que você excede o limite de cota do serviço de Fala, você pode solicitar o aumento desse limite seguindo as etapas descritas aqui.

Passos Seguintes

Confira nosso guia de instruções para saber como reproduzir prompts de voz personalizados para os usuários.
Saiba mais sobre os logs operacionais e de uso publicados pela automação de chamadas.
Saiba mais sobre como coletar informações do cliente.