Reproduzindo áudio em chamadas

2025-06-22

A ação de reprodução fornecida por meio do SDK de Automação de Chamadas dos Serviços de Comunicação do Azure permite que você reproduza prompts de áudio para os participantes da chamada. Essa ação pode ser acessada por meio da implementação do lado do servidor do seu aplicativo. Você pode reproduzir áudio para chamar os participantes por meio de um dos dois métodos:

Fornecendo aos Serviços de Comunicação do Azure acesso a arquivos de áudio pré-gravados no formato WAV, que os Serviços de Comunicação do Azure podem acessar com suporte para autenticação.
Mensagem de texto regular que pode ser convertida em saída de fala por meio da integração com os serviços de IA do Azure.

Você pode usar a integração recém-anunciada entre os Serviços de Comunicação do Azure e os serviços de IA do Azure para reproduzir respostas personalizadas usando a Conversão de Texto em Fala do Azure. Você pode usar vozes neurais humanas como predefinidas prontas para uso ou criar vozes neurais personalizadas exclusivas para seu produto ou marca. Para obter mais informações sobre vozes, idiomas e localidades com suporte, consulte Suporte a linguagem e voz para o serviço de Fala.

Observação

Atualmente, os Serviços de Comunicação do Azure dão suporte a dois formatos de arquivo, arquivos MP3 com arquivos ID3V2TAG e WAV formatados como áudio de canal mono PCM (Pulse Code Modulation) de 16 bits gravado a 16 KHz. Você pode criar arquivos de áudio usando a síntese de Fala com a ferramenta de Criação de Conteúdo de Áudio.

Vozes neurais predefinidas de Conversão de Texto em Fala

A Microsoft usa o aprendizado de máquina avançado para superar as limitações da síntese de fala tradicional no tratamento do estresse e da entonação na linguagem falada. A previsão de prosódia e a síntese de voz ocorrem simultaneamente, resultando em uma saída de som mais fluida e natural. Você pode usar essas vozes neurais para tornar as interações com seus chatbots e assistentes de voz mais naturais e envolventes. Há mais de 100 vozes predefinidas para escolher. Saiba mais sobre Vozes de Conversão de Texto em Fala do Azure.

Casos de uso comuns

A ação de reprodução pode ser usada de várias maneiras. Alguns exemplos de como os desenvolvedores podem querer usar a ação de reprodução em seus aplicativos estão listados aqui.

Avisos

Seu aplicativo pode querer reproduzir algum tipo de anúncio quando um participante ingressar ou sair da chamada para notificar outros usuários.

Clientes do autoatendimento

Em cenários com sistemas IVR (Interactive Voice Response) e assistentes virtuais, você pode usar seu aplicativo ou bots para reproduzir prompts de áudio para os chamadores, esse prompt pode estar na forma de um menu para orientar o chamador por meio de sua interação.

Música de espera

A ação de reprodução também pode ser usada para tocar música de espera para os chamadores. Essa ação pode ser configurada em um loop para que a música continue sendo reproduzida até que um agente esteja disponível para ajudar o chamador.

Reproduzir mensagens de conformidade

Como parte dos requisitos de conformidade em vários setores, espera-se que os fornecedores reproduzam mensagens legais ou de conformidade para os chamadores, por exemplo, "Essa chamada é registrada para fins de qualidade".

Arquitetura de amostra para reproduzir áudio em uma chamada usando Conversão de Texto em Fala

Diagrama que mostra a arquitetura de exemplo da Play with AI.

Arquitetura de exemplo para reproduzir áudio em uma chamada

Captura de tela do fluxo para ação de reprodução.

Limitações conhecidas

Os prompts de conversão de texto em fala dão suporte a um máximo de 4.000 caracteres. Se o prompt for maior que esse limite, sugerimos o uso da SSML (Linguagem de Marcação de Síntese de Fala) para ações de reprodução baseadas em Texto em Fala.
Não há suporte para vozes HD do Azure AI Foundry. O uso dessas vozes resulta em tempos limite.
Para cenários em que você excede o limite de cota do serviço de Fala, é possível solicitar o aumento desse limite seguindo as etapas descritas aqui.

Próximas etapas

Confira nosso guia de instruções para saber como reproduzir prompts de voz personalizados para os usuários.
Saiba mais sobre o uso e os logs operacionais publicados pela automação de chamadas.
Saiba mais sobre coleta de informações dos clientes.