Compartilhar via


Visão geral do streaming de áudio - assinatura de áudio

Importante

A funcionalidade descrita neste artigo está atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares de Versões Prévias do Microsoft Azure.

Os Serviços de Comunicação do Azure fornecem aos desenvolvedores recursos de Streaming de Áudio para obter acesso em tempo real a fluxos de áudio para capturar, analisar e processar o conteúdo de áudio durante chamadas ativas. No mundo de hoje, o consumo de áudio e vídeo ao vivo é predominante, e esse conteúdo pode estar na forma de reuniões online, conferências online, suporte ao cliente etc. Com o acesso ao streaming de áudio, os desenvolvedores agora podem criar aplicativos de servidor para capturar e analisar fluxos de áudio para cada um dos participantes da chamada em tempo real. Os desenvolvedores também podem combinar o streaming de áudio com outras ações de automação de chamadas ou usar seus próprios modelos de IA para analisar os fluxos de áudio. Os casos de uso incluem NLP para análise de conversas ou fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em uma interação ativa com os usuários finais.

Essa visualização pública dá suporte à capacidade de os desenvolvedores obterem acesso a fluxos de áudio em tempo real por meio de um WebSocket para analisar o áudio da chamada em formatos mistos e não mistos.

Casos de uso comuns

Os fluxos de áudio podem ser usados de várias maneiras. Alguns exemplos de como os desenvolvedores podem querer usar os fluxos de áudio em seus aplicativos incluem:

Assistência de chamada em tempo real

Sugestões aprimoradas de IA – Use transmissões de áudio em tempo real de interações ativas entre agentes e clientes para medir a intenção da chamada e como seus agentes podem fornecer uma melhor experiência ao cliente por meio de sugestões ativas usando seu próprio modelo de IA para analisar a chamada.

Autenticação

Autenticação biométrica: Use os fluxos de áudio para realizar a autenticação por voz, executando o áudio da chamada por meio de seu mecanismo/ferramenta de correspondência/reconhecimento de fala.

Exemplo de arquitetura para assinatura de fluxos de áudio de uma chamada em andamento, cenário de agente ao vivo

Captura de tela do diagrama de arquitetura para streaming de áudio.

Formatos com suporte

Formato misto

Contém áudio misto de todos os participantes da chamada. Todo o áudio é nivelado em um único fluxo.

Não misto

Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro oradores mais dominantes em qualquer ponto de uma chamada. Você também obterá uma participantRawID que poderá ser usada para determinar o orador.

Informações adicionais

A tabela abaixo descreve as informações que ajudarão os desenvolvedores a converter os pacotes de áudio em conteúdo audível que pode ser usado por seus aplicativos.

  • Taxa de quadros: 50 quadros por segundo
  • Taxa de fluxo de pacotes: taxa de 20 ms
  • Pacote de dados: 64 Kbytes
  • Métrica de áudio: PCM mono de 16 bits a 16000 hz
  • Os dados de cadeia de caracteres públicos são uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.

Próximas etapas

Confira o início rápido de streaming de áudio para saber mais.