Visão geral do streaming de áudio - assinatura de áudio

2025-06-06

Os Serviços de Comunicação do Azure fornecem funcionalidades bidirecionais de streaming de áudio, oferecendo aos desenvolvedores ferramentas avançadas para capturar, analisar e processar conteúdo de áudio durante chamadas ativas. Esse desenvolvimento abre caminho para novas possibilidades na comunicação em tempo real para desenvolvedores e empresas.

Ao integrar o streaming de áudio bidirecional com serviços como o Azure OpenAI e outras APIs de voz em tempo real, as empresas podem obter uma comunicação perfeita e de baixa latência. Essa funcionalidade adicional aprimora significativamente o desenvolvimento e a implantação de soluções de IA de conversação, permitindo interações mais envolventes e eficientes.

Com o streaming bidirecional, as empresas agora podem elevar suas soluções de voz para agentes de IA de conversa interativa e de baixa latência, semelhantes a humanos. Nossas APIs de streaming bidirecional permitem que os desenvolvedores transmitam áudio de uma chamada contínua nos Serviços de Comunicação do Azure para seus servidores Web em tempo real e transmitam áudio de volta para a chamada. Embora o foco inicial desses recursos seja ajudar as empresas a criar agentes de IA de conversação, outros casos de uso incluem o Processamento de Linguagem Natural para análise de conversa ou o fornecimento de insights e sugestões em tempo real aos agentes enquanto eles estão em interação ativa com os usuários finais.

Esta visualização pública dá suporte à capacidade dos desenvolvedores de acessar fluxos de áudio em tempo real por meio de um WebSocket dos Serviços de Comunicação do Azure e transmitir áudio de volta para a chamada.

Assistência de chamada em tempo real

Aproveitar soluções de IA de conversação: Desenvolver agentes virtuais sofisticados de suporte ao cliente que podem interagir com os clientes em tempo real, fornecendo respostas e soluções imediatas.
Experiências personalizadas do cliente: Aproveitando dados em tempo real, as empresas podem oferecer interações mais personalizadas e dinâmicas do cliente em tempo real, levando a maior satisfação e fidelidade.
Reduzir os tempos de espera para os clientes: Usando fluxos de áudio bidirecionais com LLMs (Modelos de Linguagem Grande), você pode criar agentes virtuais que servem como o primeiro ponto de contato para os clientes, reduzindo o tempo de espera de um agente humano.

Autenticação

Autenticação biométrica: Use os fluxos de áudio para realizar a autenticação por voz, executando o áudio da chamada por meio de seu mecanismo/ferramenta de correspondência/reconhecimento de fala.

Arquitetura de exemplo mostrando como o streaming de áudio bidirecional pode ser usado para agentes de IA de conversa

Formatos com suporte

Misturado

Contém áudio misto de todos os participantes da chamada. Todo o áudio é nivelado em um único fluxo.

Não misto

Contém áudio por participante e por canal, com suporte para até quatro canais para os quatro oradores mais dominantes em qualquer ponto de uma chamada. Você também obtém um participantRawID que pode ser usado para determinar o alto-falante.

Informações adicionais

Os desenvolvedores podem usar as informações a seguir sobre o áudio enviado dos Serviços de Comunicação do Azure para converter os pacotes de áudio em conteúdo audível para seus aplicativos.

Taxa de quadros: 50 quadros por segundo
Taxa de fluxo de pacotes: taxa de 20 ms
Tamanho do pacote de dados: 640 bytes para 16.000 hz e 960 bytes para 24.000 hz
Métrica de áudio: mono PCM de 16 bits a 16.000 hz e 24.000 hz
Os dados de cadeia de caracteres públicos são uma cadeia de caracteres base64 que deve ser convertida em uma matriz de bytes para criar um arquivo PCM bruto.

Cobrança

Consulte a página de preços dos Serviços de Comunicação do Azure para obter informações sobre como o streaming de áudio é cobrado. Os preços podem ser encontrados na categoria de chamada em streaming de áudio.

Limitações conhecidas

Parar o streaming de mídia usando um novo contexto de operação não reflete corretamente o contexto atualizado.
- Caso você crie ou atenda uma chamada com operationContext definido como "ABC" e habilite o streaming de mídia, você receberá o evento MediaStreamingStarted com operationContext: "ABC".
- Se você chamar a API StopStreaming com um operationContext diferente, diga "XYZ", você esperaria receber o evento MediaStreamingStopped com operationContext: "XYZ". No entanto, devido a um problema conhecido, o evento MediaStreamingStopped ainda contém operationContext: "ABC".
Ao interromper o streaming de mídia usando um novo URI de retorno de chamada, os eventos continuam a ser enviados para o URI de retorno de chamada padrão usado durante a criação ou resposta da chamada.
- Se você criar ou atender uma chamada com um URI de retorno de chamada padrão "https://ABC.com" e habilitar o streaming de mídia, o evento MediaStreamingStarted será enviado para "https://ABC.com".
- Se você parar de transmitir usando a API StopStreaming e especificar um novo URI de retorno de chamada "https://XYZ.com, você esperaria que o evento MediaStreamingStopped fosse enviado para "https://XYZ.com." No entanto, devido a um problema conhecido, o evento ainda é enviado para o URI de retorno de chamada original "https://ABC.com"

Próximas etapas

Para saber mais, confira o início rápido do streaming de áudio.