Compartilhar via


API de voz ao vivo para agentes em tempo real

O que é a API ao vivo do Voice?

A API de voz ao vivo é uma solução que permite interações de fala a fala de baixa latência e alta qualidade para agentes de voz. A API foi projetada para desenvolvedores que buscam experiências escalonáveis e eficientes controladas por voz, pois elimina a necessidade de orquestrar manualmente vários componentes. Ao integrar o reconhecimento de fala, a IA gerativa e as funcionalidades de texto em fala em uma única interface unificada, ela fornece uma solução de ponta a ponta para criar experiências perfeitas.

Noções básicas sobre experiências de fala em fala

A tecnologia de fala em fala está revolucionando a forma como os humanos interagem com sistemas, oferecendo soluções intuitivas baseadas em voz. As implementações tradicionais envolviam a combinação de módulos diferentes, como conversão de fala em texto, gerenciamento de diálogo, conversão de texto em fala e muito mais. Esse encadeamento pode levar a maior complexidade de engenharia e latência percebida pelo usuário final.

Com avanços em LLMs (Modelos de Linguagem Grande) e IA multimodal, a API dinâmica do Voice consolida essas funcionalidades, simplificando os fluxos de trabalho para desenvolvedores. Essa abordagem aprimora as interações em tempo real e garante uma comunicação natural de alta qualidade, tornando-a adequada para setores que exigem soluções instantâneas habilitadas para voz.

Principais cenários para a API ao vivo do Voice

A API dinâmica do Azure AI Voice é ideal para cenários em que as interações controladas por voz melhoram a experiência do usuário. Os exemplos incluem:

  • Centros de contato: desenvolva bots de voz interativos para suporte ao cliente, navegação no catálogo de produtos e soluções de autoatendimento.
  • Assistentes automotivos: Habilite assistentes de voz para uso dentro do carro que possibilitem a execução de comandos, navegação e consultas gerais.
  • Educação: Crie companheiros de aprendizagem com capacidade de voz e tutores virtuais para treinamento e educação interativos.
  • Serviços públicos: crie agentes de voz para ajudar os cidadãos com consultas administrativas e informações de serviço público.
  • Recursos humanos: aprimore os processos de RH com ferramentas habilitadas para voz para suporte aos funcionários, desenvolvimento de carreira e treinamento.

Recursos da API Live Voice

A API ao vivo do Voice inclui um conjunto abrangente de recursos para dar suporte a diversos casos de uso e garantir interações de voz superiores:

  • Ampla cobertura de localidade: dá suporte a mais de 140 localidades para conversão de fala em texto e oferece mais de 600 vozes padrão em mais de 150 localidades para conversão de texto em fala, garantindo acessibilidade global.
  • Entrada e saída personalizáveis: use a lista de frases para personalização leve e imediata na entrada de áudio ou modelos de fala personalizados para ajuste fino avançado de reconhecimento de fala. Use a voz personalizada para criar vozes exclusivas alinhadas à marca para saída de áudio. Veja como personalizar a entrada e a saída ao vivo de voz para saber mais.
  • Opções flexíveis de modelo de IA:escolha entre vários modelos, incluindo GPT-5, GPT-4.1, GPT-4o, Phi e mais adaptados aos requisitos de conversação.
  • Recursos avançados de conversação:
    • Supressão de ruído: reduz o ruído ambiental para uma comunicação mais clara.
    • Cancelamento de eco: impede que o agente pegue suas próprias respostas.
    • Detecção de interrupção robusta: garante o reconhecimento preciso de interrupções durante as conversas.
    • Detecção avançada de fim de turno: permite pausas naturais sem interações prematuramente concluídas.
  • Integração de avatar: fornece avatares padrão ou personalizáveis sincronizados com saída de áudio, oferecendo uma identidade visual para agentes de voz.
  • Chamada de função: Permite ações externas, uso de ferramentas e respostas fundamentadas com o uso do padrão VoiceRAG.

Como funciona

A API ao vivo do Voice é totalmente gerenciada, eliminando a necessidade de os clientes lidarem com a orquestração de back-end ou a integração de componentes. Os desenvolvedores fornecem entrada de áudio e recebem saída de áudio, visuais de avatar e gatilhos de ação, tudo com latência mínima. Você não precisa implantar ou gerenciar modelos de IA geradores, pois a API lida com a infraestrutura subjacente.

Design e compatibilidade da API

A API dinâmica do Voice foi projetada para compatibilidade com a API do Azure OpenAI Realtime. Os eventos em tempo real com suporte estão principalmente em paridade com os eventos da API Realtime do OpenAI do Azure, com algumas exceções, conforme descrito no guia de instruções da API do Serviço de Voz ao vivo.

Os recursos exclusivos da API ao vivo do Voice foram projetados para serem opcionais e aditivos. Você pode adicionar recursos de Fala de IA do Azure, como supressão de ruído, cancelamento de eco e detecção avançada de fim de turno aos aplicativos existentes sem a necessidade de alterar sua arquitetura existente.

A API tem suporte por meio de eventos WebSocket, permitindo uma integração fácil de servidor para servidor. Seu serviço de back-end ou de camada intermediária se conecta à API dinâmica do Voice por meio de WebSockets. Você pode usar as mensagens do WebSocket diretamente para interagir com a API.

Modelos e regiões com suporte

Para alimentar a inteligência do seu agente de voz, você tem flexibilidade e escolha no modelo de IA generativo entre GPT-Realtime, GPT-5, GPT-4.1, Phi e mais opções. Diferentes modelos de IA generativos fornecem diferentes tipos de funcionalidades, níveis de inteligência, velocidade/latência de inferência e custo. Dependendo do que mais importa para sua empresa e caso de uso, você pode escolher o modelo que melhor atenda às suas necessidades.

Todos os modelos com suporte nativo são totalmente gerenciados, o que significa que você não precisa se preocupar em implantar modelos, planejar a capacidade ou garantir o provisionamento adequado de recursos de transferência. Você pode usar o modelo necessário e a API dinâmica do Voice cuida do restante.

A API ao vivo do Voice dá suporte aos seguintes modelos. Para regiões com suporte, consulte as regiões do serviço de Fala de IA do Azure.

Modelo Descrição
gpt-realtime GPT em tempo real + opção para usar as vozes da conversão de texto em fala do Azure, incluindo a voz personalizada para áudio.
gpt-realtime-mini GPT mini em tempo real + opção de usar vozes de conversão de texto em fala do Azure, incluindo voz personalizada para áudio.
gpt-4o GPT-4o + entrada de áudio por meio de reconhecimento de fala do Azure + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada.
gpt-4o-mini GPT-4o mini + entrada de áudio por meio de reconhecimento de fala do Azure + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada.
gpt-4.1 GPT-4.1 + entrada de áudio por meio do Azure Speech to Text + saída de áudio por meio do Azure Text to Speech, incluindo voz personalizada.
gpt-4.1-mini GPT-4.1 mini + entrada de áudio por meio do Azure Speech to Text + saída de áudio por meio das vozes do Azure Text to Speech, incluindo voz personalizada.
gpt-5 GPT-5 + entrada de áudio através do serviço de fala para texto da Azure + saída de áudio através do serviço de texto para fala da Azure, incluindo voz personalizada.
gpt-5-mini GPT-5 mini + entrada de áudio por meio da conversão de fala em texto do Azure + saída de áudio por meio do Azure texto para fala, incluindo voz personalizada.
gpt-5-nano GPT-5 nano + entrada de áudio por meio do Azure fala em texto + saída de áudio por meio do Azure texto para vozes de fala, incluindo voz personalizada.
gpt-5-chat Chat GPT-5 + entrada de áudio por meio da conversão de fala em texto do Azure + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada.
phi4-mm-realtime Phi4-mm + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada.
phi4-mini Phi4-mm + entrada de áudio por meio da conversão de fala para texto do Azure + saída de áudio por meio da conversão de texto para fala do Azure, incluindo voz personalizada.

Comparando a API ao vivo do Voice com outras soluções de fala para fala

A API ao vivo do Voice é uma alternativa para orquestrar vários componentes, como reconhecimento de fala, IA generativa e conversão de texto em fala. Essa orquestração pode ser complexa e demorada, exigindo esforços significativos de engenharia para integrar e manter. A API dinâmica do Voice simplifica esse processo fornecendo uma única interface para todos esses componentes, permitindo que os desenvolvedores se concentrem na criação de seus aplicativos em vez de gerenciar a infraestrutura subjacente.

Para atender aos seus requisitos, você pode criar sua própria solução ou usar a API dinâmica do Voice. Esta tabela compara as abordagens:

Requisito de aplicativo Faça você mesmo API de voz em tempo real
Ampla cobertura de localidade com alta precisão (entrada de áudio)
Manter a personalidade da marca e do personagem (saída de áudio)
Melhorias na conversação
Escolha de modelos de IA generativos
Saída visual com avatar de conversão de texto em fala
Baixo custo de engenharia
Baixa latência percebida pelo usuário final

Preços

Os preços da API ao vivo do Voice estão em vigor a partir de 1º de julho de 2025.

Os preços da API do Serviço de Voz ao vivo são em camadas (Pro, Básico e Lite) com base no modelo de IA generativa usado.

Você não seleciona um nível. Você escolhe um modelo de IA generativo e o preço correspondente se aplica.

Categoria de preços Modelos
Voice Live Pro gpt-realtime, gpt-4o, gpt-4.1, , gpt-5gpt-5-chat
Serviço de voz ao vivo básico gpt-realtime-mini, gpt-4o-mini, , gpt-4.1-minigpt-5-mini
Voice Live Lite gpt-5-nano,phi4-mm-realtime, phi4-mini

Se você optar por usar fala personalizada, voz personalizada ou avatar personalizado para entrada e/ou saída de áudio, haverá cobrança separada pelo treinamento dos modelos e pela hospedagem. Consulte os preços dos Serviços de Fala para obter detalhes.

Importante

O acesso de voz personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Importante

O acesso do avatar de conversão de texto em fala personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Cenários de preços de exemplo

Aqui estão alguns cenários de preços de exemplo para ajudá-lo a entender como a API dinâmica do Voice é cobrada:

Cenário 1

Um agente de atendimento ao cliente criado com entrada padrão de Fala de IA do Azure, GPT-4.1, saída personalizada de Fala de IA do Azure e um avatar personalizado.

Você será cobrado pela taxa de serviço de voz ao vivo profissional por:

  • Texto
  • Áudio com Fala de IA do Azure – Standard
  • Áudio com Fala de IA do Azure – Personalizado

Você será cobrado separadamente pelo treinamento e hospedagem do modelo de:

  • Voz personalizada – profissional
  • Avatar personalizado

Cenário 2

Um agente de aprendizado criado com entrada de áudio nativo gpt-realtime e saída padrão de Fala de IA do Azure.

Você será cobrado pela taxa de serviço de voz ao vivo profissional por:

  • Texto
  • Áudio nativo com gpt-realtime
  • Áudio com Fala de IA do Azure – Standard

Cenário 3

Um agente de entrevista de talentos criado com entrada de áudio nativo gpt-realtime-mini, saída padrão de Fala de IA do Azure e avatar padrão.

Você será cobrado pela taxa de serviço de voz ao vivo básica por:

  • Texto
  • Áudio nativo com gpt-realtime-mini
  • Áudio com Fala de IA do Azure – Standard

Você é cobrado separadamente por:

  • Avatar de texto em fala (padrão)

Cenário 4

Um assistente de carro criado com phi4-mm-realtime e voz personalizada do Azure.

Você será cobrado pela taxa de serviço de voz ao vivo lite por:

  • Texto
  • Áudio nativo com phi4-mm-realtime

Você será cobrado pela taxa de serviço de voz ao vivo profissional por:

  • Áudio com Fala de IA do Azure – Personalizado

Você será cobrado separadamente pelo treinamento e hospedagem do modelo de:

  • Voz personalizada – profissional

Estimativa de custo e uso de token

Tokens são as unidades que os modelos de IA gerativos usam para processar entrada e gerar saída. 

Você pode estimar o uso de token para famílias de modelos diferentes com a API dinâmica do Voice com base no comprimento do áudio. Os seguintes cálculos de token se aplicam a cada família de modelos:

Família de modelos Áudio de entrada (tokens por segundo) Áudio de saída (tokens por segundo)
Modelos do OpenAI do Azure ~10 tokens ~20 tokens
Modelos Phi ~12,5 tokens ~20 tokens

Você também é cobrado por entradas de áudio e texto armazenadas em cache, incluindo o prompt e o contexto das conversas.