Partilhar via


API de voz ao vivo para agentes de voz em tempo real (Visualização)

Observação

Esta funcionalidade está atualmente em pré-visualização pública. Esta pré-visualização é fornecida sem um acordo de nível de serviço e não é recomendada para cargas de trabalho em produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

O que é a API de voz ao vivo?

A API de voz em tempo real é uma solução que permite interações de voz a voz, garantindo baixa latência e alta qualidade para agentes de voz. A API foi projetada para desenvolvedores que buscam experiências escaláveis e eficientes orientadas por voz, pois elimina a necessidade de orquestrar manualmente vários componentes. Ao integrar reconhecimento de fala, IA generativa e funcionalidades de texto para fala em uma interface única e unificada, ele fornece uma solução de ponta a ponta para criar experiências perfeitas.

Compreender as experiências de fala para fala

A tecnologia de fala para fala está revolucionando a forma como os seres humanos interagem com os sistemas, oferecendo soluções intuitivas baseadas em voz. As implementações tradicionais envolviam a combinação de módulos díspares, como fala para texto, reconhecimento de intenção, gerenciamento de diálogo, texto para fala e muito mais. Esse encadeamento pode levar a uma maior complexidade de engenharia e latência percebida pelo usuário final.

Com os avanços em Large Language Models (LLMs) e IA multimodal, a API de voz ao vivo consolida essas funcionalidades, simplificando fluxos de trabalho para desenvolvedores. Essa abordagem melhora as interações em tempo real e garante uma comunicação natural de alta qualidade, tornando-a adequada para indústrias que exigem soluções instantâneas habilitadas para voz.

Principais cenários para API de voz ao vivo

A API ao vivo de voz do Azure AI é ideal para cenários em que as interações orientadas por voz melhoram a experiência do usuário. Os exemplos incluem:

  • Contact centers: desenvolva bots de voz interativos para suporte ao cliente, navegação no catálogo de produtos e soluções de autoatendimento.
  • Assistentes automotivos: habilite assistentes de voz mãos-livres no carro para execução de comandos, navegação e consultas gerais.
  • Educação: Crie companheiros de aprendizagem habilitados para voz e tutores virtuais para treinamento e educação interativos.
  • Serviços públicos: Criar agentes de voz para ajudar os cidadãos com consultas administrativas e informações de serviço público.
  • Recursos humanos: Melhore os processos de RH com ferramentas habilitadas para voz para suporte aos funcionários, desenvolvimento de carreira e treinamento.

Recursos da API de voz ao vivo

A API de voz ao vivo inclui um conjunto abrangente de recursos para suportar diversos casos de uso e garantir interações de voz superiores:

  • Ampla cobertura de localidade: Suporta mais de 15 localidades para conversão de fala em texto e oferece mais de 600 vozes padrão em 140+ localidades para conversão de texto em fala, garantindo acessibilidade global.
  • Entrada e saída personalizáveis: Utilize a lista de frases para personalização leve em tempo real na entrada de áudio. Use a voz personalizada para criar vozes exclusivas e alinhadas à marca para saída de áudio.
  • Opções flexíveis de modelos de IA generativa: escolha entre vários modelos, incluindo GPT-4o, GPT-4o-mini e Phi, adaptados aos requisitos de conversação.
  • Recursos avançados de conversação:
    • Supressão de ruído: Reduz o ruído ambiental para uma comunicação mais clara.
    • Cancelamento de eco: Impede que o agente detete as suas próprias respostas.
    • Deteção robusta de interrupções: Garante o reconhecimento preciso de interrupções durante conversas.
    • Deteção avançada de fim de turno: Permite pausas naturais sem concluir prematuramente as interações.
  • Integração de avatares: Fornece avatares padrão ou personalizáveis sincronizados com saída de áudio, oferecendo uma identidade visual para agentes de voz.
  • Chamada de função: Permite ações externas, uso de ferramentas e respostas fundamentadas usando o padrão VoiceRAG.

Como funciona

A API de voz ao vivo é totalmente gerenciada, eliminando a necessidade de os clientes lidarem com a orquestração de back-end ou a integração de componentes. Desenvolvedores fornecem entrada de áudio e recebem saída de áudio, imagens de avatar e gatilhos de ação, tudo com latência mínima. Você não precisa implantar ou gerenciar nenhum modelo de IA generativa, pois a API lida com toda a infraestrutura subjacente.

Design e compatibilidade de API

A API de voz ao vivo foi projetada para compatibilidade com a API do Azure OpenAI Realtime. Os eventos em tempo real suportados estão principalmente em paridade com os eventos da API em tempo real do Azure OpenAI, com algumas exceções, como descrito no guia da API de voz ao vivo.

Os recursos que são exclusivos da API de voz ao vivo são projetados para serem opcionais e aditivos. Você pode adicionar recursos do Azure AI Speech, como supressão de ruído, cancelamento de eco e deteção avançada de fim de turno, aos seus aplicativos existentes sem precisar alterar sua arquitetura existente.

A API é suportada através de eventos WebSocket, permitindo uma fácil integração servidor-a-servidor. Seu serviço de back-end ou de camada intermediária se conecta à API de voz ao vivo via WebSockets. Você pode usar as mensagens WebSocket diretamente para interagir com a API.

Modelos e regiões suportados

Para potencializar a inteligência do seu agente de voz, você tem flexibilidade e escolha no modelo de IA generativa entre GPT-4o, GPT-4o-mini e Phi. Diferentes modelos de IA generativa fornecem diferentes tipos de recursos, níveis de inteligência, velocidade/latência de inferência e custo. Dependendo do que mais importa para o seu negócio e caso de uso, você pode escolher o modelo que melhor se adapta às suas necessidades.

Todos os modelos suportados nativamente – GPT-4o, GPT-4o-mini e Phi – são totalmente geridos, o que significa que não tem de implantar modelos, preocupar-se com o planeamento de capacidade ou processos de provisionamento. Você pode usar o modelo que você precisa, e a API de voz ao vivo cuida do resto.

A API de voz ao vivo suporta os seguintes modelos. Para regiões com suporte, consulte as regiões do serviço Azure AI Speech.

Modelo Descrição
gpt-4o-realtime-preview GPT-4o em tempo real + opção para usar vozes do Azure de texto para fala, incluindo voz personalizada para áudio.
gpt-4o-mini-realtime-preview GPT-4o mini em tempo real e opção para usar as vozes de texto para fala do Azure, incluindo voz personalizada para áudio.
gpt-4o GPT-4o + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.
gpt-4o-mini GPT-4o mini + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.
gpt-4.1 GPT-4.1 + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.
gpt-4.1-mini GPT-4.1 mini + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.
gpt-4.1-nano GPT-4.1 nano + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.
phi4-mm-realtime Phi4-mm + saída de áudio utilizando as vozes do Azure para conversão de texto em fala, incluindo vozes personalizadas.
phi4-mini Phi4-mm + entrada de áudio através do Azure speech to text + saída de áudio através do Azure text to speech voices, incluindo voz personalizada.

Comparando a API de voz ao vivo com outras soluções de conversão de fala para fala

A API de voz ao vivo é uma alternativa para orquestrar vários componentes, como reconhecimento de fala, IA generativa e conversão de texto em fala. Essa orquestração pode ser complexa e demorada, exigindo um esforço significativo de engenharia para integrar e manter. A API de voz ao vivo simplifica esse processo, fornecendo uma interface única para todos esses componentes, permitindo que os desenvolvedores se concentrem na criação de seus aplicativos em vez de gerenciar a infraestrutura subjacente.

Para atender às suas necessidades, você pode criar sua própria solução ou usar a API de voz ao vivo. Este quadro compara as abordagens:

Requisitos de candidatura Faça-o por si mesmo API de voz ao vivo
Ampla cobertura de localidade com alta precisão (entrada de áudio)
Manter a personalidade da marca e do personagem (saída de áudio)
Melhoramentos de conversação
Escolha de modelos de IA generativa
Saída visual com avatar de texto para fala
Baixo custo de engenharia
Baixa latência percebida pelo usuário final

Preços

O preço da API de voz ao vivo está em vigor a partir de 1º de julho de 2025.

O preço da API de voz ao vivo é hierárquico (Pro, Basic e Lite) com base no modelo de IA generativa usado.

Você não seleciona um nível. Você escolhe um modelo de IA generativa e o preço correspondente se aplica.

Categoria de preços Modelos
Voz em Tempo Real Pro gpt-4o-realtime-preview, gpt-4o, gpt-4.1
Voz ao vivo básica gpt-4o-mini-realtime-preview, gpt-4o-mini, gpt-4.1-mini
Voice Live Lite gpt-4.1-nano, phi4-mm-realtime, phi4-mini

Se você optar por usar voz personalizada para sua saída de fala, será cobrado separadamente pelo treinamento e hospedagem do modelo de voz personalizado. Consulte os preços Text to Speech – Custom Voice – Professional para obter detalhes. A voz personalizada é um recurso de acesso limitado. Saiba mais sobre como criar vozes personalizadas.

Os avatares são cobrados separadamente com o preço do avatar interativo publicado aqui.

Para obter mais detalhes sobre como são aplicadas as cobranças para o treinamento personalizado de voz e avatar, consulte esta nota de preços.

Exemplos de cenários de preços

Aqui estão alguns exemplos de cenários de preços para ajudá-lo a entender como a API de voz ao vivo é cobrada:

Cenário 1

Um agente de atendimento ao cliente criado com entrada padrão do Azure AI Speech, GPT-4.1, saída personalizada do Azure AI Speech e um avatar personalizado.

Você é cobrado na tarifa pro de voz ao vivo por:

  • Texto
  • Áudio com o Azure AI Speech - Padrão
  • Áudio com o Azure AI Speech - Personalizado

Você é cobrado separadamente pelo treinamento e hospedagem de modelo de:

  • Voz personalizada – profissional
  • Avatar personalizado

Cenário 2

Um agente de aprendizagem criado com gpt-4o-realtime-preview entrada de áudio nativa e saída padrão do Azure AI Speech.

Você é cobrado à tarifa profissional para voz ao vivo por:

  • Texto
  • Áudio nativo com gpt-4o-realtime-preview
  • Áudio com o Azure AI Speech - Padrão

Cenário 3

Um entrevistador de talentos construído com entrada de áudio nativa, saída padrão de Azure AI Speech, e um avatar padrão.

Você é cobrado na tarifa básica de voz ao vivo por:

  • Texto
  • Áudio nativo com gpt-4o-mini-realtime-preview
  • Áudio com o Azure AI Speech - Padrão

Você será cobrado separadamente por:

  • Avatar de texto para fala (padrão)

Cenário 4

Um assistente no automóvel criado com phi4-mm-realtime e a voz personalizada do Azure.

Você é cobrado na tarifa de voz live lite por:

  • Texto
  • Áudio nativo com phi4-mm-realtime

Você é cobrado à tarifa Pro de chamada ao vivo por:

  • Áudio com o Azure AI Speech - Personalizado

Você é cobrado separadamente pelo treinamento e hospedagem de modelo de:

  • Voz personalizada – profissional

Uso de token e estimativa de custos

Os tokens são as unidades que os modelos de IA generativa usam para processar entrada e gerar saída. 

Você pode estimar o uso de token para diferentes famílias de modelos com a API de voz ao vivo com base no comprimento do áudio. Os seguintes cálculos de token se aplicam a cada família de modelos:

Família de modelos Entrada de áudio (tokens por segundo) Saída de áudio (tokens por segundo)
Modelos do Azure OpenAI ~10 fichas ~20 fichas
Modelos Phi ~12,5 tokens ~20 fichas

Você também é cobrado por entradas de áudio e texto armazenadas em cache, incluindo o prompt e o contexto das conversas.