Compartilhar via


API do Voice Live para agentes de voz em tempo real (versão prévia)

Observação

Esse recurso está atualmente em versão prévia pública. Essa versão prévia é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Alguns recursos podem não ter suporte ou podem ter restrição de recursos. Para obter mais informações, consulte Termos de Uso Complementares para Versões Prévias do Microsoft Azure.

O que é a API do Voice Live?

A API do Voice Live é uma solução que permite interações de fala de baixa latência e alta qualidade para agentes de voz. A API foi projetada para desenvolvedores que buscam experiências escalonáveis e eficientes controladas por voz, pois elimina a necessidade de orquestrar manualmente vários componentes. Ao integrar o reconhecimento de fala, a IA gerativa e as funcionalidades de texto em fala em uma única interface unificada, ela fornece uma solução de ponta a ponta para criar experiências perfeitas.

Noções básicas sobre experiências de fala em fala

A tecnologia de fala em fala está revolucionando a forma como os humanos interagem com sistemas, oferecendo soluções intuitivas baseadas em voz. As implementações tradicionais envolviam a combinação de módulos diferentes, como conversão de fala em texto, reconhecimento de intenção, gerenciamento de diálogo, conversão de texto em fala e muito mais. Esse encadeamento pode levar a maior complexidade de engenharia e latência percebida pelo usuário final.

Com avanços em LLMs (Modelos de Linguagem Grande) e IA multimodal, a API do Voice Live consolida essas funcionalidades, simplificando os fluxos de trabalho para desenvolvedores. Essa abordagem aprimora as interações em tempo real e garante uma comunicação natural de alta qualidade, tornando-a adequada para setores que exigem soluções instantâneas habilitadas para voz.

Principais cenários para a API do Voice Live

A API do Azure AI Voice Live é ideal para cenários em que as interações controladas por voz melhoram a experiência do usuário. Os exemplos incluem:

  • Centros de contato: desenvolva bots de voz interativos para suporte ao cliente, navegação no catálogo de produtos e soluções de autoatendimento.
  • Assistentes automotivos: Habilite assistentes de voz para uso dentro do carro que possibilitem a execução de comandos, navegação e consultas gerais.
  • Educação: Crie companheiros de aprendizagem com capacidade de voz e tutores virtuais para treinamento e educação interativos.
  • Serviços públicos: crie agentes de voz para ajudar os cidadãos com consultas administrativas e informações de serviço público.
  • Recursos humanos: aprimore os processos de RH com ferramentas habilitadas para voz para suporte aos funcionários, desenvolvimento de carreira e treinamento.

Recursos da API do Voice Live

A API do Voice Live inclui um conjunto abrangente de recursos para dar suporte a diversos casos de uso e garantir interações de voz superiores:

  • Ampla cobertura de localidade: dá suporte a mais de 15 localidades para conversão de fala em texto e oferece mais de 600 vozes padrão em mais de 140 localidades para conversão de texto em fala, garantindo acessibilidade global.
  • Entrada e saída personalizáveis: use a lista de frases para personalização just-in-time leve na entrada de áudio. Use a voz personalizada para criar vozes exclusivas alinhadas à marca para saída de áudio.
  • Opções flexíveis de modelo de IA generativo: escolha entre vários modelos, incluindo GPT-4o, GPT-4o-mini e Phi, adaptados aos requisitos de conversa.
  • Recursos avançados de conversação:
    • Supressão de ruído: reduz o ruído ambiental para uma comunicação mais clara.
    • Cancelamento de eco: impede que o agente pegue suas próprias respostas.
    • Detecção de interrupção robusta: garante o reconhecimento preciso de interrupções durante as conversas.
    • Detecção avançada de fim de turno: permite pausas naturais sem interações prematuramente concluídas.
  • Integração de avatar: fornece avatares padrão ou personalizáveis sincronizados com saída de áudio, oferecendo uma identidade visual para agentes de voz.
  • Chamada de função: Permite ações externas, uso de ferramentas e respostas fundamentadas com o uso do padrão VoiceRAG.

Como funciona

A API do Voice Live é totalmente gerenciada, eliminando a necessidade de os clientes lidarem com a orquestração de back-end ou a integração de componentes. Os desenvolvedores fornecem entrada de áudio e recebem saída de áudio, visuais de avatar e gatilhos de ação, tudo com latência mínima. Você não precisa implantar ou gerenciar modelos de IA generativos, pois a API lida com toda a infraestrutura subjacente.

Design e compatibilidade da API

A API do Azure AI Voice Live foi projetada para compatibilidade com a API do Azure OpenAI Realtime. Os eventos em tempo real com suporte estão principalmente em paridade com os eventos da API do Azure OpenAI Realtime, com algumas exceções. Confira o guia de instruções da API do Voice Live para obter mais detalhes.

Os recursos exclusivos da API do Voice Live foram projetados para serem opcionais e aditivos. Você pode adicionar recursos de Fala de IA do Azure, como supressão de ruído, cancelamento de eco e detecção avançada de fim de turno aos aplicativos existentes sem a necessidade de alterar sua arquitetura existente.

A API tem suporte por meio de eventos WebSocket, permitindo uma integração fácil de servidor para servidor. Seu serviço de back-end ou de camada intermediária conecta-se à API do Voice Live por meio de WebSockets. Você pode usar as mensagens do WebSocket diretamente para interagir com a API.

Modelos e regiões com suporte

Para alimentar a inteligência do seu agente de voz, você tem flexibilidade e escolha no modelo de IA generativo entre GPT-4o, GPT-4o-mini e Phi. Diferentes modelos de IA generativos fornecem diferentes tipos de funcionalidades, níveis de inteligência, velocidade/latência de inferência e custo. Dependendo do que mais importa para sua empresa e caso de uso, você pode escolher o modelo que melhor atenda às suas necessidades.

Todos os modelos com suporte nativo – GPT-4o, GPT-4o-mini e Phi – são totalmente gerenciados, o que significa que você não precisa implantar modelos, se preocupar com o planejamento de capacidade ou provisionar as produtividades. Você pode simplesmente usar o modelo necessário e a API do Voice Live cuida do restante.

A API do Voice Live dá suporte aos seguintes modelos e regiões:

Modelo Descrição Regiões com suporte
gpt-4o-realtime-preview GPT-4o realtime + opção para usar as vozes de conversão de texto em fala do Azure, incluindo voz personalizada para áudio. eastus2
swedencentral
gpt-4o-mini-realtime-preview GPT-4o mini realtime + opção para usar as vozes de conversão de texto em fala do Azure, incluindo voz personalizada para áudio. eastus2
swedencentral
gpt-4o GPT-4o + entrada de áudio por meio de reconhecimento de fala do Azure + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada. eastus2
swedencentral
gpt-4o-mini GPT-4o mini + entrada de áudio por meio de reconhecimento de fala do Azure + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada. eastus2
swedencentral
phi4-mm-realtime Phi4-mm + saída de áudio por meio das vozes da conversão de texto em fala do Azure, incluindo voz personalizada. eastus2
swedencentral
phi4-mini Phi4-mm + entrada de áudio por meio da conversão de fala para texto do Azure + saída de áudio por meio da conversão de texto para fala do Azure, incluindo voz personalizada. eastus2
swedencentral

Comparando a API Voice Live com outras soluções de fala para fala

A API do Voice Live é uma alternativa para orquestrar vários componentes, como reconhecimento de fala, IA generativa e conversão de texto em fala. Essa orquestração pode ser complexa e demorada, exigindo esforços significativos de engenharia para integrar e manter. A API do Voice Live simplifica esse processo fornecendo uma única interface para todos esses componentes, permitindo que os desenvolvedores se concentrem na criação de seus aplicativos em vez de gerenciar a infraestrutura subjacente.

Para atender aos seus requisitos, você pode criar sua própria solução ou usar a API do Voice Live. A tabela a seguir compara as duas abordagens:

Requisito de aplicativo Faça você mesmo Voice Live API
Ampla cobertura de localidade com alta precisão (entrada de áudio)
Manter a personalidade da marca e do personagem (saída de áudio)
Melhorias na conversação
Escolha de modelos de IA generativos
Saída visual com avatar de conversão de texto em fala
Baixo custo de engenharia
Baixa latência percebida pelo usuário final