Visão geral do avatar de conversão de texto em fala

2025-06-25

O avatar de conversão de texto em fala transforma o texto em um vídeo digital de um humano fotorealista (seja um avatar padrão ou um avatar personalizado de conversão de texto em fala) que fala com uma voz natural. O vídeo de avatar de conversão de texto em fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com o avatar de conversão de texto em fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Com os modelos avançados de rede neural do avatar de conversão de texto em fala, o recurso capacita os usuários a fornecer vídeos de avatar sintéticos de alta qualidade e semelhantes à vida para vários aplicativos, aderindo ao mesmo tempo a práticas de IA responsáveis.

Dica

Para converter texto em fala com uma abordagem sem código, experimente a Ferramenta Avatar de conversão de texto em fala no Speech Studio.

Funcionalidades de avatar

As funcionalidades de avatar de conversão de texto em fala incluem:

Converte o texto em um vídeo digital de um humano fotorealista falando com vozes naturais alimentadas pela conversão de texto em fala da IA do Azure.
Fornece uma coleção de avatares padrão.
O recurso de texto para fala do Azure AI gera a voz do avatar. Para obter mais informações, confira Voz e idioma do Avatar.
Sintetiza o vídeo do avatar de conversão de texto em fala de forma assíncrona com a API de síntese em lote ou em tempo real.
Fornece uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
Habilita conversas de avatar em tempo real por meio da ferramenta de avatar de chat ao vivo no Speech Studio.

Com os modelos avançados de rede neural do avatar de conversão de texto em fala, o recurso permite que você forneça vídeos de avatar de fala sintética de alta qualidade e realistas para vários aplicativos, ao mesmo tempo em que aderir a práticas de IA responsáveis.

Voz e linguagem avatar

Você pode escolher entre uma variedade de vozes padrão para o avatar. O suporte de linguagem para avatar de conversão de texto em fala é o mesmo que o suporte de idioma para conversão de texto em fala. Para obter detalhes, confira Suporte de linguagem e voz para o serviço de Fala. Os avatares de texto padrão para fala podem ser acessados por meio do portal do Speech Studio ou por meio da API.

A voz no vídeo sintético pode ser uma voz padrão de fala de IA do Azure ou a voz personalizada do talento de voz selecionado por você.

Saída de vídeo do avatar

A síntese em lote e a resolução de síntese em tempo real são 1920 x 1080 e os quadros por segundo (FPS) são 25. O codec de síntese em lote poderá ser h264, hevc ou av1 se o formato for mp4 e puder definir codec como vp9 ou av1 se o formato for webm; só vp9 poderá conter um canal alfa. O codec de síntese em tempo real é h264. A taxa de bits de vídeo pode ser configurada para síntese em lote e síntese em tempo real na solicitação; o valor padrão é 2000000; Configurações mais detalhadas podem ser encontradas no código de exemplo.

	Síntese em lote	Síntese em tempo real
Resolução	1920 x 1080	1920 x 1080
FPS	vinte e cinco	vinte e cinco
Codec	h264/hevc/vp9/av1	h264

Avatar de conversão de texto em fala personalizado

Você pode criar avatares de conversão de texto em fala personalizados que sejam exclusivos para seu produto ou marca. Tudo o que leva para começar é levar 10 minutos de gravações de vídeo. Se você também está ajustando uma voz profissional para o ator, o avatar pode ser altamente realista.

A sincronização de voz para avatar é treinada junto com o avatar personalizado que utiliza o áudio do vídeo de treinamento. A voz é associada exclusivamente ao avatar personalizado e não pode ser usada independentemente.

O ajuste de voz profissional e o texto personalizado para o avatar de fala são recursos separados. Você pode usá-los independentemente ou juntos. Se você planeja também usar o ajuste de voz profissional com um avatar de texto para fala, será necessário implantar ou copiar seu modelo de voz profissional ajustado para uma das regiões compatíveis com avatar.

Para obter mais informações, confira O que é o avatar de conversão de texto em fala personalizado.

Código de exemplo

O código de exemplo para o avatar de conversão de texto em fala está disponível no GitHub. Estes exemplos abrangem os cenários mais populares:

Síntese do Lote (REST)
SDK (síntese em tempo real)
Chat ao vivo com a OpenAI do Azure por trás (SDK)
Para criar um aplicativo de chat ao vivo com o Azure OpenAI On Your Data, você pode consultar este código de exemplo (pesquise "On Your Data")

Preços

Durante uma sessão de uso do avatar em tempo real ou criação de conteúdo em lote, a conversão de texto em fala, conversão de fala em texto, o OpenAI do Azure ou outros serviços do Azure são cobrados separadamente.
A sincronização de voz para avatar (por meio de treinamento de avatar personalizado) custa o mesmo que uma voz pessoal em termos de criação e síntese de voz. O armazenamento da voz é gratuito.
Confira nota sobre preços do avatar de conversão de texto em fala para saber como a cobrança funciona para o recurso de avatar de conversão de texto em fala.
Para obter informações detalhadas, confira Preços do serviço de Fala. Observe que o preço do avatar só será visível em regiões de serviço em que o recurso está disponível, incluindo Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Locais disponíveis

O recurso de avatar de conversão de texto em fala só está disponível nas seguintes regiões de serviço: Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

IA responsável

Preocupamo-nos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, confira as notas de transparência de IA responsável e a divulgação do talento de voz e avatar.