Visão geral do avatar de texto para fala

2025-06-02

Avatar de conversão de texto para fala transforma texto em um vídeo digital de um humano fotorrealista (seja um avatar padrão ou um avatar de conversão de texto para fala personalizado) falando com uma voz natural. O vídeo do avatar de texto para fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com avatar de texto para fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Com modelos avançados de rede neural de avatar de texto para fala, o recurso permite que os usuários forneçam vídeos de avatar falante sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que aderem a práticas responsáveis de IA.

Gorjeta

Para converter texto em fala com uma abordagem sem código, tente a ferramenta Avatar de texto em fala no Speech Studio.

Capacidades do avatar

Os recursos de avatar de texto para fala incluem:

Converte texto em um vídeo digital de um humano fotorrealista falando com vozes de som natural alimentadas por texto para fala da IA do Azure.
Fornece uma coleção de avatares padrão.
A conversão de texto em fala da IA do Azure gera a voz do avatar. Para obter mais informações, consulte Voz e idioma do avatar.
Sintetiza vídeo de avatar de texto para fala de forma assíncrona com a API de síntese em lote ou em tempo real.
Fornece uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
Permite conversas de avatar em tempo real através da ferramenta de avatar de chat ao vivo no Speech Studio.

Com os modelos avançados de rede neural de avatar de texto para fala, o recurso permite que você forneça vídeos de avatares falantes sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que adere a práticas responsáveis de IA.

Voz e linguagem do avatar

Você pode escolher entre uma variedade de vozes padrão para o avatar. O suporte de idioma para avatar de texto para fala é o mesmo que o suporte de idioma para conversão de texto em fala. Para obter detalhes, consulte Suporte de idioma e voz para o serviço de fala. Os avatares padrão de texto para fala podem ser acessados através do portal do Speech Studio ou via API.

A voz no vídeo sintético pode ser uma voz padrão do Azure AI Speech ou a voz personalizada do talento de voz selecionado por você.

Saída de vídeo avatar

Tanto a síntese em lote quanto a resolução de síntese em tempo real são 1920 x 1080, e os quadros por segundo (FPS) são 25. Codec de síntese em lote pode ser h264, hevc, ou av1 se o formato é mp4 e pode definir codec como vp9 ou av1 se o formato é webm; só vp9 pode conter um canal alfa. Codec de síntese em tempo real é h264. A taxa de bits de vídeo pode ser configurada para síntese em lote e síntese em tempo real na solicitação; O valor padrão é 2000000; Configurações mais detalhadas podem ser encontradas no código de exemplo.

	Síntese em lote	Síntese em tempo real
Resolução	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/hevc/vp9/av1	h264

Avatar personalizado de texto para fala

Você pode criar avatares personalizados de texto para fala que são exclusivos do seu produto ou marca. Tudo o que é preciso para começar é levar 10 minutos de gravações de vídeo. Se você também está ajustando uma voz profissional para o ator, o avatar pode ser altamente realista.

A sincronização de voz para avatar é treinada juntamente com o avatar personalizado utilizando o áudio do vídeo de treinamento. A voz está exclusivamente associada ao avatar personalizado e não pode ser usada de forma independente.

Ajuste fino de voz profissional e avatar de texto para fala personalizado são recursos separados. Você pode usá-los de forma independente ou em conjunto. Se você planeja também usar o ajuste fino de voz profissional com um avatar de texto para fala, você precisa implantar ou copiar seu modelo de voz profissional ajustado para uma das regiões suportadas por avatar.

Para obter mais informações, consulte O que é avatar personalizado de texto para fala.

Código de exemplo

O código de exemplo para avatar de texto para fala está disponível no GitHub. Estes exemplos abrangem os cenários mais populares:

Síntese em lote (REST)
Síntese em tempo real (SDK)
Bate-papo ao vivo com o Azure OpenAI por trás (SDK)
Para criar um APP de chat ao vivo com o Azure OpenAI On Your Data, você pode consultar este código de exemplo (pesquise "On Your Data")

Preços

Ao longo de uma sessão em tempo real de avatar ou criação de conteúdo em lote, os serviços text-to-speech, speech-to-text, Azure OpenAI ou outros serviços do Azure são cobrados separadamente.
A sincronização de voz para avatar (através do treinamento de avatar personalizado) é cobrada da mesma forma que a de uma voz pessoal, no que se refere à criação e síntese de voz. O armazenamento da voz é gratuito.
Consulte a nota de preços do avatar de texto para fala para saber como funciona o faturamento para o recurso de avatar de conversão de texto em fala.
Para obter os preços detalhados, consulte Preços do serviço de fala. Observe que o preço do avatar só será visível para regiões de serviço onde o recurso está disponível, incluindo Sudeste Asiático, Norte da Europa, Europa Ocidental, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Localizações disponíveis

O recurso de avatar de texto para fala só está disponível nas seguintes regiões de serviço: Sudeste Asiático, Norte da Europa, Europa Ocidental, Suécia Central, Centro-Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

IA responsável

Nós nos preocupamos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência e divulgação de IA responsável para talentos de voz e avatar.