Share via


Visão geral do avatar de texto para fala (visualização)

Nota

O avatar de conversão de texto em fala está atualmente em pré-visualização pública. Essa visualização é fornecida sem um contrato de nível de serviço e não é recomendada para cargas de trabalho de produção. Algumas funcionalidades poderão não ser suportadas ou poderão ter capacidades limitadas. Para obter mais informações, veja Termos Suplementares de Utilização para Pré-visualizações do Microsoft Azure.

Avatar de texto para fala converte texto em um vídeo digital de um humano fotorrealista (um avatar pré-construído ou um avatar de texto personalizado para fala) falando com uma voz de som natural. O vídeo do avatar de texto para fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com avatar de texto para fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.

Com modelos avançados de rede neural de avatar de texto para fala, o recurso permite que os usuários forneçam vídeos de avatar falante sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que aderem a práticas responsáveis de IA.

Nota

O recurso de avatar de texto para fala só está disponível nas seguintes regiões de serviço: Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático.

Os recursos de avatar de texto para fala da IA do Azure incluem:

  • Converte texto em um vídeo digital de um humano fotorrealista falando com vozes de som natural alimentadas por texto para fala da IA do Azure.
  • Fornece uma coleção de avatares pré-construídos.
  • A voz do avatar é gerada pela conversão de texto em fala da IA do Azure. Para obter mais informações, consulte Voz e idioma do avatar.
  • Sintetiza vídeo de avatar de texto para fala de forma assíncrona com a API de síntese em lote ou em tempo real.
  • Fornece uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
  • Permite conversas de avatar em tempo real através da ferramenta de avatar de chat ao vivo no Speech Studio.

Com os modelos avançados de rede neural de avatar de texto para fala, o recurso permite que você forneça vídeos de avatares falantes sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que adere a práticas responsáveis de IA.

Gorjeta

Para converter texto em fala com uma abordagem sem código, tente a ferramenta Avatar de texto em fala no Speech Studio.

Voz e linguagem do avatar

Você pode escolher entre uma variedade de vozes pré-construídas para o avatar. O suporte de idioma para avatar de texto para fala é o mesmo que o suporte de idioma para conversão de texto em fala. Para obter detalhes, consulte Suporte de idioma e voz para o serviço de fala. Avatares pré-construídos de texto para fala podem ser acessados através do portal do Speech Studio ou via API.

A voz no vídeo sintético pode ser uma voz neural pré-construída disponível no Azure AI Speech ou a voz neural personalizada do talento de voz selecionado por você.

Saída de vídeo avatar

Tanto a síntese em lote quanto a resolução de síntese em tempo real são 1920 x 1080, e os quadros por segundo (FPS) são 25. Codec de síntese em lote pode ser h264 ou h265 se o formato for mp4 e pode definir codec como vp9 se o formato for webm, só webm pode conter um canal alfa. Codec de síntese em tempo real é h264. A taxa de bits de vídeo pode ser configurada para síntese em lote e síntese em tempo real na solicitação; O valor padrão é 2000000; Configurações mais detalhadas podem ser encontradas no código de exemplo.

Síntese em lote Síntese em tempo real
Resolução 1920 x 1080 1920 x 1080
FPS 25 25
Codec H264/H265/VP9 h264

Avatar personalizado de texto para fala

Você pode criar avatares personalizados de texto para fala que são exclusivos do seu produto ou marca. Tudo o que é preciso para começar é levar 10 minutos de gravações de vídeo. Se você também estiver criando uma voz neural personalizada para o ator, o avatar pode ser altamente realista. Para obter mais informações, consulte O que é avatar personalizado de texto para fala.

Voz neural personalizada e avatar de texto para fala personalizado são recursos separados. Você pode usá-los de forma independente ou em conjunto. Se você planeja também usar voz neural personalizada com um avatar de texto para fala, você precisa implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas pelo avatar.

Código de exemplo

O código de exemplo para avatar de texto para fala está disponível no GitHub. Estes exemplos abrangem os cenários mais populares:

Preços

  • Ao utilizar o recurso de avatar de conversão de texto em fala, serão cobradas taxas com base nos minutos de saída de vídeo. No entanto, com o avatar em tempo real, as cobranças são baseadas nos minutos de ativação do avatar, independentemente de o avatar estar falando ativamente ou permanecendo em silêncio. Para otimizar os custos para o uso de avatares em tempo real, consulte as dicas fornecidas no código de exemplo (pesquise "Usar vídeo local para ocioso").
  • Ao longo de uma sessão em tempo real de avatar ou criação de conteúdo em lote, os serviços text-to-speech, speech-to-text, Azure OpenAI ou outros serviços do Azure são cobrados separadamente.
  • Para obter mais informações, consulte Preços do serviço de fala. Observe que o preço do avatar só será visível para regiões de serviço onde o recurso está disponível, incluindo Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático.

Localizações disponíveis

O recurso de avatar de texto para fala só está disponível nas seguintes regiões de serviço: Oeste dos EUA 2, Europa Ocidental e Sudeste Asiático.

IA responsável

Nós nos preocupamos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência e divulgação de IA responsável para talentos de voz e avatar.

Próximos passos