Visão geral do avatar de texto para fala
Avatar de texto para fala converte texto em um vídeo digital de um humano fotorrealista (um avatar pré-construído ou um avatar de texto personalizado para fala) falando com uma voz de som natural. O vídeo do avatar de texto para fala pode ser sintetizado de forma assíncrona ou em tempo real. Os desenvolvedores podem criar aplicativos integrados com avatar de texto para fala por meio de uma API ou usar uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
Com modelos avançados de rede neural de avatar de texto para fala, o recurso permite que os usuários forneçam vídeos de avatar falante sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que aderem a práticas responsáveis de IA.
Os recursos de avatar de texto para fala da IA do Azure incluem:
- Converte texto em um vídeo digital de um humano fotorrealista falando com vozes de som natural alimentadas por texto para fala da IA do Azure.
- Fornece uma coleção de avatares pré-construídos.
- A voz do avatar é gerada pela conversão de texto em fala da IA do Azure. Para obter mais informações, consulte Voz e idioma do avatar.
- Sintetiza vídeo de avatar de texto para fala de forma assíncrona com a API de síntese em lote ou em tempo real.
- Fornece uma ferramenta de criação de conteúdo no Speech Studio para criar conteúdo de vídeo sem codificação.
- Permite conversas de avatar em tempo real através da ferramenta de avatar de chat ao vivo no Speech Studio.
Com os modelos avançados de rede neural de avatar de texto para fala, o recurso permite que você forneça vídeos de avatares falantes sintéticos realistas e de alta qualidade para várias aplicações, ao mesmo tempo em que adere a práticas responsáveis de IA.
Gorjeta
Para converter texto em fala com uma abordagem sem código, tente a ferramenta Avatar de texto em fala no Speech Studio.
Voz e linguagem do avatar
Você pode escolher entre uma variedade de vozes pré-construídas para o avatar. O suporte de idioma para avatar de texto para fala é o mesmo que o suporte de idioma para conversão de texto em fala. Para obter detalhes, consulte Suporte de idioma e voz para o serviço de fala. Avatares pré-construídos de texto para fala podem ser acessados através do portal do Speech Studio ou via API.
A voz no vídeo sintético pode ser uma voz neural pré-construída disponível no Azure AI Speech ou a voz neural personalizada do talento de voz selecionado por você.
Saída de vídeo avatar
Tanto a síntese em lote quanto a resolução de síntese em tempo real são 1920 x 1080, e os quadros por segundo (FPS) são 25. Codec de síntese em lote pode ser h264 ou h265 se o formato for mp4 e pode definir codec como vp9 se o formato for webm
, só webm
pode conter um canal alfa. Codec de síntese em tempo real é h264. A taxa de bits de vídeo pode ser configurada para síntese em lote e síntese em tempo real na solicitação; O valor padrão é 2000000; Configurações mais detalhadas podem ser encontradas no código de exemplo.
Síntese em lote | Síntese em tempo real | |
---|---|---|
Resolução | 1920 x 1080 | 1920 x 1080 |
FPS | 25 | 25 |
Codec | H264/H265/VP9 | h264 |
Avatar personalizado de texto para fala
Você pode criar avatares personalizados de texto para fala que são exclusivos do seu produto ou marca. Tudo o que é preciso para começar é levar 10 minutos de gravações de vídeo. Se você também estiver criando uma voz neural personalizada para o ator, o avatar pode ser altamente realista. Para obter mais informações, consulte O que é avatar personalizado de texto para fala.
Voz neural personalizada e avatar de texto para fala personalizado são recursos separados. Você pode usá-los de forma independente ou em conjunto. Se você planeja também usar voz neural personalizada com um avatar de texto para fala, você precisa implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas pelo avatar.
Código de exemplo
O código de exemplo para avatar de texto para fala está disponível no GitHub. Estes exemplos abrangem os cenários mais populares:
- Síntese em lote (REST)
- Síntese em tempo real (SDK)
- Bate-papo ao vivo com o Azure OpenAI por trás (SDK)
- Para criar um APP de chat ao vivo com o Azure OpenAI On Your Data, você pode consultar este código de exemplo (pesquise "On Your Data")
Preços
- Ao longo de uma sessão em tempo real de avatar ou criação de conteúdo em lote, os serviços text-to-speech, speech-to-text, Azure OpenAI ou outros serviços do Azure são cobrados separadamente.
- Consulte a nota de preços do avatar de texto para fala para saber como funciona o faturamento para o recurso de avatar de conversão de texto em fala.
- Para obter os preços detalhados, consulte Preços do serviço de fala. Observe que o preço do avatar só será visível para regiões de serviço onde o recurso está disponível, incluindo Sudeste Asiático, Norte da Europa, Europa Ocidental, Suécia Central, Centro-Sul dos EUA e Oeste dos EUA 2.
Localizações disponíveis
O recurso de avatar de texto para fala está disponível apenas nas seguintes regiões de serviço: Sudeste Asiático, Norte da Europa, Europa Ocidental, Suécia Central, Centro-Sul dos EUA e Oeste dos EUA 2.
IA responsável
Nós nos preocupamos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência e divulgação de IA responsável para talentos de voz e avatar.