O que é o avatar de conversão de texto em fala personalizado?

2025-06-06

O avatar de conversão de texto em fala personalizado permite que você crie um avatar de fala sintética personalizado e único para seu aplicativo. Com o avatar de conversão de texto em fala personalizado, você pode criar um avatar exclusivo e de aparência natural para seu produto ou marca fornecendo dados de gravação de vídeo de seus atores selecionados. O avatar é ainda mais realista se você também usar uma voz profissional ou sincronização de voz para o avatar do mesmo ator.

Importante

O acesso do avatar de conversão de texto em fala personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Como ele funciona?

A criação de um avatar de conversão de texto em fala personalizado requer pelo menos 10 minutos de gravação de vídeo do talento do avatar como dados de treinamento, e você deve primeiro obter o consentimento do talento do ator.

O modelo de avatar personalizado pode dar suporte a:

Geração de vídeo por meio da API de síntese em lote.
Chat ao vivo por meio da API de síntese de streaming.

Antes de começar, aqui estão algumas considerações:

Seu caso de uso: Você usará o avatar para criar conteúdo de vídeo, como material de treinamento, introdução ao produto ou usar o avatar como vendedor virtual em uma conversa em tempo real com seus clientes? Há alguns requisitos de gravação para diferentes casos de uso.

A aparência do avatar: o avatar personalizado de conversão de texto em fala tem a mesma aparência do talento do avatar nos dados de treinamento, e não damos suporte à personalização da aparência do modelo de avatar, como roupas, penteado, etc. Portanto, se o aplicativo exigir vários estilos do mesmo avatar, você deverá preparar dados de treinamento para cada estilo, pois cada estilo de um avatar é considerado como um único modelo de avatar.

A voz do avatar: O avatar de texto personalizado para fala pode funcionar com voz padrão, voz profissional e sincronização de voz para avatar.

Sincronização de voz para avatar: uma voz sintética semelhante à voz do talento avatar é treinada ao lado do avatar personalizado utilizando áudio do vídeo de treinamento.
Voz profissional: ajuste uma voz profissional com mais dados de treinamento, fornecendo uma experiência de voz premium para seu avatar, incluindo conversas naturais, vários estilos e suporte multilíngue.

Aqui está uma visão geral das etapas para criar um avatar de conversão de texto em fala personalizado:

Obter o vídeo de consentimento. Obtenha uma gravação de vídeo do talento lendo uma declaração de consentimento. Eles devem consentir com o uso de seus dados de imagem e voz para treinar um modelo de avatar de fala personalizado e criar uma versão sintética de sua voz.
Preparar os dados de treinamento. Verifique se a gravação de vídeo está no formato correto. É uma boa ideia gravar o vídeo em um estúdio de gravação de vídeo de qualidade profissional para obter uma imagem de fundo limpa. A qualidade do avatar resultante depende muito do vídeo gravado usado para treinamento. Fatores como taxa de fala, postura corporal, expressão facial, gestos de mão, consistência na posição do ator e iluminação da gravação de vídeo são essenciais para criar um avatar de conversão de texto em fala personalizado envolvente. Confira como preparar dados de treinamento para obter mais detalhes.
Treinar o modelo de avatar. Depois que os dados estiverem prontos, carregue-os no portal de avatar personalizado e comece a treinar seu modelo. A verificação do consentimento é realizada durante o treinamento. Verifique se você tem acesso ao recurso de avatar de conversão de texto em fala personalizado antes de criar um projeto.
Implante e use seu modelo de avatar em seus aplicativos.

Sequência de componentes

O modelo de avatar de conversão de texto em fala personalizado contém três componentes: analisador de texto, sintetizador de áudio de texto em fala e renderizador de vídeo de avatar de conversão de texto em fala.

Para gerar um arquivo de vídeo avatar ou fluxo com o modelo de avatar, o texto é a primeira entrada no analisador de texto, que fornece a saída na forma de uma sequência de fonema.
O sintetizador de áudio sintetiza o áudio de voz para o texto que foi inserido, e essas duas partes são fornecidas por modelos de voz padrão ou customizados.
Por fim, o modelo de avatar de texto em fala prevê a imagem da sincronização labial com o áudio de fala, de modo que o vídeo sintético seja gerado.

Os modelos de avatar de texto em fala são treinados usando redes neurais profundas com base nos exemplos de gravação de vídeos humanos em diferentes idiomas. Todos os idiomas de vozes padrão e personalizadas são suportados.

Locais disponíveis

O treinamento de avatar personalizado está disponível apenas nas seguintes regiões de serviço: Sudeste da Ásia, Oeste da Europa e Oeste dos EUA 2. Você pode usar um modelo de avatar personalizado nas seguintes regiões de serviço: Sudeste da Ásia, Norte da Europa, Oeste da Europa, Suécia Central, Sul dos EUA, Leste dos EUA 2 e Oeste dos EUA 2.

Voz personalizada e avatar conversão de texto em fala personalizado

A voz personalizada e o texto personalizado para o avatar de fala são recursos separados. Você pode usá-los independentemente ou juntos. Se você também estiver criando uma voz profissional para o ator, o avatar pode ser altamente realista.

O texto personalizado do avatar de conversão de texto em fala pode funcionar com uma voz padrão ou voz personalizada como a voz do avatar. Para obter mais informações, confira Voz e idioma do Avatar.

Há dois tipos de voz personalizada para um avatar personalizado:

Sincronização de voz para avatar: quando você habilita a sincronização de voz para a opção de avatar durante o treinamento de avatar personalizado, um modelo de voz sintética usando a semelhança do talento do avatar é treinado simultaneamente com o avatar. Essa voz é associada exclusivamente ao avatar personalizado e não pode ser usada de forma independente. Atualmente, há suporte para sincronização de voz para avatar nas regiões Sudeste Asiático, Oeste da Europa e Oeste dos EUA 2.
Voz profissional: Você pode ajustar uma voz profissional. Ajuste fino de voz profissional e avatar de síntese de fala personalizado são recursos distintos. Você pode usá-los independentemente ou juntos. Se você optar por usá-los juntos, será necessário solicitar ajuste de voz profissional e texto personalizado ao avatar de fala separadamente, e você será cobrado separadamente pelo ajuste de voz profissional e texto personalizado para avatar de fala. Para saber mais, confira a página de preço. Além disso, se você planeja usar o ajuste de voz profissional com um avatar de texto para fala, será necessário implantar ou copiar seu modelo de voz personalizado para uma das regiões compatíveis com avatar.

Se você ajustar uma voz profissional e quiser usá-la junto com o avatar personalizado, preste atenção aos seguintes pontos:

Certifique-se de que o ponto de extremidade de voz personalizado seja criado no mesmo recurso do Azure AI Foundry que o ponto de extremidade do avatar personalizado. Conforme necessário, confira Treinar o seu modelo de voz profissional para copiar o modelo de voz personalizado para o mesmo recurso da Fábrica de IA do Azure que o ponto de extremidade de avatar personalizado.
Você pode ver a opção de voz personalizada na lista de vozes da página de geração de conteúdo do avatar e das configurações de voz de chat ao vivo.
Se você estiver usando a síntese em lote para a API de avatar, adicione a propriedade "customVoices" para associar a ID de implantação do modelo de voz personalizada ao nome da voz na solicitação. Para obter mais informações, consulte a Propriedades de conversão de texto em fala.
Se você estiver usando a síntese em tempo real para a API de avatar, confira nosso código de exemplo no GitHub para definir a voz personalizada.

Compartilhar via

O que é o avatar de conversão de texto em fala personalizado?

Como ele funciona?

Sequência de componentes

Locais disponíveis

Voz personalizada e avatar conversão de texto em fala personalizado

Conteúdo relacionado

Comentários

Recursos adicionais