Compartilhar via


O que é o avatar de conversão de texto em fala personalizado?

O avatar de conversão de texto em fala personalizado permite que você crie um avatar de fala sintética personalizado e único para seu aplicativo. Com o avatar de conversão de texto em fala personalizado, você pode criar um avatar exclusivo e de aparência natural para seu produto ou marca fornecendo dados de gravação de vídeo de seus atores selecionados. Se você também criar uma voz neural personalizada para o mesmo ator e usá-la como a voz do avatar, o avatar será ainda mais realista.

Importante

O acesso do avatar de conversão de texto em fala personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Como ele funciona?

A criação de um avatar de conversão de texto em fala personalizado requer pelo menos 10 minutos de gravação de vídeo do talento do avatar como dados de treinamento, e você deve primeiro obter o consentimento do talento do ator.

Importante

Atualmente, para o avatar de conversão de texto em fala personalizado, o processamento de dados e o treinamento de modelo são feitos manualmente.

Antes de começar, aqui estão algumas considerações:

Seu caso de uso: Você usará o avatar para criar conteúdo de vídeo, como material de treinamento, introdução ao produto ou usar o avatar como vendedor virtual em uma conversa em tempo real com seus clientes? Há alguns requisitos de gravação para diferentes casos de uso.

A aparência do avatar: O avatar de conversão de texto em fala personalizado tem a mesma aparência que o talento do avatar nos dados de treinamento, e não damos suporte à personalização da aparência do modelo de avatar, como roupas, penteado, etc. Portanto, se o aplicativo exigir vários estilos do mesmo avatar, você deverá preparar dados de treinamento para cada estilo, pois cada estilo de um avatar será considerado como um único modelo de avatar.

A voz do avatar: O avatar de conversão de texto em fala personalizado pode funcionar com vozes neurais predefinidas e vozes neurais personalizadas. Criar uma voz neural personalizada para o talento do avatar e usá-la com o avatar aumentará significativamente a naturalidade da experiência de avatar.

Aqui está uma visão geral das etapas para criar um avatar de conversão de texto em fala personalizado:

  1. Obter vídeo de consentimento: Obter uma gravação de vídeo da declaração de consentimento. A declaração de consentimento é uma gravação de vídeo do talento avatar lendo uma declaração, dando consentimento ao uso de seus dados de imagem e voz para treinar um modelo de avatar de conversão de texto em fala personalizado.

  2. Preparar dados de treinamento: Verifique se a gravação de vídeo está no formato certo. É uma boa ideia gravar o vídeo em um estúdio de gravação de vídeo de qualidade profissional para obter uma imagem de fundo limpa. A qualidade do avatar resultante depende muito do vídeo gravado usado para treinamento. Fatores como taxa de fala, postura corporal, expressão facial, gestos de mão, consistência na posição do ator e iluminação da gravação de vídeo são essenciais para criar um avatar de conversão de texto em fala personalizado envolvente.

  3. Treinar o modelo de avatar: Começaremos a treinar o modelo de conversão de texto em fala personalizado para o modelo de fala depois de verificar a declaração de consentimento do talento avatar. Atualmente, essa etapa é feita manualmente pela Microsoft. Você será notificado depois que o modelo for treinado com êxito.

  4. Implantar e usar seu modelo de avatar em seus APPs

Sequência de componentes

O modelo de avatar de conversão de texto em fala personalizado contém três componentes: analisador de texto, sintetizador de áudio de texto em fala e renderizador de vídeo de avatar de conversão de texto em fala.

  • Para gerar um arquivo de vídeo avatar ou fluxo com o modelo de avatar, o texto é a primeira entrada no analisador de texto, que fornece a saída na forma de uma sequência de fonema.
  • O sintetizador de áudio sintetiza o áudio de fala para o texto de entrada e essas duas partes são fornecidas por conversão de texto em fala ou modelos de voz neural personalizados.
  • Por fim, o modelo de avatar de conversão de texto em fala neural prevê a imagem da sincronização labial com o áudio de fala, de modo que o vídeo sintético seja gerado.

Captura de tela da exibição de uma visão geral do fluxo de trabalho de avatar de fala para texto personalizado.

Os modelos de avatar de conversão de texto em fala neural para fala são treinados usando redes neurais profundas com base nos exemplos de gravação de vídeos humanos em diferentes idiomas. Todas as linguagens de vozes predefinidas e vozes neurais personalizadas podem ser suportadas.

Voz personalizada e avatar conversão de texto em fala personalizado

O avatar de conversão de texto em fala personalizado pode funcionar com uma voz neural predefinida ou voz neural personalizada como a voz do avatar. Para obter mais informações, consulte Voz e idioma do Avatar.

Voz neural personalizada e o avatar de conversão de texto em fala personalizado são recursos separados. Você pode usá-los independentemente ou juntos. Se você optar por usá-los juntos, precisará solicitar voz neural personalizada e avatar de conversão de texto em fala personalizado separadamente, e você será cobrado separadamente pela voz neural personalizada e pelo avatar de texto em fala personalizado. Para mais detalhes, veja a página de preços. Além disso, se você planeja usar voz neural personalizada com um avatar de conversão de texto em fala, será necessário implantar ou copiar seu modelo de voz neural personalizado para uma das regiões suportadas por avatar.

Próximas etapas