¿Qué es el avatar personalizado de texto a voz? (versión preliminar)

Artículo
02/24/2024

Nota:

El avatar de texto a voz se encuentra actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

El avatar personalizado de texto a voz permite crear un avatar de conversación sintético personalizado y único para la aplicación. Con el avatar personalizado de texto a voz, puede crear un avatar único y natural para su producto o marca proporcionando datos de grabación de vídeo de los actores seleccionados. Si también crea una voz neuronal personalizada para el mismo actor y la usa como voz del avatar, este será aún más realista.

Importante

El acceso de avatar personalizado de texto a voz es limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

¿Cómo funciona?

La creación de un avatar personalizado de texto a voz requiere al menos 10 minutos de grabación de vídeo del actor de avatar como datos de entrenamiento, y primero debe obtener el consentimiento del actor.

Importante

Actualmente, para el avatar personalizado de texto a voz, el procesamiento de datos y el entrenamiento del modelo se realizan manualmente.

Antes de empezar a trabajar, estas son algunas consideraciones que debe tener en cuenta:

Su caso de uso: ¿usará el avatar para crear contenido de vídeo como material de entrenamiento, introducción al producto o usar el avatar como vendedor virtual en una conversación en tiempo real con sus clientes? Hay algunos requisitos de grabación para distintos casos de uso.

La apariencia del avatar: El texto personalizado para el avatar de texto a voz tiene el mismo aspecto que el talento del avatar en los datos de entrenamiento, y no se admite la personalización de la apariencia del modelo de avatar, como ropa, peinado, etc. Por lo tanto, si la aplicación requiere varios estilos del mismo avatar, debe preparar los datos de entrenamiento para cada estilo, ya que cada estilo de un avatar se considerará como un modelo de avatar único.

La voz del avatar: el texto personalizado para el avatar de texto a voz puede funcionar tanto con voces neuronales precompiladas como con voces neuronales personalizadas. La creación de una voz neuronal personalizada para el actor del avatar y su uso con el avatar aumentará significativamente la naturalidad de la experiencia del avatar.

Esta es una introducción a los pasos para crear un avatar personalizado de texto a voz:

Obtención de un video de consentimiento: obtener una grabación de vídeo de la declaración de consentimiento. La declaración de consentimiento es una grabación de vídeo del actor del avatar que lee una declaración, dando su consentimiento al uso de sus datos de imagen y voz para entrenar un texto personalizado para el modelo de avatar personalizado de texto a voz.
Preparación de los datos de entrenamiento: asegúrese de que la grabación de vídeo esté en el formato correcto. Es una buena idea grabar la grabación de vídeo en un estudio de grabación de vídeo de calidad profesional para obtener una imagen de fondo limpia. La calidad del avatar resultante depende en gran medida del vídeo grabado usado para el entrenamiento. Factores como la velocidad de habla, la posición corporal, la expresión facial, los gestos de mano, la coherencia en la posición del actor y la iluminación de la grabación de vídeo son esenciales para crear un texto a voz personalizado atractivo para el avatar de voz.
Entrenar el modelo de avatar: empezaremos a entrenar el modelo de texto a voz personalizado después de comprobar la declaración de consentimiento del actor del avatar. En la fase de versión preliminar de este servicio, Microsoft realizará manualmente este paso. Recibirá una notificación después de que el modelo se entrene correctamente.
Implementación y uso del modelo de avatar en las API

Secuencia de componentes

El modelo de avatar de texto personalizado a voz contiene tres componentes: el analizador de texto, el sintetizador de audio de voz y el representador de vídeo del avatar de texto a voz.

Para generar un archivo o flujo de vídeo de avatar con el modelo de avatar, primero se introduce el texto en el analizador de texto, que proporciona la salida en forma de secuencia de fonemas.
El sintetizador de audio sintetiza el audio de voz para el texto de entrada y estos dos elementos se proporcionan por texto a voz o modelos neuronales de voz personalizados.
Por último, el modelo de avatar de texto a voz neuronal a voz predice la imagen de sincronización de labios con el audio de voz, de modo que se genere el vídeo sintético.

Los modelos de avatar de texto neuronal de texto a voz se entrenan mediante redes neuronales profundas basadas en las muestras de grabación de vídeos humanos en diferentes idiomas. Se pueden admitir todos los lenguajes de voces precompiladas y voces neuronales personalizadas.

Voz personalizada y texto a voz personalizado para el avatar de voz

El avatar personalizado de texto a voz puede funcionar con una voz neuronal precompilada o una voz neuronal personalizada como voz del avatar. Para obtener más información, consulte Voz y lenguaje del avatar.

La voz neuronal personalizada y el avatar personalizado de texto a voz son características independientes. Se pueden utilizar por separado o conjuntamente. Si planea usar también voz neuronal personalizada con un avatar de texto a voz, debe implementar o copiar el modelo de voz neuronal personalizado en una de las regiones compatibles con el avatar.

Share via

¿Qué es el avatar personalizado de texto a voz? (versión preliminar)

¿Cómo funciona?

Secuencia de componentes

Voz personalizada y texto a voz personalizado para el avatar de voz

Pasos siguientes

Recursos adicionales