¿Qué es el avatar personalizado de texto a voz?

2025-06-06

El avatar personalizado de texto a voz permite crear un avatar de conversación sintético personalizado y único para la aplicación. Con el avatar personalizado de texto a voz, puede crear un avatar único y natural para su producto o marca proporcionando datos de grabación de vídeo de los actores seleccionados. El avatar es aún más realista si también usas una voz profesional o sincronización de voz para el avatar del mismo actor.

Importante

El acceso de avatar personalizado de texto a voz es limitado en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

¿Cómo funciona?

La creación de un avatar personalizado de texto a voz requiere al menos 10 minutos de grabación de vídeo del actor de avatar como datos de entrenamiento, y primero debe obtener el consentimiento del actor.

El modelo de avatar personalizado puede admitir:

Generación de vídeo a través de la API de síntesis por lotes.
Chat en directo a través de la API de síntesis de streaming.

Antes de empezar a trabajar, estas son algunas consideraciones que debe tener en cuenta:

Su caso de uso: ¿usará el avatar para crear contenido de vídeo como material de entrenamiento, introducción al producto o usar el avatar como vendedor virtual en una conversación en tiempo real con sus clientes? Hay algunos requisitos de grabación para distintos casos de uso.

El aspecto del avatar: el avatar personalizado de texto a voz mantiene el mismo aspecto que el talento del avatar presente en los datos de entrenamiento. No es posible personalizar la apariencia del avatar, como la ropa, el peinado, etc. Por eso, si la aplicación necesita que un mismo avatar tenga varios estilos, deberá preparar datos de entrenamiento específicos para cada uno, ya que cada estilo se considera un modelo de avatar distinto.

La voz del avatar: El avatar personalizado de texto a voz puede funcionar con voz estándar, voz profesional y sincronización de voz para el avatar.

Sincronización de voz para avatar: una voz sintética similar a la voz del talento del avatar se entrena junto con el avatar personalizado utilizando audio del vídeo de entrenamiento.
Voz profesional: ajuste una voz profesional con más datos de entrenamiento, proporcionando una experiencia de voz premium para su avatar, incluidas las conversaciones naturales, el estilo múltiple y el soporte multilingüe.

Esta es una introducción a los pasos para crear un avatar personalizado de texto a voz:

Obtener el vídeo de consentimiento. Obtenga una grabación de vídeo del talento leyendo una declaración de consentimiento. Deben dar su consentimiento para el uso de sus datos de imagen y voz con el fin de entrenar un modelo de avatar de texto a voz personalizado y crear una versión sintética de su voz.
Prepare los datos de entrenamiento. Asegúrese de que la grabación de vídeo esté en el formato correcto. Es una buena idea grabar la grabación de vídeo en un estudio de grabación de vídeo de calidad profesional para obtener una imagen de fondo limpia. La calidad del avatar resultante depende en gran medida del vídeo grabado usado para el entrenamiento. Factores como la velocidad de habla, la posición corporal, la expresión facial, los gestos de mano, la coherencia en la posición del actor y la iluminación de la grabación de vídeo son esenciales para crear un avatar de texto a voz personalizado. Consulte cómo preparar los datos de entrenamiento para obtener más detalles.
Entrene el modelo de avatar. Una vez que los datos estén listos, cargue los datos en el portal de avatar personalizado y empiece a entrenar el modelo. La comprobación del consentimiento se realiza durante el entrenamiento. Asegúrese de que tiene acceso a la característica de avatar personalizado de texto a voz para poder crear un proyecto.
Implementar y usar el modelo de avatar en las aplicaciones.

Secuencia de componentes

El modelo de avatar de texto a voz personalizado contiene tres componentes: el analizador de texto, el sintetizador de audio de voz y el representador de vídeo del avatar de texto a voz.

Para generar un archivo o flujo de vídeo de avatar con el modelo de avatar, primero se introduce el texto en el analizador de texto, que proporciona la salida en forma de secuencia de fonemas.
El sintetizador de audio sintetiza el audio de voz para el texto de entrada y estos dos elementos se proporcionan mediante modelos de voz estándar o personalizados.
Por último, el modelo de avatar de texto a voz predice la imagen de sincronización de labios con el audio de voz, de modo que se genere el vídeo sintético.

Los modelos de avatar de texto a voz se entrenan mediante redes neuronales profundas basadas en las muestras de grabación de vídeos humanos en diferentes idiomas. Se pueden admitir todos los lenguajes de voces estándar y voces personalizadas.

Ubicaciones disponibles

El entrenamiento de avatar personalizado solo está disponible en las siguientes regiones de servicio: Sudeste Asiático, Oeste de Europa y Oeste de EE. UU. 2. Puede usar un modelo de avatar personalizado en las siguientes regiones de servicio: Sudeste Asiático, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

Voz personalizada y avatar de texto a voz personalizado

La voz personalizada y el avatar de texto a voz personalizado son características independientes. Se pueden utilizar por separado o conjuntamente. Si también estás creando una voz profesional para el actor, el avatar puede ser muy realista.

El avatar de texto a voz personalizado puede funcionar con una voz estándar o una voz personalizada. Para obtener más información, consulte Voz e idioma del avatar.

Hay dos tipos de voz personalizada para un avatar personalizado:

Sincronización de voz para avatar: al habilitar la opción de sincronización de voz para avatar durante el entrenamiento de avatar personalizado, un modelo de voz sintética con la similaridad del talento de avatar se entrena simultáneamente con el avatar. Esta voz está asociada exclusivamente al avatar personalizado y no se puede usar de forma independiente. Actualmente, la sincronización de voz para avatar se admite en las regiones Sudeste de Asia, Oeste de Europa y Oeste de EE. UU. 2.
Voz profesional: puede ajustar una voz profesional. El ajuste de voz profesional y el texto personalizado para el avatar de voz son características independientes. Se pueden utilizar por separado o conjuntamente. Si decide usarlos juntos, debe solicitar el ajuste de voz profesional y el texto personalizado para el avatar de voz por separado, y se le cobra por separado por el ajuste de voz profesional y el texto personalizado al avatar de voz. Consulte la página de preciospara obtener más información. Además, si tiene previsto usar el ajuste de voz profesional con un avatar de texto a voz, debe implementar o copiar el modelo de voz personalizado en una de las regiones admitidas por el avatar.

Si ajustas una voz profesional y quieres usarla junto con el avatar personalizado, preste atención a los siguientes puntos:

Asegúrese de que el punto de conexión de voz personalizado se crea en el mismo recurso de Azure AI Foundry que el punto de conexión de avatar personalizado. Según sea necesario, consulte Entrenamiento del modelo de voz profesional para copiar el modelo de voz personalizado en el mismo recurso de Azure AI Foundry que el punto de conexión de avatar personalizado.
Puede ver la opción de voz personalizada en la lista de voces de la página de generación de contenido de avatar y configuración de voz de chat en directo.
Si usa la síntesis por lotes para la API de avatar, agregue la propiedad "customVoices" para asociar el identificador de implementación del modelo de voz personalizado con el nombre de voz en la solicitud. Para obtener más información, consulte las propiedades de texto a voz.
Si usa la síntesis en tiempo real para la API de avatar, consulte nuestro código de ejemplo en GitHub para establecer la voz personalizada.

Compartir a través de

¿Qué es el avatar personalizado de texto a voz?

¿Cómo funciona?

Secuencia de componentes

Ubicaciones disponibles

Voz personalizada y avatar de texto a voz personalizado

Contenido relacionado

Comentarios

Recursos adicionales