Compartir a través de


Introducción al avatar de texto a voz

El avatar de conversión de texto a voz convierte texto en un vídeo digital de un ser humano fotorealista (ya sea un avatar estándar o un avatar personalizado de conversión de texto a voz) hablando con una voz que suena natural. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica permite a los usuarios producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhieren a prácticas de IA responsable.

Sugerencia

Para convertir texto a voz con un enfoque sin código, pruebe la herramienta de avatar de texto a voz en Speech Studio.

Funcionalidades del avatar

Las funcionalidades del avatar de texto a voz incluyen:

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica le permite producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhiere a prácticas de IA responsable.

Voz e idioma del avatar

Puede elegir entre una variedad de voces estándar para el avatar. La compatibilidad de idiomas del avatar de texto a voz es la misma que la compatibilidad de idiomas de la conversión de texto en voz. Para obtener más información, consulte Compatibilidad con idiomas y voces del servicio de Voz. Se puede acceder a los avatares de texto estándar a voz a través del portal de Speech Studio o a través de la API.

La voz del vídeo sintético podría ser una voz estándar de Voz de Azure AI o la voz personalizada del talento de voz que haya seleccionado

Salida de vídeo del avatar

Tanto la síntesis por lotes como la resolución de síntesis en tiempo real son 1920 x 1080 y los fotogramas por segundo (FPS) son 25. El códec de síntesis por lotes puede ser h264, hevc o av1 si el formato es mp4 y puede establecer el códec como vp9 o av1 si el formato es webm; solo vp9 puede contener un canal alfa. El códec de síntesis en tiempo real es h264. La velocidad de bits del vídeo se puede configurar tanto para la síntesis por lotes como para la síntesis en tiempo real en la solicitud; el valor predeterminado es 2000000. Puede encontrar configuraciones más detalladas en el código de ejemplo.

Síntesis por lotes Síntesis en tiempo real
Resolución 1920 x 1080 1920 x 1080
FPS 25 25
Codec h264/hevc/vp9/av1 h264

Avatar de texto a voz personalizado

Puede crear avatares de texto a voz personalizados que sean exclusivos de su producto o marca. Todo lo que se necesita para empezar es tomar 10 minutos de grabaciones de vídeo. Si también estás ajustando una voz profesional para el actor, el avatar puede ser muy realista.

La sincronización de voz para avatar se entrena junto con el avatar personalizado que usa audio desde el vídeo de entrenamiento. La voz está asociada exclusivamente al avatar personalizado y no se puede usar de forma independiente.

El ajuste de voz profesional y el texto personalizado para el avatar de voz son características independientes. Se pueden utilizar por separado o conjuntamente. Si también tiene previsto usar el ajuste de voz profesional con un avatar de texto a voz, debe implementar o copiar el modelo de voz profesional optimizado en una de las regiones admitidas por avatar.

Para obtener más información, consulte Qué es el avatar de texto a voz personalizado.

Código de ejemplo

El código de ejemplo para texto a voz está disponible en GitHub. En estos ejemplos se tratan los escenarios más populares:

Precios

  • A lo largo de una sesión de avatar en tiempo real o de creación de contenido por lotes, los servicios de texto a voz, conversión de voz en texto, Azure OpenAI u otros servicios de Azure se cobran por separado.
  • La sincronización de voz para el avatar (a través del entrenamiento de avatar personalizado) se cobra igual que una voz personal en términos de creación y síntesis de voz. El almacenamiento de la voz es gratuito.
  • Consulte la nota de precios del avatar de voz a texto para obtener información sobre cómo funciona la facturación para la característica de avatar de texto a voz.
  • Para obtener los precios detallados, consulte Precios del servicio voz. Tenga en cuenta que los precios del avatar solo serán visibles para las regiones de servicio en las que la característica está disponible, como Sudeste de Asia, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

Ubicaciones disponibles

La característica de avatar de texto a voz solo está disponible en las siguientes regiones de servicio: Sudeste de Asia, Norte de Europa, Oeste de Europa, Centro de Suecia, Centro-sur de EE. UU., Este de EE. UU. 2 y Oeste de EE. UU. 2.

Inteligencia artificial responsable

Nos preocupamos por las personas que usan inteligencia artificial y las personas que se verán afectadas por ella tanto como nos preocupamos por la tecnología. Para más información, consulte las notas sobre transparencia y las divulgación del talento de voz y avatar de la inteligencia artificial responsable.

Pasos siguientes