Introducción al avatar de texto a voz (versión preliminar)

Artículo
03/28/2024

Nota:

El avatar de texto a voz se encuentra actualmente en versión preliminar pública. Esta versión preliminar se ofrece sin contrato de nivel de servicio y no es aconsejable usarla para cargas de trabajo de producción. Es posible que algunas características no sean compatibles o que tengan sus funcionalidades limitadas. Para más información, consulte Términos de uso complementarios de las Versiones Preliminares de Microsoft Azure.

El avatar de texto a voz convierte el texto en un vídeo digital de un ser humano fotorrealista (ya sea un avatar precompilado o un avatar de texto a voz personalizado) que habla con una voz de sonido natural. El vídeo del avatar de texto a voz se puede sintetizar de forma asincrónica o en tiempo real. Los desarrolladores pueden compilar aplicaciones integradas con el avatar de texto a voz a través de una API o usar una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica permite a los usuarios producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhieren a prácticas de IA responsable.

Nota:

La característica de avatar de texto a voz solo está disponible en las siguientes regiones de servicio: Oeste de EE. UU. 2, Oeste de Europa y Sudeste Asiático.

Entre las funcionalidades de las características del avatar de texto a voz de Azure AI se incluyen las siguientes:

Convierte texto en un vídeo digital de una persona fotorrealista que habla con voces con sonido natural con tecnología de texto a voz de Azure AI.
Proporciona una colección de avatares creados previamente.
La voz del avatar se genera mediante texto a voz de Azure AI. Para obtener más información, consulte Voz y lenguaje del avatar.
Sintetiza el vídeo del avatar de texto a voz de forma asincrónica con la API de síntesis por lotes o en tiempo real.
Proporciona una herramienta de creación de contenido en Speech Studio para crear contenido de vídeo sin codificar.
Habilita conversaciones de avatar en tiempo real a través de la herramienta de avatar de chat en directo en Speech Studio.

Con los modelos avanzados de redes neuronales del avatar de texto a voz, la característica le permite producir vídeos de conversación sintética del avatar de alta calidad y realistas para diversas aplicaciones, a la vez que se adhiere a prácticas de IA responsable.

Sugerencia

Para convertir texto a voz con un enfoque sin código, pruebe la herramienta de avatar de texto a voz en Speech Studio.

Voz e idioma del avatar

Puede elegir entre una variedad de voces precompiladas para el avatar. La compatibilidad de idiomas del avatar de texto a voz es la misma que la compatibilidad de idiomas de la conversión de texto en voz. Para obtener más información, consulte Compatibilidad con idiomas y voces del servicio de Voz. Se puede acceder a los avatares de texto a voz precompilados a través del portal de Speech Studio o a través de la API.

La voz del vídeo sintético podría ser una voz neuronal precompilada disponible en Voz de Azure AI o la voz neuronal personalizada del actor de voz seleccionado por usted.

Salida de vídeo del avatar

Tanto la síntesis por lotes como la resolución de síntesis en tiempo real son 1920 x 1080 y los fotogramas por segundo (FPS) son 25. El códec de síntesis por lotes puede ser h264 o h265 si el formato es mp4 y puede establecer el códec como vp9 si el formato es webm; solo webm puede contener un canal alfa. El códec de síntesis en tiempo real es h264. La velocidad de bits del vídeo se puede configurar tanto para la síntesis por lotes como para la síntesis en tiempo real en la solicitud; el valor predeterminado es 2000000. Puede encontrar configuraciones más detalladas en el código de ejemplo.

	Síntesis por lotes	Síntesis en tiempo real
Resolución	1920 x 1080	1920 x 1080
FPS	25	25
Codec	h264/h265/vp9	h264

Avatar de texto a voz personalizado

Puede crear avatares de texto a voz personalizados que sean exclusivos de su producto o marca. Todo lo que se necesita para empezar es tomar 10 minutos de grabaciones de vídeo. Si también está creando una voz neuronal personalizada para el actor, el avatar puede ser muy realista. Para obtener más información, consulte Qué es el avatar de texto a voz personalizado.

La voz neuronal personalizada y el avatar de texto a voz personalizado son características independientes. Se pueden utilizar por separado o conjuntamente. Si planea usar también voz neuronal personalizada con un avatar de texto a voz, debe implementar o copiar el modelo de voz neuronal personalizado en una de las regiones compatibles con el avatar.

Código de ejemplo

El código de ejemplo para texto a voz está disponible en GitHub. En estos ejemplos se tratan los escenarios más populares:

Síntesis por lotes (REST)
Síntesis en tiempo real (SDK)
Chat en vivo con Azure OpenAI en segundo plano (SDK)
Para crear una aplicación de chat en directo con Azure OpenAI en los datos, puede consultar este código de ejemplo (busque "En los datos")

Precios

Al usar la característica de avatar de texto a voz, se incurrirán cargos en función de los minutos de salida del vídeo. Sin embargo, con el avatar en tiempo real, los cargos se basan en los minutos de activación del avatar, independientemente de si el avatar está hablando activamente o permanece en silencio. Para optimizar los costos de uso de avatares en tiempo real, consulte las sugerencias proporcionadas en el código de ejemplo (busque "Usar vídeo local para inactividad").
A lo largo de una sesión de avatar en tiempo real o de creación de contenido por lotes, los servicios de texto a voz, conversión de voz en texto, Azure OpenAI u otros servicios de Azure se cobran por separado.
Para más información, consulte Precios del servicio de voz. Tenga en cuenta que los precios del avatar solo serán visibles para las regiones de servicio en las que la característica está disponible, incluidos Oeste de EE. UU. 2, Oeste de Europa y Sudeste Asiático.

Ubicaciones disponibles

La característica de avatar de texto a voz solo está disponible en las siguientes regiones de servicio: Oeste de EE. UU. 2, Oeste de Europa y Sudeste Asiático.

IA responsable

Nos preocupamos por las personas que usan inteligencia artificial y las personas que se verán afectadas por ella tanto como nos preocupamos por la tecnología. Para más información, consulte las notas sobre transparencia y las divulgación del talento de voz y avatar de la inteligencia artificial responsable.

Share via