Cómo crear un avatar personalizado de texto a voz

La introducción a un avatar de texto a voz personalizado es un proceso sencillo. Todo lo que se necesita son algunos videoclips de su actor. Si quiere entrenar una voz personalizada para el mismo actor, puede hacerlo por separado.

Nota:

El acceso al avatar personalizado se limita en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

Requisitos previos

Necesita un recurso de Microsoft Foundry en una de las regiones que admite el entrenamiento de avatar personalizado. El avatar personalizado solo admite recursos estándar de Foundry o de Speech (S0).

Necesita una grabación de vídeo del talento leyendo una declaración de consentimiento que reconozca el uso de su imagen y voz. Carga este vídeo al configurar el actor del avatar. Para obtener más información, consulte Agregar consentimiento del actor de avatar.

Necesita grabaciones de vídeo de su actor de avatar como datos de entrenamiento. Estos vídeos se cargan al preparar los datos de entrenamiento. Para obtener más información, consulte Agregar datos de entrenamiento.

Paso 1: Iniciar el ajuste preciso

Sugerencia

No combine datos para diferentes avatares en un área de trabajo de ajuste. Cada avatar debe tener su propia área de trabajo de ajuste.

Para ajustar un avatar personalizado, siga estos pasos:

Vaya al proyecto de Microsoft Foundry en el Portal de Microsoft Foundry. Si necesita crear un proyecto, consulte Creación de un proyecto de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo.
Seleccione Ajuste preciso del servicio de IA>+ Ajuste preciso.
En el asistente, seleccione Avatar personalizado (ajuste de avatar de texto a voz).
Seleccione Siguiente.
Siga las instrucciones proporcionadas por el asistente para crear el área de trabajo de ajuste.

Un talento de avatar es un actor individual o de destino cuyo vídeo de habla se graba y se usa para crear modelos de avatar neuronal. Debe obtener el consentimiento suficiente en todas las leyes y regulaciones pertinentes del talento del avatar para usar su vídeo para crear el avatar personalizado de texto a voz.

Debe proporcionar un archivo de vídeo con una declaración grabada del talento del avatar, confirmando el uso de su imagen y voz. Microsoft comprueba que el contenido de la grabación coincide con el script predefinido proporcionado por Microsoft. Microsoft compara la cara del talento del avatar en el archivo de vídeo de confirmación grabado con vídeos aleatorios de los conjuntos de datos de entrenamiento para asegurarse de que el talento del avatar en grabaciones de vídeo y el talento de avatar en el archivo de vídeo de confirmación proceden de la misma persona.

Si quieres crear una sincronización de voz para avatar durante el entrenamiento del avatar, se crea una voz personalizada similar a tu avatar junto con el avatar personalizado. La voz se usa exclusivamente con el avatar especificado. La declaración de consentimiento debe incluir tanto el avatar personalizado como la sincronización de voz para el avatar. Para obtener un ejemplo de la instrucción de consentimiento para avatar personalizado con sincronización de voz, consulte el archivo verbal-statement-voice-sync-for-avatar-all-locales.txt en el repositorio de GitHub Azure-Samples/cognitive-services-speech-sdk .
Si no crea una sincronización de voz para avatar, solo se entrena el avatar personalizado y la declaración de consentimiento debe reflejar este ámbito. Para obtener un ejemplo de la declaración de consentimiento solo para avatar personalizado, consulte el archivo verbal-statement-all-locales.txt en el repositorio Azure-Samples/cognitive-services-speech-sdk de GitHub.

Para obtener más información sobre cómo grabar el vídeo de consentimiento, vea Cómo grabar muestras de vídeo y Divulgación de actor de avatar.

Para agregar un perfil de talento de avatar y cargar su declaración de consentimiento en el proyecto, siga estos pasos:

Inicie sesión en el portal de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.
Seleccione la tarea de ajuste de la precisión del avatar personalizado (por nombre del modelo) que ha iniciado como se describe en la sección anterior.
Seleccione Configurar actor de avatar>Cargar vídeo de consentimiento.
En la página Cargar vídeo de consentimiento, siga las instrucciones para cargar el vídeo de consentimiento del actor de avatar que grabó de antemano.
- Seleccione el tipo de avatar que se va a compilar. Cree una sincronización de voz para avatar que suena como el actor de avatar junto con el modelo de avatar, o cree un avatar sin la sincronización de voz para avatar. La opción para crear una sincronización de voz para avatar solo está disponible en las regiones Sudeste de Asia, Oeste de Europa y Oeste de EE. UU. 2.
- Seleccione el idioma de habla de la declaración de consentimiento verbal registrada por el actor del avatar.
- Escriba el nombre del actor del avatar y el nombre de la compañía en el mismo idioma que la instrucción grabada.
  - El nombre del actor del avatar debe ser el nombre de la persona que registró la declaración de consentimiento.
  - El nombre de la empresa debe coincidir con el nombre de la compañía que se ha hablado en la instrucción grabada.
- Puede optar por cargar los datos desde archivos locales o desde un almacenamiento compartido con Azure Blob.
Seleccione los archivos locales del equipo o escriba la dirección URL de Azure Blob Storage donde se almacenan los datos.
Seleccione Siguiente.
Revise los detalles de carga y seleccione Cargar.

Una vez que la carga del consentimiento del actor del avatar se haya realizado correctamente, puede continuar con el entrenamiento del modelo de avatar personalizado.

Paso 3: Agregar datos de entrenamiento

El servicio voz usa los datos de entrenamiento para crear un avatar único optimizado para que coincida con la apariencia de la persona en las grabaciones. Después de entrenar el modelo de avatar, puede empezar a sintetizar vídeos de avatar o usarlos para chats en directo en las aplicaciones.

Todos los datos que cargue deben cumplir los requisitos del tipo de datos elegido. Para asegurarse de que el servicio de voz procesa los datos con precisión, es importante dar formato a los datos correctamente antes de cargarlos. Para confirmar que los datos tienen el formato correcto, consulte Requisitos de datos.

Creación del código

Cuando esté listo para cargar los datos, vaya a la pestaña Preparar datos de entrenamiento para agregar los datos.

Para cargar datos de entrenamiento, siga estos pasos:

Inicie sesión en el portal de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.
Seleccione la tarea de ajuste de la precisión del avatar personalizado (por nombre del modelo) que ha iniciado como se describe en la sección anterior.
Seleccione Preparar datos> de entrenamientoCargar datos.
En el asistente de Carga de datos, elija un tipo de datos y, a continuación, seleccione Siguiente. Para obtener más información sobre los tipos de datos (incluyendo Habla natural, Estado de silencio, Gesto, y Estado de habla 0), consulte qué clips de vídeo grabar.
Seleccione los archivos locales del equipo o escriba la dirección URL de Azure Blob Storage donde se almacenan los datos.
Seleccione Siguiente.
Revise los detalles de carga y seleccione Cargar.

Los archivos de datos se validan automáticamente al seleccionar Cargar. La validación de datos incluye una serie de comprobaciones en los archivos de vídeo para comprobar su formato de archivo, tamaño y volumen total. Si hay algún error, corríjalo y vuelva a realizar el envío.

Después de cargar los datos, puede comprobar la información general de los datos que indica si proporcionó suficientes datos para iniciar el entrenamiento.

Paso 4: Entrenamiento del modelo de avatar

Importante

Todos los datos de entrenamiento del proyecto se incluyen en el entrenamiento. La calidad del modelo depende de los datos proporcionados y es responsable de la calidad del vídeo. Asegúrese de grabar los vídeos de entrenamiento según cómo grabar ejemplos de vídeo.

Para crear un avatar personalizado en el portal de Microsoft Foundry, siga estos pasos para uno de los métodos siguientes:

Inicie sesión en el portal de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.
Seleccione la tarea de ajuste de la precisión del avatar personalizado (por nombre del modelo) que ha iniciado como se describe en la sección anterior.
Seleccione Entrenar modelo>+ Entrenar modelo.
Escriba un nombre para ayudarle a identificar el modelo. Elija un nombre cuidadosamente. El nombre del modelo se usa como nombre de avatar en la solicitud de síntesis por parte del SDK y la entrada del lenguaje de marcado de síntesis de voz (SSML). Solo se permiten letras, números, guiones y caracteres de subrayado. Use un nombre único para cada modelo.

Importante

El nombre del modelo de avatar debe ser único dentro del mismo recurso de Voz o Servicios de inteligencia artificial.
Seleccione Entrenar para comenzar a entrenar el modelo.

La duración del entrenamiento varía en función de la cantidad de datos que use. Normalmente, el proceso tarda entre 20 y 40 horas en entrenar un avatar personalizado. Consulte la nota de precios sobre cómo se cobra el entrenamiento.

Copia del modelo de avatar personalizado en otro proyecto (opcional)

El entrenamiento de avatar personalizado solo está disponible actualmente en algunas regiones. Una vez entrenado el modelo del avatar en una región compatible, puede copiarlo en un recurso de servicios de IA para Voz que se encuentre en otra región, según sea necesario. Para obtener más información consulte las notas al pie en la tabla de regiones.

Nota:

Solo puede copiar la sincronización de voz para el modelo de avatar en las regiones que admiten la sincronización de voz para la característica de avatar, que son las mismas regiones que admiten voz personal.

Para copiar el modelo de avatar personalizado en otro proyecto:

En la pestaña Entrenar modelo, seleccione un modelo de avatar que quiera copiar y, a continuación, seleccione Copiar en el proyecto.
Seleccione la suscripción, la región, el recurso de AI Services para Voz y el proyecto en el que desea copiar el modelo. Debe tener un recurso de AI Services para Voz y un proyecto en la región de destino; de lo contrario, debe crearlos primero.
Seleccione Enviar para copiar el modelo.

Una vez copiado el modelo, verá una notificación en el portal de Microsoft Foundry.

Vaya al proyecto donde copió el modelo para implementar la copia del modelo.

Paso 5: Implementar y usar el modelo de avatar

Después de crear y entrenar correctamente el modelo de avatar, se implementa en el punto de conexión.

Para implementar el avatar:

Inicie sesión en el portal de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.
Seleccione la tarea de ajuste de la precisión del avatar personalizado (por nombre del modelo) que ha iniciado como se describe en la sección anterior.
Seleccione Implementar modelo>Implementar modelo.
Seleccione un modelo que quiera implementar.
Seleccione Implementar para iniciar la implementación.

Importante

Cuando se implementa un modelo, se paga por el tiempo de inactividad continuo del punto de conexión, independientemente de la interacción con ese punto de conexión. Consulte la nota de precios sobre cómo se cobra la implementación del modelo. Puede eliminar una implementación cuando el modelo no esté en uso para reducir el gasto y conservar los recursos.

Después de implementar el avatar personalizado, está disponible para usarlo en el portal de Microsoft Foundry o a través de la API:

El avatar aparece en la lista de avatares de texto a voz en el portal de Microsoft Foundry.
El avatar aparece en la lista de avatares de chat en vivo a través del portal de Microsoft Foundry.
Puede llamar al avatar desde el SDK y la entrada SSML especificando el nombre del modelo de avatar. Para obtener más información, consulte las propiedades del avatar.

Eliminación de una implementación

Para quitar la implementación, siga estos pasos:

Inicie sesión en el portal de Microsoft Foundry.
Seleccione Ajuste preciso en el panel izquierdo y, a continuación, seleccione Ajuste preciso del servicio DE IA.
Seleccione la tarea de ajuste de la precisión del avatar personalizado (por nombre del modelo) que ha iniciado como se describe en la sección anterior.
Seleccione la implementación en la página Implementación del modelo. El modelo se hospeda activamente si el estado es "Correcto".
Puede seleccionar el botón Eliminar implementación y confirmar la eliminación para quitar el hosting.

Sugerencia

Una vez que se quita una implementación, ya no paga por su hosting. La eliminación de una implementación no provoca ninguna eliminación del modelo. Si desea volver a usar el modelo, cree una nueva implementación.

Nota:

El acceso al avatar personalizado se limita en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

Requisitos previos

Necesita un recurso de Microsoft Foundry en una de las regiones que admite el entrenamiento de avatar personalizado. El avatar personalizado solo admite recursos estándar (S0) de Foundry o de Speech.

Paso 1: Crear un proyecto de avatar personalizado

Para crear un proyecto de avatar personalizado, siga estos pasos:

Inicie sesión en el Speech Studio y seleccione la suscripción y el recurso de Voz.
Seleccione Avatar personalizado (versión preliminar).
Seleccione +Crear un proyecto.
Siga las instrucciones del asistente para crear el proyecto.

Sugerencia

No mezcle datos para diferentes avatares en un proyecto. Cree siempre un nuevo proyecto para un nuevo avatar.
Seleccione el nuevo proyecto por nombre. A continuación, verá estos elementos de menú en el panel izquierdo: Configurar actor de avatar, Preparar datos de entrenamiento, Entrenar modelo, e Implementar modelo.

Si quieres crear una sincronización de voz para avatar durante el entrenamiento del avatar, se crea una voz personalizada similar a tu avatar junto con el avatar personalizado. La voz se usa exclusivamente con el avatar especificado. La declaración de consentimiento debe incluir tanto el avatar personalizado como la sincronización de voz para el avatar.
Si no crea una sincronización de voz para avatar, solo se entrena el avatar personalizado y la declaración de consentimiento debe reflejar este ámbito.

Puede encontrar la instrucción de consentimiento verbal en varios idiomas en el repositorio Azure-Samples/cognitive-services-speech-sdk de GitHub. El idioma de la frase verbal debe ser el mismo que el de la grabación. Consulte también la Divulgación del actor de voz.

Para obtener más información sobre cómo grabar el vídeo de consentimiento, consulte Cómo grabar ejemplos de vídeo.

Para agregar un perfil de talento de avatar y cargar su declaración de consentimiento en el proyecto, siga estos pasos:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Configurar actor de avatar>Cargar vídeo de consentimiento.
En la página Cargar vídeo de consentimiento, siga las instrucciones para cargar el vídeo de consentimiento del actor de avatar que grabó de antemano.
- Seleccione el tipo de avatar que se va a compilar. Cree una sincronización de voz para avatar que suena como el actor de avatar junto con el modelo de avatar, o cree un avatar sin la sincronización de voz para avatar. La opción para crear una sincronización de voz para avatar solo está disponible en las regiones Sudeste de Asia, Oeste de Europa y Oeste de EE. UU. 2.
- Seleccione el idioma de habla de la declaración de consentimiento verbal registrada por el actor del avatar.
- Escriba el nombre del actor del avatar y el nombre de la compañía en el mismo idioma que la instrucción grabada.
  - El nombre del actor del avatar debe ser el nombre de la persona que registró la declaración de consentimiento.
  - El nombre de la empresa debe coincidir con el nombre de la compañía que se ha hablado en la instrucción grabada.
- Puede optar por cargar los datos desde archivos locales o desde un almacenamiento compartido con Azure Blob.
Seleccione Cargar.

Una vez que la carga del consentimiento del actor del avatar se haya realizado correctamente, puede continuar con el entrenamiento del modelo de avatar personalizado.

Paso 3: Agregar datos de entrenamiento

Creación del código

Cuando esté listo para cargar los datos, vaya a la pestaña Preparar datos de entrenamiento para agregar los datos.

Para cargar datos de entrenamiento, siga estos pasos:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Preparar los datos de entrenamiento>Cargar los datos.
En el asistente de Carga de datos, elija un tipo de datos y, a continuación, seleccione Siguiente. Para obtener más información sobre los tipos de datos (incluyendo Habla natural, Silencio, Gesto, y Estado de habla 0), consulte qué clips de vídeo grabar.
Seleccione los archivos locales del equipo o escriba la dirección URL de Azure Blob Storage donde se almacenan los datos.
Seleccione Siguiente.
Revise los detalles de carga y seleccione Enviar.

Los archivos de datos se validan automáticamente al seleccionar Enviar. La validación de datos incluye una serie de comprobaciones en los archivos de vídeo para comprobar su formato de archivo, tamaño y volumen total. Si hay algún error, corríjalo y vuelva a realizar el envío.

Después de cargar los datos, puede comprobar la información general de los datos que indica si proporcionó suficientes datos para iniciar el entrenamiento. En este recorte de pantalla se muestra un ejemplo de suficientes datos agregados para entrenar un avatar sin otros gestos.

Paso 4: Entrenamiento del modelo de avatar

Importante

Para crear un avatar personalizado en Speech Studio, siga estos pasos para uno de los métodos siguientes:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> Nombre del proyecto >Entrenar modelo>Entrenar modelo.
Escriba un nombre para ayudarle a identificar el modelo. Elija un nombre cuidadosamente. El nombre del modelo se usa como nombre de avatar en la solicitud de síntesis por parte del SDK y la entrada del lenguaje de marcado de síntesis de voz (SSML). Solo se permiten letras, números, guiones y caracteres de subrayado. Use un nombre único para cada modelo.

Importante

El nombre del modelo de avatar debe ser único dentro del mismo recurso de Voz o Servicios de inteligencia artificial.
Seleccione Entrenar para comenzar a entrenar el modelo.

Copia del modelo de avatar personalizado en otro proyecto (opcional)

Nota:

Para copiar el modelo de avatar personalizado en otro proyecto:

En la pestaña Entrenar modelo, seleccione un modelo de avatar que quiera copiar y, a continuación, seleccione Copiar en el proyecto.
Seleccione la suscripción, la región, el recurso de AI Services para Voz y el proyecto en el que desea copiar el modelo. Debe tener un recurso de AI Services para Voz y un proyecto en la región de destino; de lo contrario, debe crearlos primero.
Seleccione Enviar para copiar el modelo.

Una vez copiado el modelo, verá una notificación en Speech Studio.

Vaya al proyecto donde copió el modelo para implementar la copia del modelo.

Paso 5: Implementar y usar el modelo de avatar

Después de crear y entrenar correctamente el modelo de avatar, se implementa en el punto de conexión.

Para implementar el avatar:

Inicie sesión en Speech Studio.
Seleccione Avatar personalizado> El nombre del proyecto >Implementar modelo.
Seleccione Implementar modelo y seleccione un modelo que quiera implementar.
Seleccione Implementar para iniciar la implementación.

Importante

Cuando se implementa un modelo, se paga por el tiempo de inactividad continuo del punto de conexión, independientemente de la interacción con ese punto de conexión. Consulte la nota de precios sobre cómo se cobra la implementación del modelo. Puede eliminar una implementación cuando el modelo no esté en uso para reducir el gasto y conservar los recursos.

Después de implementar el avatar personalizado, estará disponible para que lo use en Speech Studio o a través de la API:

El avatar aparece en la lista de avatares de texto al avatar de voz en Speech Studio.
El avatar aparece en la lista de avatares de avatares de chat en directo a través de Speech Studio.
Puede llamar al avatar desde el SDK y la entrada SSML especificando el nombre del modelo de avatar. Para obtener más información, consulte las propiedades del avatar.

Eliminación de una implementación

Para quitar la implementación, siga estos pasos:

Inicie sesión en Speech Studio.
Vaya a Avatar personalizado> Nombre del proyecto >Implementar modelo.
Seleccione la implementación en la página Implementación del modelo. El modelo se hospeda activamente si el estado es "Correcto".
Puede seleccionar el botón Eliminar implementación y confirmar la eliminación para quitar el hosting.

Sugerencia

Pasos siguientes

Comentarios

¿Le ha resultado útil esta página?

Last updated on 20/11/2025

Compartir a través de

Cómo crear un avatar personalizado de texto a voz

Requisitos previos

Paso 1: Iniciar el ajuste preciso

Paso 2: Agregar consentimiento de talento de avatar

Paso 3: Agregar datos de entrenamiento

Creación del código

Paso 4: Entrenamiento del modelo de avatar

Copia del modelo de avatar personalizado en otro proyecto (opcional)

Paso 5: Implementar y usar el modelo de avatar

Eliminación de una implementación

Requisitos previos

Paso 1: Crear un proyecto de avatar personalizado

Paso 2: Agregar consentimiento de talento de avatar

Paso 3: Agregar datos de entrenamiento

Creación del código

Paso 4: Entrenamiento del modelo de avatar

Copia del modelo de avatar personalizado en otro proyecto (opcional)

Paso 5: Implementar y usar el modelo de avatar

Eliminación de una implementación

Pasos siguientes

Comentarios

Recursos adicionales