¿Qué es la voz personalizada?

2025-06-06

La voz personalizada es una característica de texto a voz que permite crear una voz única, personalizada y sintética para las aplicaciones. Con la voz personalizada, puede crear una voz altamente natural para su marca o personajes proporcionando muestras de voz humanas como datos de ajuste preciso.

Importante

El acceso de voz personalizado se limita en función de los criterios de idoneidad y uso. Solicitar acceso en el formulario de ingesta.

De fábrica, el texto a voz se puede usar con voces estándar para cada idioma admitido. Las voces estándar funcionan bien en la mayoría de los escenarios de texto a voz si no se requiere una voz única.

La voz personalizada se basa en la tecnología neuronal de texto a voz y en el modelo universal multilingüe de varios hablantes. Puede crear voces sintéticas enriquecidas en estilos de habla o idiomas cruzados adaptables. La voz realista y natural de voz personalizada puede representar marcas, personificar máquinas y permitir que los usuarios interactúen con las aplicaciones de forma conversacional. Consulte los idiomas admitidos para voz personalizada.

¿Cómo funciona?

Para crear una voz personalizada, use Speech Studio para cargar el audio grabado y los scripts correspondientes, entrenar el modelo e implementar la voz en un punto de conexión personalizado.

La creación de una gran voz personalizada requiere un control de calidad cuidadoso en cada paso, desde el diseño de voz y la preparación de datos, hasta la implementación del modelo de voz en el sistema.

Antes de empezar a trabajar en Speech Studio, estas son algunas consideraciones que debe tener en cuenta:

Diseñe un rol de la voz que represente su marca mediante un documento breve del rol. En este documento se definen elementos como las características de la voz y el carácter detrás de la voz. Esto ayuda a guiar el proceso de creación de un modelo de voz personalizado, incluida la definición de los scripts, la selección del talento de voz, el entrenamiento y el ajuste de voz.
Seleccione el script de grabación a fin de representar los escenarios de usuario para su voz. Por ejemplo, puede usar las frases de las conversaciones del bot como script de grabación si va a crear un bot de servicio al cliente. Incluya diferentes tipos de oraciones en los scripts, como instrucciones, preguntas, exclamaciones, etc.

Esta es una introducción a los pasos para crear una voz personalizada en Speech Studio:

Cree un proyecto para que incluya los datos, los modelos de voz, las pruebas y los puntos de conexión. Cada proyecto es específico de un país/región y un idioma. Si va a crear varias voces, se recomienda crear un proyecto para cada voz.
Configure el actor de voz. Para poder ajustar una voz profesional, debe enviar una grabación de la declaración de consentimiento del actor de voz. La declaración del talento vocal es una grabación en la que el locutor lee una declaración consintiendo el uso de sus datos de voz para el ajuste profesional de esta.
Preparar los datos para ajuste fino en el formato adecuado. Se recomienda grabar el audio en un estudio de grabación de calidad profesional para lograr una alta relación entre señal y ruido. La calidad del modelo de voz depende en gran medida de los datos de ajuste. Se necesita un volumen constante, velocidad de la conversación, tono y coherencia en las particularidades expresivas del habla.
Entrene el modelo de voz. Seleccione al menos 300 expresiones para crear una voz personalizada. Al cargarlas se realiza automáticamente una serie de comprobaciones de calidad de los datos. Para crear modelos de voz de alta calidad, debe corregir los errores y realizar de nuevo el envío.
Pruebe la voz. Prepare scripts de prueba para el modelo de voz que cubran los distintos casos de uso de las aplicaciones. Se recomienda usar scripts del conjunto de datos de entrenamiento y otros para probar la calidad de forma más amplia con contenido diferente.
Implemente y use el modelo de voz en las aplicaciones.

Puede sintonizar, modificar y usar su voz personalizada, de una manera similar a como usaría una voz estándar. Convierta texto en voz en tiempo real o genere contenido de audio sin conexión con entrada de texto. Use la API de REST, el SDK de Voz o Speech Studio.

Sugerencia

Consulte los ejemplos de código en el repositorio del SDK de Voz en GitHub para ver cómo usar voz personalizada en la aplicación.

El estilo y las características del modelo de voz entrenado dependen del estilo y la calidad de las grabaciones del talento de voz del entrenamiento. Sin embargo, puede realizar varios ajustes mediante SSML (Lenguaje de marcado de síntesis de voz) al realizar llamadas API al modelo de voz para generar voz sintética. SSML es el lenguaje de marcado que se usa para la comunicación con el servicio de texto en voz con el fin de convertir texto en audio. Los ajustes que puede realizar incluyen el cambio de tono, la velocidad, la entonación y la corrección de la pronunciación. Si el modelo de voz se ha creado con varios estilos, SSML también se puede usar para cambiar los estilos.

Secuencia de componentes

La voz personalizada consta de tres componentes principales: el analizador de texto, el modelo acústico neuronal y el vocoder neuronal. Para generar voz sintética natural a partir de texto, la primera entrada en el analizador de texto es el texto, cuya salida es una secuencia de fonemas. Un fonema es una unidad básica de sonido que distingue una palabra de otra en un idioma determinado. Una secuencia de fonemas define la pronunciación de las palabras proporcionadas en el texto.

A continuación, la secuencia de fonemas pasa al modelo acústico neuronal para predecir las características acústicas que definen las señales de voz. Las características acústicas incluyen el timbre, el estilo de habla, la velocidad, las entonaciones y los patrones de tensión. Por último, el vocoder neuronal convierte las características acústicas en ondas audibles para que se genere la voz sintética.

Diagrama de flujo que muestra los componentes de voz personalizada.

Los modelos de conversión de texto a voz neuronal se entrenan mediante redes neuronales profundas basadas en las muestras de grabaciones de voces humanas. Para más información, consulte esta entrada de blog de Microsoft. Para más información sobre cómo se entrena un vocoder neuronal, consulte esta entrada de blog de Microsoft.

Inteligencia artificial responsable

Los sistemas de inteligencia artificial no solo incluyen la tecnología, sino también las personas que la usan, las que se ven afectadas por ella y el entorno en el que se implementan. Lea las notas de transparencia para obtener información sobre el uso y la implementación de IA responsable en los sistemas.

Compartir vía

¿Qué es la voz personalizada?

¿Cómo funciona?

Secuencia de componentes

Inteligencia artificial responsable

Pasos siguientes

Comentarios

Recursos adicionales