Datos de entrenamiento para voz neuronal personalizada

Artículo
09/20/2024

Cuando esté listo para crear un modelo personalizado de texto a voz para su aplicación, el primer paso es reunir las grabaciones de audio y los scripts asociados para empezar a entrenar el modelo de voz. El servicio de voz usan estos datos para crear una voz única optimizada para que coincida con la de las grabaciones. Después de entrenar la voz, puede comenzar a sintetizarla en sus aplicaciones.

Sugerencia

Para crear una voz que se vaya a usar en una producción, le recomendamos que use un estudio de grabación profesional y un locutor. Para más información, vea Grabación de muestras de voz para crear una voz neuronal personalizada.

Tipos de datos de entrenamiento

Un conjunto de datos de entrenamiento de voz incluye grabaciones de audio y un archivo de texto con las transcripciones asociadas. Cada archivo de audio debe contener una sola expresión (una frase única o un solo turno en un sistema de diálogo) y tener una duración de menos de 15 segundos.

En algunos casos, es posible que no disponga del conjunto de datos adecuado. Puede probar el entrenamiento de voz neuronal personalizada con los archivos de audio disponibles, cortos o largos, con o sin transcripciones.

En esta tabla se enumeran los tipos de datos y cómo se usa cada uno para crear un modelo personalizado de texto a voz.

Tipo de datos	Descripción	Cuándo se usa	Se requiere un procesamiento adicional
Expresiones individuales + transcripción relacionada	Una colección (.zip) de archivos de audio (.wav) como expresiones individuales. Cada archivo de audio debe tener una longitud de 15 segundos o menos y estar emparejado con una transcripción con formato (.txt).	Grabaciones profesionales con transcripciones relacionadas	Listo para el entrenamiento.
Audio largo y transcripción	Colección (.zip) de archivos de audio largos (.wav o .mp3, más de 20 segundos, 1000 archivos de audio como máximo) y sin segmentar, emparejados con una colección (.zip) de transcripciones que contiene todas las palabras habladas.	Tiene archivos de audio y transcripciones relacionadas, pero no están segmentados en expresiones.	Segmentación (mediante transcripción por lotes). Transformación del formato de audio cuando sea necesario.
Solo audio (versión preliminar)	Una colección (.zip) de archivos de audio (.wav o .mp3, 1000 archivos de audio como máximo) sin una transcripción.	Solo dispone de archivos de audio, sin transcripciones.	Segmentación + generación de transcripciones (mediante la transcripción por lotes). Transformación del formato de audio cuando sea necesario.

Los archivos deben agruparse por tipo en un conjunto de datos y cargarse como un archivo zip. Cada conjunto de datos solo puede contener un tipo de datos.

Nota

El número máximo de conjuntos de datos que se pueden importar por suscripción es de 500 archivos ZIP para usuarios de la suscripción estándar (S0).

Expresiones individuales + transcripción relacionada

Puede preparar las grabaciones de expresiones individuales y la transcripción relacionada de dos maneras. Escriba un guion y haga que lo lea un locutor, o bien use el audio disponible públicamente y transcríbalo a texto. En este último caso, deberá editar las disfluencias de los archivos de audio, como las muletillas ("em") y otros sonidos de relleno, tartamudeos, palabras entre dientes o pronunciaciones erróneas.

Para crear un modelo óptimo de voz, realice las grabaciones en una sala silenciosa con un micrófono de alta calidad. El volumen constante, la velocidad de la conversación, el tono al hablar y las particularidades expresivas del habla son esenciales.

Para obtener ejemplos de formato de datos, consulte el conjunto de formación de ejemplo en GitHub. El conjunto de formación de ejemplo incluye el script de ejemplo y el audio asociado.

Datos de audio para expresiones individuales y transcripción relacionada

Cada archivo de audio debe contener una sola expresión (una sola frase o un solo turno de un sistema de diálogo) y tener una duración inferior a 15 segundos. Todos los archivos deben estar en el mismo idioma hablado. La transformación de texto a voz personalizada en varios idiomas no se admite, excepto en el caso del chino al inglés bilingüe. Los archivos de audio deben tener un nombre de archivo exclusivo con la extensión de nombre de archivo .wav.

Al preparar el audio, siga estas directrices.

Propiedad	Value
Formato de archivo	RIFF (.wav), agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	Al crear una voz neuronal personalizada, se requieren 24 000 Hz.
Formato de ejemplo	PCM, al menos 16 bits
Longitud de audio	Menor de 15 segundos
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB

Nota

La frecuencia de muestreo predeterminada para una voz neuronal personalizada es de 24 000 Hz. Se rechazarán los archivos de audio con una frecuencia de muestreo inferior a 16 000 Hz. Si un archivo ZIP contiene archivos .wav con distintas frecuencias de muestreo, solo se importarán las que sean iguales o superiores a 16 000 Hz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz o inferior a 24 000 Hz se muestrearán hasta 24 000 Hz para entrenar una voz neuronal. Se recomienda usar una frecuencia de muestreo de 24 000 Hz para los datos de entrenamiento.

Datos de transcripción para expresiones individuales y transcripción relacionada

El archivo de transcripción es un archivo de texto sin formato. Use estas directrices para preparar sus transcripciones.

Propiedad	Value
Formato de archivo	Texto sin formato (.txt)
Formato de codificación	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE. No se admite la codificación ANSI y ASCII para zh-CN.
Número de expresiones por línea	Una: cada línea del archivo de transcripción debe contener el nombre de uno de los archivos de audio, seguido de la transcripción correspondiente. Debe usar un tabulador (\t) para separar el nombre de archivo y la transcripción.
Tamaño de archivo máximo	2048 MB

Este es un ejemplo de cómo las transcripciones se organizan en expresiones (de una en una) en un archivo .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Es importante que las transcripciones tengan una precisión del 100 % respecto al audio correspondiente. Los errores en las transcripciones dan lugar a la pérdida de calidad durante el entrenamiento.

Audio largo y transcripción (versión preliminar)

Nota:

Para Audio largo y transcripción (versión preliminar), solo se admiten los siguientes idiomas: chino (mandarín, simplificado), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Francia), alemán (Alemania), italiano (Italia), japonés (Japón), portugués (Brasil) y español (México).

En algunos casos, puede que no disponga de audio segmentado. Speech Studio puede ayudarle a segmentar los archivos de audio largos y crear transcripciones. El servicio de segmentación de audio largo usa la característica Batch Transcription API de conversión de voz en texto.

Durante el procesamiento de la segmentación, los archivos de audio y las transcripciones también se envían al servicio Voz personalizada para refinar el modelo de reconocimiento y así pueda mejorar la precisión de los datos. Durante este proceso no se conserva ningún dato. Después de realizar la segmentación, solo las expresiones segmentadas y sus transcripciones de asignación se almacenarán para su descarga y entrenamiento.

Nota:

Este servicio se cobrará en función de su uso de la suscripción de conversión de voz en texto. El servicio de segmentación de audio largo solo se admite con recursos de Voz estándar (S0).

Datos de audio para audio largo y transcripción

Al preparar el audio para la segmentación, siga estas directrices.

Propiedad	Value
Formato de archivo	RIFF (.wav) o .mp3, agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	Al crear una voz neuronal personalizada, se requieren 24 000 Hz.
Formato de ejemplo	RIFF(.wav): PCM, al menos 16 bits. mp3: velocidad de bits de al menos 256 KBps.
Longitud de audio	Más de 20 segundos
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB, como máximo 1000 archivos de audio incluidos

Nota:

La frecuencia de muestreo predeterminada para una voz neuronal personalizada es de 24 000 Hz. Se rechazarán los archivos de audio con una frecuencia de muestreo inferior a 16 000 Hz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz o inferior a 24 000 Hz se muestrearán hasta 24 000 Hz para entrenar una voz neuronal. Se recomienda usar una frecuencia de muestreo de 24 000 Hz para los datos de entrenamiento.

Todos los archivos de audio se deben agrupar en un archivo ZIP. Puede poner archivos .wav y .mp3 en el mismo archivo ZIP. Por ejemplo, puede cargar un archivo de audio de 45 segundos denominado "kingstory.wav" y un archivo de audio largo de 200 segundos denominado "queenstory.mp3" en el mismo archivo ZIP. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento.

Datos de transcripción para audio largo y transcripción

Las transcripciones deben estar preparadas de acuerdo con las especificaciones enumeradas en esta tabla. Cada archivo de audio debe coincidir con una transcripción.

Propiedad	Value
Formato de archivo	Texto sin formato (.txt), agrupado en un archivo ZIP
Nombre de archivo	Use el mismo nombre que el archivo de audio relacionado.
Formato de codificación	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE. No se admite la codificación ANSI y ASCII para zh-CN.
Número de expresiones por línea	Sin límite
Tamaño de archivo máximo	2048 MB

Todos los archivos de transcripciones de este tipo de datos deben estar agrupados en un archivo ZIP. Por ejemplo, puede cargar un archivo de audio de 45 segundos denominado "kingstory.wav" y un archivo de audio largo de 200 segundos denominado "queenstory.mp3" en el mismo archivo ZIP. Debe cargar otro archivo ZIP que contenga las dos transcripciones correspondientes: uno denominado "kingstory.txt" y el otro denominado "queenstory.txt". Dentro de cada archivo de texto sin formato, se proporciona la transcripción completa correcta para el audio relacionado.

Después de que el conjunto de datos se ha cargado correctamente, le ayudaremos a segmentar el archivo de audio en expresiones según la transcripción proporcionada. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos. Se asignan identificadores únicos a las expresiones segmentadas automáticamente. Es importante asegurarse de que las transcripciones que proporciona tengan una precisión del 100 %. Los errores en las transcripciones pueden reducir la precisión durante la segmentación del audio e introducir además pérdida de calidad en la fase de entrenamiento que viene más adelante.

Solo audio (versión preliminar)

Nota:

Para Solo audio (versión preliminar), solo se admiten estos idiomas: chino (mandarín, simplificado), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Francia), alemán (Alemania), italiano (Italia), japonés (Japón), portugués (Brasil) y español (México).

Si no tiene transcripciones para las grabaciones de audio, use la opción Solo audio para cargar los datos. Nuestro sistema puede ayudarlo a segmentar y transcribir los archivos de audio. Tenga en cuenta que este servicio se cobra en función de su uso de la suscripción de conversión de voz en texto.

Al preparar el audio, siga estas directrices.

Nota

El servicio de segmentación de audio largo aprovechará la característica de transcripción de voz a texto por lotes, que solo admite usuarios de la suscripción estándar (S0).

Propiedad	Value
Formato de archivo	RIFF (.wav) o .mp3, agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	Al crear una voz neuronal personalizada, se requieren 24 000 Hz.
Formato de ejemplo	RIFF(.wav): PCM, al menos 16 bits mp3: velocidad de bits de al menos 256 KBps.
Longitud de audio	Sin límite
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB, como máximo 1000 archivos de audio incluidos

Nota:

La frecuencia de muestreo predeterminada para una voz neuronal personalizada es de 24 000 Hz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz o inferior a 24 000 Hz se muestrearán hasta 24 000 Hz para entrenar una voz neuronal. Se recomienda usar una frecuencia de muestreo de 24 000 Hz para los datos de entrenamiento.

Todos los archivos de audio se deben agrupar en un archivo ZIP. Una vez que el conjunto de datos se ha cargado correctamente, el servicio de Voz le ayudará a segmentar el archivo de audio en expresiones en función de nuestro servicio de transcripción de voz por lotes. Se asignan identificadores únicos a las expresiones segmentadas automáticamente. Las transcripciones relacionadas se generan mediante el reconocimiento de voz. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos.

Compartir vía

Datos de entrenamiento para voz neuronal personalizada

Tipos de datos de entrenamiento

Expresiones individuales + transcripción relacionada

Datos de audio para expresiones individuales y transcripción relacionada

Datos de transcripción para expresiones individuales y transcripción relacionada

Audio largo y transcripción (versión preliminar)

Datos de audio para audio largo y transcripción

Datos de transcripción para audio largo y transcripción

Solo audio (versión preliminar)

Pasos siguientes

Comentarios

Recursos adicionales