Datos de afinación de voz profesional

2025-06-06

Cuando esté listo para crear una voz personalizada para la aplicación, el primer paso es recopilar grabaciones de audio y scripts asociados para iniciar el ajuste de voz profesional. "Voz personalizada" es un término general que incluye tanto el ajuste de voz profesional como la voz personal. El servicio de voz usa estos datos para el ajuste profesional de voz, creando una voz única ajustada para coincidir con la voz en las grabaciones. Después de ajustar una voz profesional, puede empezar a sintetizar habla en sus aplicaciones.

Sugerencia

Para crear una voz que se vaya a usar en una producción, le recomendamos que use un estudio de grabación profesional y un locutor. Para obtener más información, vea grabar ejemplos de voz para el ajuste de voz profesional.

Tipos de datos para el ajuste de voz profesional

Un conjunto de datos para la optimización de voz profesional incluye grabaciones de audio y un archivo de texto con las transcripciones asociadas. Cada archivo de audio debe contener una sola expresión (una frase única o un solo turno en un sistema de diálogo) y tener una duración de menos de 15 segundos.

En algunos casos, es posible que no disponga del conjunto de datos adecuado. Puede probar el ajuste de voz profesional con archivos de audio disponibles, cortos o largos, con o sin transcripciones.

En esta tabla se enumeran los tipos de datos y cómo se usa cada uno para el ajuste de voz profesional.

Tipo de datos	Descripción	Cuándo se usa	Se requiere un procesamiento adicional	Procesado como
Expresiones individuales + transcripción relacionada	Una colección (.zip) de archivos de audio (.wav) como expresiones individuales. Cada archivo de audio debe tener una longitud de 15 segundos o menos y estar emparejado con una transcripción con formato (.txt).	Grabaciones profesionales con transcripciones relacionadas	Listo para el ajuste.	Segmentado
Audio largo y transcripción	Colección (.zip) de archivos de audio largos (.wav o .mp3, más de 20 segundos, 1000 archivos de audio como máximo) y sin segmentar, emparejados con una colección (.zip) de transcripciones que contiene todas las palabras habladas.	Tiene archivos de audio y transcripciones relacionadas, pero no están segmentados en expresiones.	Segmentación (mediante transcripción por lotes). Transformación del formato de audio cuando sea necesario.	Segmentado, Contextual
Solo audio (versión preliminar)	Una colección (.zip) de archivos de audio (.wav o .mp3, 1000 archivos de audio como máximo) sin una transcripción.	Solo dispone de archivos de audio, sin transcripciones.	Segmentación + generación de transcripciones (mediante la transcripción por lotes). Transformación del formato de audio cuando sea necesario.	Segmentado, Contextual

Los archivos deben agruparse por tipo en un conjunto de datos y cargarse como un archivo zip. Cada conjunto de datos solo puede contener un tipo de datos.

Nota

El número máximo de conjuntos de datos que se pueden importar por suscripción es de 500 archivos ZIP para usuarios de la suscripción estándar (S0).

Procesado como contextual conservaría el audio como un todo para mantener la información contextual para las entonaciones más naturales.

Expresiones individuales + transcripción relacionada

Puede preparar las grabaciones de expresiones individuales y la transcripción relacionada de dos maneras. Escriba un guion y haga que lo lea un locutor, o bien use el audio disponible públicamente y transcríbalo a texto. En este último caso, deberá editar las disfluencias de los archivos de audio, como las muletillas ("em") y otros sonidos de relleno, tartamudeos, palabras entre dientes o pronunciaciones erróneas.

Para crear un modelo óptimo de voz, realice las grabaciones en una sala silenciosa con un micrófono de alta calidad. El volumen constante, la velocidad de la conversación, el tono al hablar y las particularidades expresivas del habla son esenciales.

Para obtener ejemplos de formato de datos, consulte el conjunto de datos de ejemplo en GitHub. El conjunto de datos de ejemplo incluye el script de ejemplo y el audio asociado.

Datos de audio para expresiones individuales y transcripción relacionada

Cada archivo de audio debe contener una sola expresión (una sola frase o un solo turno de un sistema de diálogo) y tener una duración inferior a 15 segundos. Todos los archivos deben estar en el mismo idioma hablado. La transformación de texto a voz personalizada en varios idiomas no se admite, excepto en el caso del chino al inglés bilingüe. Los archivos de audio deben tener un nombre de archivo exclusivo con la extensión de nombre de archivo .wav.

Al preparar el audio, siga estas directrices.

Propiedad	Importancia
Formato de archivo	RIFF (.wav), agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	24 KHz y versiones posteriores necesarias para ajustar una voz profesional.
Formato de ejemplo	PCM, al menos 16 bits
Longitud de audio	Menor de 15 segundos
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB

Nota

La frecuencia de muestreo predeterminada para el ajuste de voz profesional es de 24 KHz. Se rechazarán los archivos de audio con una frecuencia de muestreo inferior a 16 000 Hz. Si un archivo ZIP contiene archivos .wav con distintas frecuencias de muestreo, solo se importarán las que sean iguales o superiores a 16 000 Hz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz y inferiores a 24 KHz se muestrearán a 24 KHz para ajustarlos. Se recomienda usar una frecuencia de muestreo de 24 KHz o superior para los datos de ajuste fino.

Datos de transcripción para expresiones individuales y transcripción relacionada

El archivo de transcripción es un archivo de texto sin formato. Use estas directrices para preparar sus transcripciones.

Propiedad	Importancia
Formato de archivo	Texto sin formato (.txt)
Formato de codificación	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE. No se admite la codificación ANSI y ASCII para zh-CN.
Número de expresiones por línea	Una: cada línea del archivo de transcripción debe contener el nombre de uno de los archivos de audio, seguido de la transcripción correspondiente. Debe usar un tabulador (\t) para separar el nombre de archivo y la transcripción.
Tamaño de archivo máximo	2048 MB

Este es un ejemplo de cómo las transcripciones se organizan en expresiones (de una en una) en un archivo .txt:

0000000001[tab]	This is the waistline, and it's falling.
0000000002[tab]	We have trouble scoring.
0000000003[tab]	It was Janet Maslin.

Es importante que las transcripciones tengan una precisión del 100 % respecto al audio correspondiente. Los errores de las transcripciones presentan una pérdida de calidad durante el proceso de ajuste preciso.

Audio largo y transcripción (versión preliminar)

Nota

Para audio largo y transcripción (versión preliminar), solo se admiten estos idiomas: chino (mandarín, simplificado), chino (cantoés, tradicional), chino (taiwanés), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Francia), alemán (Alemania), hindi (India), italiano (Italia), japonés (Japón), portugués (Brasil), español (España) y español (México).

Procesado como contextual actualmente solo está disponible para chino (mandarín, simplificado) e inglés (Estados Unidos).

En algunos casos, puede que no disponga de audio segmentado. Speech Studio puede ayudarle a segmentar los archivos de audio largos y crear transcripciones. El servicio de segmentación de audio largo usa la característica Batch Transcription API de conversión de voz en texto.

El servicio ofrece dos modos de procesamiento:

Segmentado: modo de procesamiento predeterminado que funciona con todos los lenguajes admitidos
Contextual: modo mejorado que conserva el audio como un todo para mantener la información contextual para las entonaciones más naturales.

Durante el procesamiento de la segmentación, los archivos de audio y las transcripciones también se envían al servicio Voz personalizada para refinar el modelo de reconocimiento y así pueda mejorar la precisión de los datos. Durante este proceso no se conserva ningún dato. Después de realizar la segmentación, solo las expresiones segmentadas y sus transcripciones de asignación se almacenarán para su descarga y ajuste.

Datos de audio para audio largo y transcripción

Al preparar el audio para la segmentación, siga estas directrices.

Propiedad	Importancia
Formato de archivo	RIFF (.wav) o .mp3, agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	Se requieren 24 KHz y frecuencias más altas para ajustar una voz profesional.
Formato de ejemplo	RIFF(.wav): PCM, al menos 16 bits. mp3: velocidad de bits de al menos 256 KBps.
Longitud de audio	Más de 30 segundos
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB, como máximo 1000 archivos de audio incluidos

Nota

La frecuencia de muestreo predeterminada para el ajuste de voz profesional es de 24 KHz. Se rechazarán los archivos de audio con una frecuencia de muestreo inferior a 16 000 Hz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz y inferiores a 24 KHz se muestrearán a 24 KHz para ajustarlos. Se recomienda usar una frecuencia de muestreo de 24 KHz o más para los datos de ajuste.

Idealmente, las expresiones segmentadas deben tener entre 5 y 15 segundos de duración. Para obtener resultados óptimos de segmentación, se recomienda incluir pausas naturales de 0,5 a 1 segundo cada 5 a 15 segundos de voz, preferiblemente al final de las frases o oraciones.

Todos los archivos de audio se deben agrupar en un archivo ZIP. Puede poner archivos .wav y .mp3 en el mismo archivo ZIP. Por ejemplo, puede cargar un archivo de audio de 45 segundos denominado "kingstory.wav" y un archivo de audio largo de 200 segundos denominado "queenstory.mp3" en el mismo archivo ZIP. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento.

Datos de transcripción para audio largo y transcripción

Las transcripciones deben estar preparadas de acuerdo con las especificaciones enumeradas en esta tabla. Cada archivo de audio debe coincidir con una transcripción.

Propiedad	Importancia
Formato de archivo	Texto sin formato (.txt), agrupado en un archivo ZIP
Nombre de archivo	Use el mismo nombre que el archivo de audio relacionado.
Formato de codificación	ANSI, ASCII, UTF-8, UTF-8-BOM, UTF-16-LE o UTF-16-BE. No se admite la codificación ANSI y ASCII para zh-CN.
Número de expresiones por línea	Sin límite
Tamaño de archivo máximo	2048 MB

Todos los archivos de transcripciones de este tipo de datos deben estar agrupados en un archivo ZIP. Por ejemplo, puede cargar un archivo de audio de 45 segundos denominado "kingstory.wav" y un archivo de audio largo de 200 segundos denominado "queenstory.mp3" en el mismo archivo ZIP. Debe cargar otro archivo ZIP que contenga las dos transcripciones correspondientes: uno denominado "kingstory.txt" y el otro denominado "queenstory.txt". Dentro de cada archivo de texto sin formato, se proporciona la transcripción completa correcta para el audio relacionado.

Después de que el conjunto de datos se ha cargado correctamente, le ayudaremos a segmentar el archivo de audio en expresiones según la transcripción proporcionada. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos. Se asignan identificadores únicos a las expresiones segmentadas automáticamente. Es importante asegurarse de que las transcripciones que proporciona tengan una precisión del 100 %. Los errores de las transcripciones pueden reducir la precisión durante la segmentación de audio y introducir más adelante la pérdida de calidad en la fase de ajuste preciso.

Solo audio (versión preliminar)

Nota

Solo para audio (versión preliminar), solo se admiten estos idiomas: chino (mandarín, simplificado), chino (cantoés, tradicional), chino (chino taiwanés), inglés (India), inglés (Reino Unido), inglés (Estados Unidos), francés (Francia), alemán (Alemania), hindi (India), italiano (Italia), japonés (Japón), portugués (Brasil), español (España) y español (México).

Procesado como contextual actualmente solo está disponible para chino (mandarín, simplificado) e inglés (Estados Unidos).

Si no tiene transcripciones para las grabaciones de audio, use la opción Solo audio para cargar los datos. Nuestro sistema puede ayudarlo a segmentar y transcribir los archivos de audio.

El servicio ofrece dos modos de procesamiento:

Segmentado: modo de procesamiento predeterminado que funciona con todos los lenguajes admitidos
Contextual: modo mejorado que conserva el audio como un todo para mantener la información contextual para las entonaciones más naturales.

Al preparar el audio, siga estas directrices.

Propiedad	Importancia
Formato de archivo	RIFF (.wav) o .mp3, agrupado en un archivo ZIP
Nombre de archivo	Caracteres del nombre de archivo admitidos por el sistema operativo Windows, con extensión .wav. No se admiten los caracteres `\ / : * ? " < > \\|`. No puede empezar ni terminar con un espacio, tampoco puede empezar con un punto. No se permiten nombres de archivo duplicados.
Frecuencia de muestreo	Se requieren 24 KHz o superiores para afinar una voz profesional.
Formato de ejemplo	RIFF(.wav): PCM, al menos 16 bits mp3: velocidad de bits de al menos 256 KBps.
Longitud de audio	Sin límite
Formato de archivo	.zip
Tamaño de archivo máximo	2048 MB, como máximo 1000 archivos de audio incluidos

Nota

La frecuencia de muestreo predeterminada para el ajuste de voz profesional es de 24 KHz. Los archivos de audio con una frecuencia de muestreo superior a 16 000 Hz y inferiores a 24 KHz se muestrearán a 24 KHz para ajustarlos. Se recomienda usar una frecuencia de muestreo de 24 KHz y superiores para los datos de ajuste fino.

Todos los archivos de audio se deben agrupar en un archivo ZIP. Una vez que el conjunto de datos se ha cargado correctamente, el servicio de Voz le ayudará a segmentar el archivo de audio en expresiones en función de nuestro servicio de transcripción de voz por lotes. Puede seleccionar el modo de procesamiento estándar o contextual, en función del idioma y los requisitos. Se asignan identificadores únicos a las expresiones segmentadas automáticamente. Las transcripciones relacionadas se generan mediante el reconocimiento de voz. Todos los archivos. mp3 se transformarán al formato .wav después del procesamiento. Para comprobar las expresiones segmentadas y las transcripciones relacionadas, descargue el conjunto de datos.

Compartir a través de

Datos de afinación de voz profesional

Tipos de datos para el ajuste de voz profesional

Expresiones individuales + transcripción relacionada

Datos de audio para expresiones individuales y transcripción relacionada

Datos de transcripción para expresiones individuales y transcripción relacionada

Audio largo y transcripción (versión preliminar)

Datos de audio para audio largo y transcripción

Datos de transcripción para audio largo y transcripción

Solo audio (versión preliminar)

Pasos siguientes

Comentarios

Recursos adicionales