Compartir a través de


Grabación de ejemplos de voz para voz neuronal personalizada

En este artículo se proporcionan instrucciones sobre cómo preparar ejemplos de voz de alta calidad para crear un modelo de voz profesional mediante el proyecto de voz neuronal personalizada Pro.

Crear una voz neuronal personalizada con alta calidad de producción desde cero no es una tarea fácil. El componente central de una voz neuronal personalizada es una gran colección de muestras de audio de voz humana. Es fundamental que estas grabaciones de audio sean de alta calidad. Elija un actor de voz que tenga experiencia en esta clase de grabaciones y un ingeniero de grabación que las grabe con un equipo profesional.

No obstante, para poder realizar estas grabaciones, necesita un guion: las palabras que dirá el actor de voz para crear las muestras de audio.

Muchos detalles pequeños pero importantes intervienen en la creación de una grabación de voz profesional. Esta guía es una guía básica de un proceso que le ayudará a obtener resultados buenos y uniformes.

Sugerencias para preparar los datos para una voz de alta calidad

Una voz neuronal personalizada altamente natural depende de varios factores, como la calidad y el tamaño de los datos de entrenamiento.

La calidad de los datos de entrenamiento es un factor principal. Por ejemplo, en el mismo conjunto de entrenamiento, el volumen coherente, velocidad de habla, tono de habla y estilo de habla son esenciales para crear una voz neuronal personalizada de alta calidad. También debe evitar el ruido de fondo en la grabación y asegurarse de que el script y la grabación coincidan. Para garantizar la calidad de los datos, debe seguir los criterios de selección de scripts y los requisitos de registro.

Con respecto al tamaño de los datos de entrenamiento, en la mayoría de los casos puede crear una voz neuronal personalizada razonable con 500 expresiones. Según nuestras pruebas, agregar más datos de entrenamiento en la mayoría de los idiomas no mejora necesariamente la naturalidad de la propia voz (probada mediante la puntuación MOS). Sin embargo, con más datos de entrenamiento que abarcan más instancias de palabras, tiene más posibilidad de reducir los elementos de la oración insatisfactorios para la voz, como los glitches. Para saber qué elementos de la oración son satisfactorios, consulte los ejemplos de GitHub.

En algunos casos, puede que desee un rol de voz con características únicas. Por ejemplo, un rol de dibujos animados necesita una voz con un estilo de habla especial o una voz dinámica en la entonación. En tales casos, se recomienda preparar al menos 1000 expresiones (preferiblemente 2000) y grabarlas en un estudio de grabación profesional. Para obtener más información sobre cómo mejorar la calidad del modelo de voz, consulte características y limitaciones para usar voz neuronal personalizada.

Roles de grabación de voz

En un proyecto de grabación de voz neuronal personalizada hay cuatro roles básicos:

Role Propósito
Actor de voz La voz de esta persona constituirá la base de la voz neuronal personalizada.
Ingeniero de grabación Supervisa los aspectos técnicos de la grabación y usa el equipo de grabación.
Director Prepara el guion y prepara la sesión del actor de voz.
Editor Finaliza los archivos de audio y los prepara para su carga en Speech Studio.

Un usuario individual puede desempeñar más de un rol. En esta guía da por hecho que desempeñará el rol de director y que contratará a un actor de voz y un ingeniero de grabación. Si quiere realizar las grabaciones usted mismo, en este artículo se incluye alguna información sobre el rol de ingeniero de grabación. El rol de editor no es necesario hasta después de la sesión de grabación. Mientras tanto, el director o el ingeniero de grabación pueden ocupar este rol.

Elección del actor de voz

Los actores que tienen experiencia en voz en off, doblaje, anuncios o lectura de noticias son buenos actores de voz. Elija un actor cuya voz natural le guste. Aunque se pueden crear voces de "personaje" únicas, para los actores de voz es más difícil conseguir locuciones uniformes y el esfuerzo puede dar lugar a que fuercen la voz. El único factor más importante para elegir el actor de voz es la uniformidad. Las grabaciones del mismo estilo de voz deben sonar como si se realizaran el mismo día en la misma sala. Puede aproximarse a este ideal con unas buenas prácticas y una buena ingeniería de grabación.

El actor de voz debe ser capaz de hablar con una velocidad, nivel de volumen, tono y tono con una dicción clara coherentes. También deben ser capaces de controlar la variación del tono, el efecto emocional y sus gestos al hablar. La grabación de muestras de voz puede ser más cansada que otros tipos de trabajo de voz, por lo que la mayoría de los actores de voz solo puede grabar durante dos o tres horas al día. Limite las sesiones a tres o cuatro a la semana, con un día de descanso entre medio, si es posible.

Colabore con el actor de voz para desarrollar un personaje que defina el sonido y el tono emocional general de la voz neuronal personalizada. Usted define los estilos de habla de su personaje y pide a su locutor que lea el guion de forma que sea conforme a sus estilos deseados. Asegúrese de que el estilo de habla sigue siendo coherente en todas las grabaciones de un conjunto de datos de entrenamiento.

Por ejemplo, un rol con una personalidad optimista por naturaleza llevaría una nota de optimismo en su voz. Sin embargo, esta personalidad debe expresarse de forma coherente en todas las grabaciones de un conjunto de datos de entrenamiento. Escuche las voces existentes para hacerse una idea de lo que busca.

Sugerencia

Por lo general, querrá quedarse con las grabaciones de voz que realice. Así que el actor de voz debe aceptar un contrato de trabajo a comisión para el proyecto.

Creación de un script

El punto de partida de cualquier sesión de grabación de voz neuronal personalizada es el guion, que contiene las expresiones que dirá el actor de voz. El término "expresiones" abarca tanto oraciones completas como frases más cortas. La creación de una voz neuronal personalizada requiere al menos 300 expresiones registradas como datos de entrenamiento.

Los enunciados del guion pueden proceder de cualquier parte: ficción, no ficción, transcripciones de voces, informes de noticias y cualquier cosa disponible en formato impreso. Para obtener una breve descripción de los posibles problemas legales, vea la sección "Aspectos legales". También puede escribir su propio texto.

No es necesario que las expresiones provengan del mismo origen, del mismo tipo de origen ni que tengan nada que ver entre sí. Sin embargo, si usa frases hechas (por ejemplo, "Ha iniciado sesión correctamente") en la aplicación de voz, asegúrese de incluirlas en el script. Así, su voz neural personalizada tendrá más posibilidades de pronunciar bien esas frases.

Se recomienda que los scripts de grabación incluyan oraciones generales y oraciones específicas del dominio. Por ejemplo, si planea grabar 2000 frases, 1000 de ellas podrían ser frases generales, otras 1000 podrían ser frases del dominio de destino o caso de uso de la aplicación.

Proporcionamos guiones de ejemplo en los dominios "General", "Chat" y "Servicio al cliente" de cada idioma para ayudarle a preparar los guiones de grabación. Puede usar estos guiones compartidos de Microsoft para las grabaciones directamente o usarlos como referencia para crear los suyos propios.

Criterios de selección del guión

A continuación se muestran algunas directrices generales que puede seguir para crear un buen corpus (ejemplos de audio grabado) para el entrenamiento de voz neuronal personalizada.

  • Equilibra el guión para que abarque los distintos tipos de frases del dominio, incluidas afirmaciones, preguntas, exclamaciones, oraciones largas y cortas.

    Cada frase debe contener entre cuatro y 30 palabras, y no deben incluirse frases duplicadas en su guión.
    Para obtener información sobre cómo equilibrar los diferentes tipos de oraciones, consulte la tabla siguiente:

    Tipos de frases Cobertura
    Frases afirmativas Las oraciones de instrucción deben ser del 70 % al 80 % del script.
    Frases interrogativas Las frases interrogativas deberían suponer entre el 10 % y el 20 % del script del dominio, entre las que se incluyen de un 5  % a un 10 % con tono ascendente y de un 5 % a un 10 % con tono descendente.
    Frases exclamativas Las frases de exclamación deben suponer entre el 10 % y el 20 % del script.
    Respuestas cortas Los scripts de palabras o frases cortas también deben suponer aproximadamente el 10 % de las expresiones totales, con entre 5 y 7 palabras en cada caso.

    Nota

    Las palabras o frases cortas deben estar separadas por comas. Ayudan a recordarle al actor de voz que se detenga brevemente al leerlos.

    Algunos de los procedimientos recomendados son los siguientes:

    • Cobertura equilibrada para las partes del discurso, como verbos, sustantivos, adjetivos, etc.
    • Inclusión equilibrada de distintas pronunciaciones. Incluya todas las letras de la A a la Z para que el motor de texto a voz aprenda a pronunciar cada letra con su estilo.
    • El texto debe ser legible, comprensible y de sentido común para que el hablante lo lea.
    • Evite demasiados patrones similares para palabras o frases, como "fácil" y "más fácil".
    • Incluya diferentes formatos de números en todos los tipos de oraciones: direcciones, unidades, teléfonos, cantidades, fechas, etc.
    • Incluya oraciones ortográficas si es algo que leerá su voz neuronal personalizada. Por ejemplo, "Manzana" se deletrea "M A N Z A N A".
  • No coloque varias oraciones en una sola línea o expresión. Separe cada línea por expresiones.

  • Asegúrese de que la oración sea sencilla. Por lo general, no incluya demasiadas palabras que no sean estándar, como números o abreviaturas, ya que son difíciles de leer. Es posible que algunas aplicaciones requieran la lectura de muchos números o acrónimos. En este caso, podrá incluir dichas palabras, pero normalícelas en su forma hablada.

    A continuación se muestran algunos procedimientos recomendados, por ejemplo:

    • En el caso de líneas con abreviaturas, en lugar de "p.ej., ", escriba "por ejemplo".
    • Para las líneas con dígitos, en lugar de "112", escriba "uno uno dos".
    • Para las líneas con acrónimos, en lugar de "ABC", escriba "A B C".

    De esta manera, asegúrese de que el actor de voz pronuncia estas palabras tal y como se espera. Haga que el guión y las grabaciones coincidan durante el proceso de entrenamiento.

  • El guion debe incluir muchas palabras y frases diferentes con diferentes longitudes de frase, estructuras y estados de ánimo.

  • Compruebe el guion con mucho cuidado para detectar posibles errores. Si es posible, que otra persona también lo revise. Cuando repase el guión con el actor de voz, es posible que detecte más errores.

Diferencia entre un script de locutor y un script de entrenamiento

El script de entrenamiento puede diferir del script del actor de voz, especialmente en el caso de los scripts que contienen dígitos, símbolos, abreviaturas, fecha y hora. Los scripts preparados para el actor de voz deben seguir las convenciones de lectura nativas, como el 50 % y el 45 %. Los scripts que se usan para el entrenamiento deben estar normalizados para que coincidan con la grabación de audio, como por ejemplo cincuenta por ciento y cuarenta y cinco dólares.

Nota

Proporcionamos algunos scripts de ejemplo para los locutores en GitHub. Para usar los scripts de ejemplo para el entrenamiento, debes normalizarlos de acuerdo con las grabaciones del locutor antes de subir el archivo.

La siguiente tabla muestra la diferencia entre los scripts para locutores y el script normalizado para la formación.

Category Ejemplo de script de actor de voz Ejemplo de script de entrenamiento (normalizado)
Dígitos 123 ciento veintitrés
Símbolos 50 % cincuenta por ciento
Abreviatura ASAP en cuanto sea posible
Fecha y hora 3 de marzo a las 5:00 p. m. Tres de marzo a las cinco p. m.

Defectos típicos de un guión

La mala calidad del guión puede afectar negativamente a los resultados del entrenamiento. Para lograr resultados de entrenamiento de alta calidad, es fundamental evitar los defectos.

Los defectos de los scripts suelen clasificarse en las siguientes categorías:

Category Ejemplo
Contenido sin sentido. "Las ideas verdes incoloras duermen furiosamente."
Frases incompletas. - "Esta fue la última", (sin sujeto ni significado concretos)
- "Ya son graciosos (sin comillas al final, no es una frase completa)
Erratas en las frases. - Empezar la frase con una letra minúscula
- No poner puntuación final cuando es necesario
- Errores ortográficos
- Falta de puntuación: ningún punto al final (excepto en titulares)
- Terminar con símbolos, a excepción de comas, signos de interrogación o exclamación
- Formato incorrecto, como:
 - 45$ (debería ser $45)
 - Sin espacios o con espacios excesivos entre palabras y signos de puntuación
Duplicación de un formato similar. Uno por cada patrón es suficiente. - "Ahora es la 1 de la tarde en Nueva York"
- "Ahora son las 2 de la tarde en Nueva York"
- "Ahora son las 3 de la tarde en Nueva York"
- "Ahora es la 1 de la tarde en Seattle"
- "Ahora es la 1 de la tarde en Washington D.C".
Palabras extranjeras poco frecuentes: en el script solo se aceptan palabras extranjeras que se usen habitualmente. En español, se podría usar la palabra francesa "dossier" en un discurso común, pero una expresión francesa como "coincer la bulle" sería poco frecuente.
Emoticonos o cualquier otro símbolo poco frecuente

Formato del guion

El script se usará durante las sesiones de grabación, así que puede configurarlo para que sea fácil trabajar con él. Cree el archivo de texto requerido por Speech Studio por separado.

Un formato de guion básico contiene tres columnas:

  • El número del enunciado, empezando por el 1. La numeración permite que todas las personas del estudio puedan consultar una expresión concreta ("probemos de nuevo el número 356"). Puede usar la característica de numeración de párrafos de Microsoft Word para numerar las filas de la tabla de manera automática.
  • Una columna en blanco donde escribirá el número de toma o el código de tiempo de cada expresión para ayudarle a encontrarla en la grabación finalizada.
  • El propio texto del enunciado.

Script de ejemplo

Nota

La mayoría de los estudios graban en segmentos cortos que se conocen como "tomas". Cada toma contiene normalmente de 10 a 24 expresiones. Basta con anotar el número de toma para después poder encontrar una expresión. Si graba en un estudio que prefiere realizar grabaciones más largas, querrá anotar entonces el código de tiempo. El estudio tendrá una gran pantalla de tiempo.

Deje suficiente espacio después de cada fila para escribir notas. Asegúrese de que ningún enunciado se divida entre páginas. Numere las páginas e imprima el guion en una de las caras del papel.

Imprima tres copias del script: una para el actor de voz, otra para el ingeniero de grabación y otra para el director (usted). Use un clip de papel en lugar de grapas: un actor de voz experimentado separará las páginas para evitar hacer ruido cuando se hojean.

Declaración de actor de voz

Para entrenar una voz neuronal, debe crear un perfil de actor de voz con un archivo de audio grabado por él en el que consienta el uso de sus datos de voz para entrenar un modelo de voz personalizado. Cuando prepare el script de grabación, asegúrese de incluir la frase siguiente.

Aspectos legales

Según la ley de derechos de autor, la lectura de texto protegido por derechos de autor por parte de un actor podría ser una representación por la que el autor de la obra debería ser compensado. Esta representación no será reconocible en el producto final, la voz neuronal personalizada. Aun así, la legalidad del uso de una obra protegida por derechos de autor con esta finalidad no está bien establecida. Microsoft no puede proporcionar asesoramiento legal sobre este problema; consulte con su asesor legal.

Afortunadamente, es posible evitar estos problemas por completo. Hay muchas fuentes de texto que puede usar sin licencia o permiso.

Fuente de texto Descripción
Corpus CMU Arctic Aproximadamente 1100 oraciones seleccionadas de obras protegidas por derechos de autor para su uso especialmente en proyectos de síntesis de voz. Un excelente punto de partida.
Obras que ya no
están protegidas por derechos de autor
Normalmente las obras publicadas antes de 1923. En inglés, el proyecto Gutenberg ofrece miles de obras de este tipo. Quizás quiera centrarse en obras más modernas, dado que el lenguaje estará más próximo al inglés moderno.
Obras de la administración Las obras creadas por el gobierno de los Estados Unidos no están protegidas por derechos de autor en los Estados Unidos, aunque es posible que el gobierno reclame derechos de autor en otros países o regiones.
Dominio público Trabajos para los que se renuncia explícitamente a los derechos de autor o que se dedican al dominio público. Puede que en algunas jurisdicciones no sea posible renunciar totalmente a los derechos de autor.
Obras con licencia permisiva Obras distribuidas con una licencia como Creative Commons o la licencia de documentación libre de GNU (GFDL). La Wikipedia usa la GFDL. Algunas licencias, sin embargo, pueden imponer restricciones sobre la representación del contenido con licencia que pueden afectar a la creación de un modelo de voz neuronal personalizada, así que lea la licencia detenidamente.

Grabación del guion

Grabe el guion en un estudio de grabación profesional especializado en trabajos de voz. Tienen una cabina de grabación, el equipo adecuado y las personas adecuadas para manejarlo. Se recomienda no escatimar en la grabación.

Revise el proyecto con el ingeniero de grabación del estudio y escuche sus consejos. La grabación debe tener poca o ninguna compresión de rango dinámico (máximo 4:1). Es esencial que el audio tenga un volumen uniforme y una elevada relación señal-ruido, y que esté libre de sonidos no deseados.

Requisitos de grabación

Para lograr resultados de entrenamiento de alta calidad, siga los siguientes requisitos durante la grabación o preparación de los datos:

  • Buena pronunciación

  • Velocidad natural: ni demasiado lento ni demasiado rápido entre archivos de audio.

  • Volumen adecuado, prosodia y pausas: estable dentro de la misma frase o entre frases, pausas correctas según la puntuación.

  • Sin ruido durante la grabación

  • Adecuado al diseño de la persona

  • Sin acento incorrecto: ajustado al diseño de destino

  • Sin pronunciación incorrecta

Puede consultar la especificación siguiente para prepararse para los ejemplos de audio como procedimiento recomendado.

Propiedad Value
Formato de archivo *.wav, Mono
Frecuencia de muestreo 24 KHz
Formato de ejemplo 16 bits, PCM
Niveles máximos de volumen -3 dB a -6 dB
SNR > 35 dB
Silencio - Debe haber algún silencio (se recomiendan 100 ms) al principio y al final, pero no más de 200 ms
- Silencio entre palabras o frases < -30 dB
- Silencio en el archivo de audio después de pronunciar la última palabra < -60 dB
Ruido o eco del entorno - El nivel de ruido al inicio del archivo de sonido antes de hablar < -70 dB

Nota

Puede grabar con una mayor frecuencia de muestreo y profundidad de bits, por ejemplo en el formato de 48 KHz, 24 bits, PCM. Durante el entrenamiento de la voz neuronal personalizada, se bajará el muestreo a 24 KHz, 16 bits, PCM, automáticamente.

Una relación de la señal y el ruido (SNR) más alta indica un ruido más bajo en el audio. Por lo general, el audio puede alcanzar una SNR de más de 35 puntos si se graba en estudios profesionales. Un audio que tenga un valor de SNR por debajo de 20 puntos puede provocar un ruido obvio en la voz generada.

Puede volver a grabar cualquier expresión que tenga una puntuación baja debido a la pronunciación o a la pobre relación entre el ruido y la señal. Si no es posible volver a realizar la grabación, considere la exclusión de esas expresiones de los datos.

Errores de audio típicos

Para obtener resultados de entrenamiento de alta calidad, se recomienda encarecidamente evitar errores de audio. Los errores de audio suelen clasificarse en las siguientes categorías:

  • El nombre del archivo de audio no coincide con el identificador del guión.

  • El archivo WAR tiene un formato no válido y no se puede leer.

  • La velocidad de muestreo de audio es inferior a 16 KHz. También se recomienda que la velocidad de muestreo del archivo .wav sea igual o mayor que 24 KHz para una voz neuronal de alta calidad.

  • El pico de volumen no está dentro del intervalo de -3 dB (70 % del volumen máximo) a -6 dB (50 %).

  • Desbordamiento de la forma de onda: la forma de onda se corta en su valor máximo y, por tanto, no está completa.

    desbordamiento de la forma de onda

  • Las partes en silencio de la grabación no están limpias; puede oír sonidos como ruido ambiental, ruidos de la boca y eco.

    Por ejemplo, el audio siguiente contiene el ruido del entorno entre las frases.

    ruido del entorno

    El ejemplo a continuación contiene signos de desplazamiento de DC o eco.

    Desplazamiento de corriente continua o eco

  • El volumen general es demasiado bajo. Los datos se etiquetarán como un problema si el volumen es inferior a -18 dB (10 % del volumen máximo). Asegúrese de que todos los archivos de audio sean coherentes en el mismo nivel de volumen.

    volumen general

  • No hay silencio antes de la primera palabra o después de la última. Además, el silencio inicial o final no debe ser superior a 200 ms ni inferior a 100 ms.

    Sin silencio

Hágalo usted mismo

Si quiere hacer la grabación por su cuenta, puede consultar este manual básico breve en lugar de meterse en un estudio de grabación. Gracias al aumento de la grabación doméstica y la distribución de archivos multimedia, resulta más fácil que nunca encontrar buena información y recursos de grabación en Internet.

La "cabina de grabación" debe ser una habitación pequeña sin eco apreciable o "tono de la sala". Debe ser lo más silenciosa e insonorizada posible. Se pueden usar cortinas en las paredes para reducir el eco y neutralizar o "amortiguar" el sonido de la habitación.

Use un micrófono de condensador de estudio de alta calidad diseñado para la grabación de voz. Sennheiser, AKG e incluso los recientes micrófonos Zoom pueden producir buenos resultados. Puede comprar un micrófono o alquilar uno en una empresa de alquiler de equipo audiovisual. Busque uno con una interfaz USB. Este tipo de micrófono combina de forma práctica el elemento de micrófono, el preamplificador y el convertidor analógico-digital en un paquete, lo que simplifica la conexión.

También puede usar un micrófono analógico. Muchas empresas de alquiler ofrecen micrófonos "vintage" que conocen los personajes de voz. Un equipo analógico profesional usa conectores XLR balanceados, en lugar del conector de 1/4" que se usa en los equipos de consumo. Si se decide por el analógico, también necesitará un preamplificador y una interfaz de audio de equipo informático con estos conectores.

Instale el micrófono en un soporte o jirafa e instale un filtro de pop delante del micrófono para eliminar el ruido de las consonantes oclusivas, como la "p" y la "b". Algunos micrófonos incluyen una montura suspendida que los aísla de las vibraciones del soporte, lo que resulta útil.

El actor de voz debe permanecer a una distancia constante del micrófono. Use cinta en el suelo para marcar dónde se debe colocar. Si el actor prefiere sentarse, tenga especial cuidado para controlar la distancia al micrófono y evitar el ruido de la silla.

Use un atril para sostener el guion. Evite inclinar el atril para que pueda reflejar el sonido hacia el micrófono.

La persona que usa el equipo de grabación, el ingeniero de grabación, debe estar en una habitación diferente a la del actor, con algún medio para comunicarse con él en la cabina de grabación (un circuito talkback).

La grabación debe contener el menor ruido posible, con un objetivo de -80 dB.

Escuche con atención la grabación de silencio en la cabina, averigüe de dónde proceden los ruidos y elimine la causa. Las fuentes habituales de ruido son los conductos de ventilación, los balastros de tubos fluorescentes, el tráfico de carreteras cercanas y los ventiladores de los equipos (incluso los portátiles pueden tener ventiladores). Los micrófonos y cables pueden captar el ruido eléctrico de los cables cercanos de CA, normalmente un zumbido o murmullo. Un zumbido también se puede producir por un bucle de tierra, que se genera al conectar un equipo a más de un circuito eléctrico.

Sugerencia

En algunos casos, es posible usar un ecualizador o un complemento de software de reducción de ruido para ayudar a eliminar el ruido de las grabaciones, aunque siempre es mejor detenerlo en el origen.

Establezca los niveles de manera que la mayoría del intervalo dinámico de grabación digital disponible se use sin sobremodulación. Esto significa establecer un nivel de audio alto, pero sin que distorsione. En la imagen siguiente se muestra un ejemplo de la forma de onda de una grabación correcta:

Forma de onda de una grabación correcta

Aquí, se usa la mayor parte del rango (alto), pero los picos más altos de la señal no llegan a la parte superior o inferior de la ventana. También puede ver que el silencio en la grabación se aproxima a una línea horizontal fina, que indica un ruido de fondo bajo. Esta grabación tiene un rango dinámico y una relación señal-ruido aceptables.

Grabe directamente en el equipo informático mediante una interfaz de audio de alta calidad o un puerto USB, según el micrófono que vaya a usar. Si es analógico, use lo básico: micrófono, preamplificador, interfaz de audio, equipo informático. Tanto Avid Pro Tools como Adobe Audition se pueden usar con licencia mensual por un módico precio. Si su presupuesto es muy reducido, pruebe la aplicación gratuita Audacity.

Grabe con sonido monofónico de 16 bits a 44,1 KHz (calidad de CD) o mejor. El más moderno actualmente es 24 bits a 48 kHz, si el equipo lo admite. Debe reducir la calidad del audio hasta 16 bits a 24 KHz antes de enviarlo a Speech Studio. Aun así, merece la pena tener una grabación original de alta calidad en caso de que sea necesario realizar modificaciones.

Lo ideal es tener distintas personas en los roles de director, ingeniero y actor. No intente hacerlo todo usted mismo. En caso de emergencia, la misma persona puede ser el director y el ingeniero.

Antes de la sesión

Para evitar perder tiempo en el estudio, repase el guion con el actor antes de la sesión de grabación. Mientras el actor se familiariza con el texto, puede resolver dudas con la pronunciación de palabras que no resulten muy conocidas.

Nota

La mayoría de los estudios de grabación ofrecen una pantalla electrónica de guiones en la cabina de grabación. En este caso, escriba las notas de revisión directamente en el documento del guion. También puede querer una copia en papel para tomar notas durante la sesión. La mayoría de los ingenieros también querrán una copia en papel. Y la tercera copia impresa servirá como respaldo para el actor en caso de que el equipo informático no funcione.

Es posible que el actor de voz pregunte qué palabra quiere enfatizar en una expresión (la "palabra operativa"). Indíquele que desea una lectura natural sin ningún énfasis en particular. El énfasis se puede agregar cuando se sintetice la voz; no debe formar parte de la grabación original.

Indique el actor que pronuncie las palabras claramente. Cada palabra del guion se debe pronunciar tal y como se escribe. Los sonidos no se deben omitir ni arrastrar juntos, como es habitual en el habla informal, a menos que se hayan escrito de esa manera en el guion.

Texto escrito Pronunciación informal no deseada
me has dejado helado mehas dejao helao
le dijeron que estaba muy guapa le dijeron queestaba mu guapa
la ciudad de Madrid la ciuda de Madri
estoy cansado estoy cansao

El actor no debería* agregar pausas claras entre las palabras. La frase debe fluir naturalmente, aunque suene un poco formal. Es posible que se necesite práctica para que esta distinción fina salga bien.

La sesión de grabación

Al comienzo de la sesión, cree una grabación de referencia, o archivo de ajuste, de un enunciado típico. Pida al actor que repita esta línea cada página o página y media. Cada vez, compare la nueva grabación con la referencia. Esta práctica ayuda al actor a mantenerse en un volumen, tono y entonación constantes. Mientras tanto, el ingeniero puede usar el archivo de ajuste como referencia para los niveles y la uniformidad general del sonido.

El archivo de ajuste es especialmente importante cuando se reanuda la grabación tras un descanso, u otro día. Reprodúzcalo varias veces para el actor y hágalo que lo repita hasta que la coincidencia sea perfecta.

Para grabar un corpus con un estilo específico, elija cuidadosamente scripts que muestren el estilo deseado. Durante la grabación, asegúrese de que el talento de voz mantiene coherente en volumen, tempo, tono y tono para lograr grabaciones que incorporen el estilo previsto.

Entrene a su actor para respirar profundamente y hacer una pausa durante un momento antes de cada enunciado. Grabe un par de segundos de silencio entre enunciados. Las palabras se deben pronunciar de la misma manera cada vez que aparezcan, en función del contexto. Es importante mantener la coherencia en la pronunciación y en la entonación de las palabras.

Grabe un silencio de aproximadamente cinco segundos antes de la primera grabación para capturar el "tono de la sala". Este procedimiento ayuda a Speech Studio a compensar el ruido de las grabaciones.

Sugerencia

Lo que necesita es conseguir el actor de voz, para que pueda hacer una grabación monofónica (de un solo canal) de sus líneas. Sin embargo, si graba en estéreo, puede usar el segundo canal para grabar la charla en la sala de control y capturar los comentarios de líneas o cortes determinados. Quite esta pista de la versión que se carga en Speech Studio.

Use auriculares para escuchar con atención la representación del actor de voz. Lo que busca es una dicción buena pero natural, una pronunciación correcta y ausencia de sonidos no deseados. No dude en pedir al actor que vuelva a grabar un enunciado que no satisfaga estas normas.

Sugerencia

Cuando se usa un número elevado de expresiones, una sola de ellas podría no tener un efecto apreciable sobre la voz neuronal personalizada resultante. Es posible que sea más adecuado anotar simplemente las expresiones con problemas, excluirlas del conjunto de datos y ver el resultado de la voz neuronal personalizada. Siempre puede volver al estudio y grabar las muestras que faltan más tarde.

Anote en el guion el número de toma o código de tiempo de cada expresión. Pídale también al ingeniero que marque todas las expresiones en los metadatos de la grabación o en la hoja de pistas.

Haga pausas cada cierto tiempo y ofrezca bebidas para ayudar a mantener la voz del actor en buen estado.

Después de la sesión

Los estudios de grabación modernos funcionan en equipos informáticos. Al final de la sesión, recibirá uno o varios archivos de audio, no una cinta. Estos archivos tendrán probablemente el formato WAV o AIFF en calidad de CD (16 bits a 44,1 KHz) o superior. 16 bits a 24 kHz es lo habitual y deseable. La frecuencia de muestreo predeterminada para una voz neuronal personalizada es de 24 KHz. Se recomienda usar una frecuencia de muestreo de 24 KHz y superior para los datos de entrenamiento. Las velocidades de muestreo más altas, como 96 KHz, no suelen ser necesarias.

Speech Studio requiere que cada expresión proporcionada esté en su propio archivo. Los archivos de audio entregados por el estudio contienen varias expresiones. Así que la principal tarea de posproducción es separar las grabaciones y prepararlas para su envío. Es posible que el ingeniero de grabación haya colocado marcadores en el archivo (o proporcionado una lista de pistas independiente) para indicar dónde comienza cada expresión.

Use sus notas para encontrar exactamente los cortes que quiera y, después, use una utilidad de edición de sonido, como Avid Pro Tools, Adobe Audition, o la aplicación gratuita Audacity para copiar las expresiones en un archivo nuevo.

Escuche atentamente cada archivo. En esta fase, puede editar pequeños sonidos no deseados que pasó por alto durante la grabación, como ligeros ruidos con los labios antes de una línea, pero tenga cuidado de no quitar la voz real. Si no puede corregir un archivo, elimínelo del conjunto de datos y tome nota de que lo ha hecho.

Convierta todos los archivos a 16 bits y una velocidad de muestreo de 24 KHz y superior antes de guardar y, si graba la charla del estudio, quite el segundo canal. Guarde cada archivo en formato WAV y nombre los archivos con el número de enunciado del guion.

Por último, cree la transcripción que asocia cada archivo WAV con una versión de texto del enunciado correspondiente. Entrenamiento del modelo de voz incluye los detalles del formato necesario. Puede copiar el texto directamente del guion. Después, cree un archivo ZIP de los archivos WAV y de la transcripción de texto.

Archive las grabaciones originales en un lugar seguro en caso de que las necesite más adelante. También, conserve el guion y las notas.

Pasos siguientes

Está listo para cargar las grabaciones y crear la voz neuronal personalizada.