Gravação de amostras de voz para voz neural personalizada

Artigo
01/21/2024

Este artigo fornece instruções sobre como preparar amostras de voz de alta qualidade para criar um modelo de voz profissional usando o projeto Pro de voz neural personalizado.

Criar uma voz neural personalizada de produção de alta qualidade a partir do zero não é uma tarefa casual. O componente central de uma voz neural personalizada é uma grande coleção de amostras de áudio da fala humana. É vital que essas gravações de áudio sejam de alta qualidade. Escolha um talento de voz que tenha experiência em fazer esses tipos de gravações e faça com que elas sejam gravadas por um engenheiro de gravação usando equipamentos profissionais.

Antes de fazer essas gravações, porém, você precisa de um roteiro: as palavras são ditas pelo seu talento de voz para criar as amostras de áudio.

Muitos detalhes pequenos, mas importantes, entram na criação de uma gravação de voz profissional. Este guia é um roteiro para um processo que irá ajudá-lo a obter resultados bons e consistentes.

Dicas para preparar dados para uma voz de alta qualidade

Uma voz neural personalizada altamente natural depende de vários fatores, como a qualidade e o tamanho dos seus dados de treinamento.

A qualidade dos seus dados de treinamento é um fator primordial. Por exemplo, no mesmo conjunto de treinamento, volume consistente, taxa de fala, tom de fala e estilo de fala são essenciais para criar uma voz neural personalizada de alta qualidade. Você também deve evitar o ruído de fundo na gravação e certificar-se de que o script e a gravação correspondem. Para garantir a qualidade de seus dados, você precisa seguir os critérios de seleção de script e os requisitos de gravação.

Em relação ao tamanho dos dados de treinamento, na maioria dos casos você pode construir uma voz neural personalizada razoável com 500 enunciados. De acordo com nossos testes, adicionar mais dados de treinamento na maioria dos idiomas não necessariamente melhora a naturalidade da voz em si (testada usando a pontuação MOS), no entanto, com mais dados de treinamento que abrangem mais instâncias de palavras, você tem maior possibilidade de reduzir a proporção de partes insatisfatórias da fala para a voz, como as falhas. Para ouvir o som de partes insatisfatórias da fala, consulte os exemplos do GitHub.

Em alguns casos, você pode querer uma persona de voz com características únicas. Por exemplo, uma persona de desenho animado precisa de uma voz com um estilo de fala especial, ou uma voz que seja dinâmica na entonação. Para esses casos, recomendamos que você prepare pelo menos 1000 (de preferência 2000) enunciados e grave-os em um estúdio de gravação profissional. Para saber mais sobre como melhorar a qualidade do seu modelo de voz, consulte as características e limitações do uso da voz neural personalizada.

Funções de gravação de voz

Há quatro funções básicas em um projeto de gravação de voz neural personalizado:

Role	Propósito
Talento de voz	A voz desta pessoa forma a base da voz neural personalizada.
Engenheiro de gravação	Supervisiona os aspetos técnicos do aparelho de registo e de funcionamento do aparelho de controlo.
Diretor	Prepara o roteiro e treina o desempenho do talento de voz.
Editor	Finaliza os arquivos de áudio e os prepara para upload no Speech Studio

Um indivíduo pode preencher mais de uma função. Este guia assume que você está preenchendo o papel de diretor e contratando um talento de voz e um engenheiro de gravação. Se você quiser fazer as gravações sozinho, este artigo inclui algumas informações sobre a função de engenheiro de gravação. A função de editor não é necessária até depois da sessão de gravação. Entretanto, o realizador ou o engenheiro de gravação pode desempenhar esta função.

Escolha o seu talento de voz

Atores com experiência em dublagem, trabalho de dublagem, anúncios ou leitura de notícias fazem bons talentos de voz. Escolha talentos de voz cuja voz natural você gosta. É possível criar vozes únicas de "personagem", mas é mais difícil para a maioria dos talentos executá-las de forma consistente, e o esforço pode causar tensão na voz. O fator mais importante para a escolha do talento vocal é a consistência. Suas gravações para o mesmo estilo de voz devem soar como se tivessem sido feitas no mesmo dia na mesma sala. Pode abordar este ideal através de boas práticas de gravação e engenharia.

Seu talento de voz deve ser capaz de falar com taxa consistente, nível de volume, tom e tom com ditado claro. Eles também precisam ser capazes de controlar sua variação de tom, efeito emocional e maneirismos de fala. Gravar amostras de voz pode ser mais cansativo do que outros tipos de trabalho de voz, então a maioria dos talentos de voz só pode gravar por duas ou três horas por dia. Limite as sessões a três ou quatro dias por semana, com um dia de folga no meio, se possível.

Trabalhe com seu talento de voz para desenvolver uma persona que defina o som geral e o tom emocional da voz neural personalizada, certificando-se de identificar o que soa "neutro" para essa persona. Você define os estilos de fala da sua persona e pede ao seu talento de voz para ler o roteiro de uma forma que ressoe com os estilos que você deseja.

Por exemplo, uma persona com uma personalidade naturalmente otimista carregaria uma nota de otimismo mesmo quando fala de forma neutra. No entanto, esse traço de personalidade deve ser sutil e consistente. Ouça as leituras das vozes existentes para ter uma ideia do que você está almejando.

Gorjeta

Normalmente, você vai querer possuir as gravações de voz que você faz. Seu talento de voz deve ser passível de um contrato de trabalho por contratação para o projeto.

Criar um script

O ponto de partida de qualquer sessão de gravação de voz neural personalizada é o script, que contém os enunciados a serem falados pelo seu talento de voz. O termo "enunciados" engloba tanto frases completas como frases mais curtas. A construção de uma voz neural personalizada requer pelo menos 300 expressões gravadas como dados de treinamento.

Os enunciados em seu roteiro podem vir de qualquer lugar: ficção, não-ficção, transcrições de discursos, reportagens e qualquer outra coisa disponível na forma impressa. Para uma breve discussão de possíveis questões jurídicas, consulte a seção "Legalidades". Você também pode escrever seu próprio texto.

Seus enunciados não precisam vir da mesma fonte, do mesmo tipo de fonte, ou ter algo a ver uns com os outros. No entanto, se você usar frases definidas (por exemplo, "Você fez login com êxito") em seu aplicativo de fala, certifique-se de incluí-las em seu script. Isso dá à sua voz neural personalizada uma chance melhor de pronunciar bem essas frases.

Recomendamos que os scripts de gravação incluam frases gerais e frases específicas do domínio. Por exemplo, se você planeja gravar 2.000 frases, 1.000 delas podem ser frases gerais, outras 1.000 delas podem ser sentenças do seu domínio de destino ou o caso de uso do seu aplicativo.

Fornecemos exemplos de scripts nos domínios 'Geral', 'Chat' e 'Atendimento ao cliente' para cada idioma para ajudá-lo a preparar seus scripts de gravação. Você pode usar esses scripts compartilhados da Microsoft para suas gravações diretamente ou usá-los como uma referência para criar o seu próprio.

Critérios de seleção de scripts

Abaixo estão algumas diretrizes gerais que você pode seguir para criar um bom corpus (amostras de áudio gravadas) para treinamento de voz neural personalizado.

Equilibre seu script para cobrir diferentes tipos de frases em seu domínio, incluindo declarações, perguntas, exclamações, frases longas e frases curtas.

Cada frase deve conter de quatro a 30 palavras, e nenhuma frase duplicada deve ser incluída no seu script.
Para saber como equilibrar os diferentes tipos de frases, consulte a tabela a seguir:

Tipos de frases	Cobertura
Frases de declaração	As frases de declaração devem ser 70-80% do script.
Frases de pergunta	As frases de pergunta devem ser cerca de 10%-20% do seu script de domínio, incluindo 5%-10% de tons ascendentes e 5%-10% de tons descendentes.
Frases de exclamação	As frases de exclamação devem ser cerca de 10% a 20% do seu script.
Palavra/frase curta	Os scripts de palavras/frases curtas devem representar cerca de 10% do total de enunciados, com 5 a 7 palavras por caso.

Nota

As palavras/frases curtas devem ser separadas por vírgulas. Eles ajudam a lembrar seu talento de voz para fazer uma breve pausa ao lê-los.

As melhores práticas incluem:

Cobertura equilibrada para partes do discurso, como verbos, substantivos, adjetivos e assim por diante.
Cobertura equilibrada para pronúncias. Inclua todas as letras de A a Z para que o mecanismo de conversão de texto em fala aprenda a pronunciar cada letra no seu estilo.
Scripts legíveis, compreensíveis e de bom senso para o orador ler.
Evite muitos padrões semelhantes para palavras/frases, como "fácil" e "mais fácil".
Inclua diferentes formatos de números: endereço, unidade, telefone, quantidade, data e assim por diante, em todos os tipos de frases.
Inclua frases ortográficas se for algo que sua voz neural personalizada irá ler. Por exemplo, "A ortografia da Apple é A P L E".

Não coloque várias frases em uma linha/um enunciado. Separe cada linha por enunciado.
Certifique-se de que a frase está limpa. Geralmente, não inclua muitas palavras fora do padrão, como números ou abreviaturas, pois são difíceis de ler. Algumas aplicações podem exigir a leitura de muitos números ou siglas. Nesses casos, você pode incluir essas palavras, mas normalizá-las em sua forma falada.

Abaixo estão algumas práticas recomendadas, por exemplo:
- Para linhas com abreviaturas, em vez de "BTW", escreva "by the way".
- Para linhas com dígitos, em vez de "911", escreva "nove um".
- Para linhas com siglas, em vez de "ABC", escreva "A B C".
Com isso, certifique-se de que seu talento de voz pronuncia essas palavras da maneira esperada. Mantenha seu roteiro e gravações combinados durante o processo de treinamento.
Seu script deve incluir muitas palavras e frases diferentes com diferentes tipos de comprimentos, estruturas e humores de frases.
Verifique o script cuidadosamente em busca de erros. Se possível, peça a outra pessoa que verifique também. Quando você percorre o roteiro com seu talento de voz, você pode pegar mais erros.

Diferença entre roteiro de talentos de voz e roteiro de treinamento

O script de treinamento pode diferir do script de talentos de voz, especialmente para scripts que contêm dígitos, símbolos, abreviaturas, data e hora. Os roteiros preparados para o talento de voz devem seguir convenções de leitura nativas, como 50% e US$ 45. Os scripts usados para o treinamento devem ser normalizados para corresponder à gravação de áudio, como cinquenta por cento e quarenta e cinco dólares.

Nota

Nós fornecemos alguns scripts de exemplo para o talento de voz no GitHub. Para usar os scripts de exemplo para treinamento, você deve normalizá-los de acordo com as gravações de seu talento de voz antes de carregar o arquivo.

A tabela a seguir mostra a diferença entre scripts para talentos de voz e o script normalizado para treinamento.

Category	Exemplo de script de talento de voz	Exemplo de script de treinamento (normalizado)
Dígitos	123	cento e vinte e três
Símbolos	50%	cinquenta por cento
Abreviatura	O mais rápido possível	O mais rapidamente possível
Data e hora	3 de março às 17:00	Terceiro de março às cinco da tarde

Defeitos típicos de um script

A má qualidade do script pode afetar negativamente os resultados do treinamento. Para alcançar resultados de treinamento de alta qualidade, é crucial evitar defeitos.

Os defeitos de script geralmente se enquadram nas seguintes categorias:

Category	Exemplo
Conteúdo sem sentido.	"Ideias verdes incolores dormem furiosamente."
Frases incompletas.	- "Esta foi a minha última véspera" (sem assunto, sem significado específico) - "Eles já são engraçados (sem aspas no final, não é uma frase completa)
Erro de digitação nas frases.	- Comece com minúsculas - Sem pontuação final, se necessário - Erros ortográficos - Falta de pontuação: nenhum período no final (exceto título da notícia) - Terminar com símbolos, exceto vírgula, pergunta, exclamação - Formato errado, como: - 45$ (deve ser $45) - Sem espaço ou excesso de espaço entre palavra/pontuação
A duplicação em formato semelhante, um por cada padrão é suficiente.	- "Agora é 13h em Nova York" - "Agora são 14h em Nova York" - "Agora são 15h em Nova York" - "Agora é 13h em Seattle" - "Agora é 13h em Washington D.C."
Palavras estrangeiras incomuns: apenas palavras estrangeiras comumente usadas são aceitáveis no script.	Em inglês, pode-se usar a palavra francesa "faux" no discurso comum, mas uma expressão francesa como "coincer la bulle" seria incomum.
Emoji ou quaisquer outros símbolos incomuns

Formato do script

O script é para ser usado durante as sessões de gravação, para que você possa configurá-lo de qualquer maneira que achar fácil de trabalhar. Crie o arquivo de texto exigido pelo Speech Studio separadamente.

Um formato de script básico contém três colunas:

O número do enunciado, começando em 1. A numeração torna mais fácil para todos no estúdio se referirem a um determinado enunciado ("vamos tentar o número 356 novamente"). Você pode usar o recurso de numeração de parágrafos do Microsoft Word para numerar as linhas da tabela automaticamente.
Uma coluna em branco onde você escreve o número de tomada ou o código de tempo de cada enunciado para ajudá-lo a encontrá-lo na gravação concluída.
O próprio texto do enunciado.

Sample script

Nota

A maioria dos estúdios grava em segmentos curtos conhecidos como "takes". Cada tomada normalmente contém de 10 a 24 enunciados. Basta anotar o número do take para encontrar um enunciado mais tarde. Se você estiver gravando em um estúdio que prefere fazer gravações mais longas, você vai querer anotar o código de tempo. O estúdio terá uma exibição de tempo de destaque.

Deixe espaço suficiente após cada linha para escrever notas. Certifique-se de que nenhum enunciado seja dividido entre páginas. Numere as páginas e imprima o seu guião num dos lados do papel.

Imprima três cópias do roteiro: uma para o talento de voz, uma para o engenheiro de gravação e uma para o diretor (você). Use um clipe de papel em vez de grampos: um artista de voz experiente separa as páginas para evitar fazer barulho enquanto as páginas são viradas.

Declaração de talentos de voz

Para treinar uma voz neural, você deve criar um perfil de talento de voz com um arquivo de áudio gravado pelo talento de voz consentindo com o uso de seus dados de fala para treinar um modelo de voz personalizado. Ao preparar seu script de gravação, certifique-se de incluir a frase da declaração.

Legalidades

De acordo com a lei de direitos autorais, a leitura de um ator de texto protegido por direitos autorais pode ser uma performance pela qual o autor da obra deve ser compensado. Este desempenho não será reconhecível no produto final, a voz neural personalizada. Mesmo assim, a legalidade do uso de uma obra protegida por direitos autorais para esse fim não está bem estabelecida. A Microsoft não pode fornecer aconselhamento jurídico sobre este problema; Consulte o seu próprio advogado.

Felizmente, é possível evitar totalmente esses problemas. Há muitas fontes de texto que você pode usar sem permissão ou licença.

Fonte do texto	Description
Corpus Ártico da UMC	Cerca de 1100 frases selecionadas de obras fora dos direitos autorais especificamente para uso em projetos de síntese de fala. Um excelente ponto de partida.
Já não funciona ao abrigo dos direitos de autor	Normalmente obras publicadas antes de 1923. Para o inglês, o Project Gutenberg oferece dezenas de milhares de obras deste tipo. Você pode querer se concentrar em obras mais recentes, já que o idioma está mais próximo do inglês moderno.
Obras governamentais	Obras criadas pelo governo dos Estados Unidos não são protegidas por direitos autorais nos Estados Unidos, embora o governo possa reivindicar direitos autorais em outros países/regiões.
Domínio público	Obras cujos direitos de autor são explicitamente negados ou dedicados ao domínio público. Pode não ser possível renunciar totalmente aos direitos de autor em algumas jurisdições.
Obras licenciadas permissivamente	Obras distribuídas sob uma licença como Creative Commons ou a GNU Free Documentation License (GFDL). A Wikipédia usa a GFDL. Algumas licenças, no entanto, podem impor restrições ao desempenho do conteúdo licenciado que podem afetar a criação de um modelo de voz neural personalizado, portanto, leia a licença cuidadosamente.

Gravando seu script

Grave seu roteiro em um estúdio de gravação profissional especializado em trabalho de voz. Eles têm uma cabine de gravação, o equipamento certo e as pessoas certas para operá-lo. Recomenda-se não economizar na gravação.

Discuta o seu projeto com o engenheiro de gravação do estúdio e ouça os seus conselhos. A gravação deve ter pouca ou nenhuma compressão de faixa dinâmica (máximo de 4:1). É fundamental que o áudio tenha um volume consistente e uma alta relação sinal-ruído, ao mesmo tempo em que está livre de sons indesejados.

Requisitos de registo

Para obter resultados de treinamento de alta qualidade, siga os seguintes requisitos durante a gravação ou preparação de dados:

Claro e bem pronunciado
Velocidade natural: não muito lenta ou muito rápida entre arquivos de áudio.
Volume adequado, prosódia e quebra: estável dentro da mesma frase ou entre frases, quebra correta para pontuação.
Sem ruído durante a gravação
Adapte-se ao design da sua persona
Sem acento errado: ajuste ao design alvo
Sem pronúncia errada

Você pode consultar a especificação abaixo para se preparar para as amostras de áudio como prática recomendada.

Property	valor
File format	*.wav, Mono
Taxa de amostragem	24 KHz
Sample format (Formato de exemplo)	16 bits, PCM
Níveis máximos de volume	-3 dB a -6 dB
SNR	> 35 dB
Silêncio	- Deve haver algum silêncio (recomendo 100 ms) no início e no final, mas não mais de 200 ms - Silêncio entre palavras ou frases < -30 dB - Silêncio na onda após a última palavra é falada <-60 dB
Ruído ambiente ou eco	- O nível de ruído no início da onda antes de falar < -70 dB

Nota

Você pode gravar com maior taxa de amostragem e profundidade de bits, por exemplo, no formato de PCM de 24 bits de 48 KHz. Durante o treinamento de voz neural personalizado, reduziremos a amostra para PCM de 16 bits de 24 KHz automaticamente.

Uma relação sinal-ruído (SNR) mais elevada indica um ruído mais baixo no seu áudio. Normalmente, você pode alcançar um SNR 35+ gravando em estúdios profissionais. O áudio com um SNR abaixo de 20 pode resultar em ruído óbvio na sua voz gerada.

Considere regravar quaisquer enunciados com baixas pontuações de pronúncia ou baixas relações sinal-ruído. Se não for possível gravar novamente, considere excluir esses enunciados dos seus dados.

Erros de áudio típicos

Para obter resultados de treinamento de alta qualidade, é altamente recomendável evitar erros de áudio. Os erros de áudio geralmente estão dentro das seguintes categorias:

O nome do arquivo de áudio não corresponde à ID do script.
O arquivo WAR tem um formato inválido e não pode ser lido.
A taxa de amostragem de áudio é inferior a 16 KHz. Recomenda-se que a taxa de amostragem de arquivos .wav seja igual ou superior a 24 KHz para voz neural de alta qualidade.
O pico de volume não está dentro da faixa de -3 dB (70% do volume máximo) a -6 dB (50%).
Transbordamento da forma de onda: a forma de onda é cortada no seu valor máximo e, portanto, não está completa.
As partes silenciosas da gravação não estão limpas; Você pode ouvir sons como ruído ambiente, ruído da boca e eco.

Por exemplo, abaixo o áudio contém o ruído ambiente entre as falas.

A amostra abaixo contém sinais de deslocamento ou eco DC.
O volume global é demasiado baixo. Seus dados serão marcados como um problema se o volume for inferior a -18 dB (10% do volume máximo). Certifique-se de que todos os arquivos de áudio devem ser consistentes no mesmo nível de volume.
Sem silêncio antes da primeira palavra ou depois da última palavra. Além disso, o silêncio inicial ou final não deve ser superior a 200 ms ou inferior a 100 ms.

Faça-o você mesmo

Se você quiser fazer a gravação sozinho, em vez de ir para um estúdio de gravação, aqui está uma pequena cartilha. Graças ao aumento da gravação em casa e podcasting, é mais fácil do que nunca encontrar bons conselhos e recursos de gravação online.

Sua "cabine de gravação" deve ser uma sala pequena sem eco percetível ou "tom de sala". Deve ser o mais silencioso e insonorizado possível. Drapes nas paredes podem ser usados para reduzir o eco e neutralizar ou "amortecer" o som da sala.

Use um microfone condensador de estúdio de alta qualidade ("microfone") destinado à gravação de voz. Sennheiser, AKG e até mesmo microfones Zoom mais recentes podem produzir bons resultados. Você pode comprar um microfone ou alugar um de uma empresa de aluguel de audiovisual local. Procure um com uma interface USB. Este tipo de microfone combina convenientemente o elemento do microfone, pré-amplificador e conversor analógico-digital em um pacote, simplificando a conexão.

Você também pode usar um microfone analógico. Muitas casas de aluguel oferecem microfones "vintage" conhecidos por seu caráter de voz. A engrenagem analógica profissional usa conectores XLR equilibrados, em vez do plugue de 1/4 polegadas que é usado em equipamentos de consumo. Se você for analógico, também precisará de um pré-amplificador e uma interface de áudio de computador com esses conectores.

Instale o microfone em um suporte ou lança e instale um filtro pop na frente do microfone para eliminar o ruído de consoantes "plosivas" como "p" e "b". Alguns microfones vêm com um suporte de suspensão que os isola das vibrações no suporte, o que é útil.

O talento de voz deve ficar a uma distância consistente do microfone. Use fita adesiva no chão para marcar onde eles devem ficar. Se o talento preferir sentar-se, tenha especial cuidado em monitorizar a distância do microfone e evitar o ruído da cadeira.

Use um suporte para segurar o script. Evite inclinar o suporte para que ele possa refletir o som em direção ao microfone.

A pessoa que opera o equipamento de gravação — o engenheiro de gravação — deve estar em uma sala separada do talento, com alguma maneira de falar com o talento na cabine de gravação (um circuito de intercomunicação).

A gravação deve conter o mínimo de ruído possível, com um objetivo de -80 dB.

Ouça atentamente uma gravação de silêncio em sua "cabine", descubra de onde vem qualquer ruído e elimine a causa. As fontes comuns de ruído são saídas de ar, balastros de luz fluorescente, tráfego em estradas próximas e ventiladores de equipamentos (até mesmo notebooks podem ter ventiladores). Microfones e cabos podem captar o ruído elétrico da fiação CA próxima, geralmente um zumbido ou zumbido. Um zumbido também pode ser causado por um loop de terra, que é causado por ter o equipamento conectado a mais de um circuito elétrico.

Gorjeta

Em alguns casos, você pode ser capaz de usar um equalizador ou um plug-in de software de redução de ruído para ajudar a remover o ruído de suas gravações, embora seja sempre melhor pará-lo em sua fonte.

Defina níveis para que a maior parte da faixa dinâmica disponível de gravação digital seja usada sem overdriving. Isso significa definir o áudio alto, mas não tão alto que fique distorcido. Um exemplo da forma de onda de uma boa gravação é mostrado na imagem a seguir:

A good recording waveform

Aqui, a maior parte do alcance (altura) é usada, mas os picos mais altos do sinal não atingem a parte superior ou inferior da janela. Você também pode ver que o silêncio na gravação se aproxima de uma linha horizontal fina, indicando um piso de baixo ruído. Esta gravação tem faixa dinâmica aceitável e relação sinal-ruído.

Grave diretamente no computador através de uma interface de áudio de alta qualidade ou de uma porta USB, dependendo do microfone que estiver a utilizar. Para analógico, mantenha a cadeia de áudio simples: microfone, pré-amplificador, interface de áudio, computador. Você pode licenciar o Avid Pro Tools e o Adobe Audition mensalmente a um custo razoável. Se o seu orçamento for extremamente apertado, experimente o Audacity gratuito.

Grave a 44,1 KHz monofónico de 16 bits (qualidade de CD) ou superior. O estado da arte atual é de 48 KHz 24 bits, se o seu equipamento o suportar. Você reduzirá a amostra do áudio para 24 KHz de 16 bits antes de enviá-lo ao Speech Studio. Ainda assim, vale a pena ter uma gravação original de alta qualidade no caso de serem necessárias edições.

O ideal é ter pessoas diferentes nas funções de diretor, engenheiro e talento. Não tente fazer tudo sozinho. Em um piscar de olhos, uma pessoa pode ser tanto o diretor quanto o engenheiro.

Antes da sessão

Para evitar perder tempo de estúdio, percorra o roteiro com seu talento de voz antes da sessão de gravação. Enquanto o talento de voz se familiariza com o texto, eles podem esclarecer a pronúncia de quaisquer palavras desconhecidas.

Nota

A maioria dos estúdios de gravação oferecem exibição eletrônica de scripts na cabine de gravação. Nesse caso, digite suas notas de execução diretamente no documento do script. No entanto, você ainda vai querer uma cópia em papel para fazer anotações durante a sessão. A maioria dos engenheiros também vai querer uma cópia impressa. E você ainda vai querer uma terceira cópia impressa como backup para o talento, caso o computador esteja inativo.

Seu talento de voz pode perguntar qual palavra você quer enfatizar em um enunciado (a "palavra operativa"). Diga-lhes que quer uma leitura natural sem ênfase especial. A ênfase pode ser adicionada quando a fala é sintetizada; não deve fazer parte da gravação original.

Direcione o talento para pronunciar palavras distintamente. Cada palavra do script deve ser pronunciada como escrita. Os sons não devem ser omitidos ou arrastados juntos, como é comum na fala casual, a menos que tenham sido escritos dessa forma no roteiro.

Texto escrito	Pronúncia casual indesejada
nunca vai desistir de você	nunca vai desistir de você
há quatro luzes	há quatro luzes
Como está o tempo hoje	Como está o tempo hoje
Diga olá ao meu amiguinho	Diga olá ao meu amigo Lil'

O talento não deve* adicionar pausas distintas entre as palavras. A frase ainda deve fluir naturalmente, mesmo soando um pouco formal. Esta distinção fina pode exigir prática para acertar.

A sessão de gravação

Crie uma gravação de referência, ou arquivo de correspondência, de um enunciado típico no início da sessão. Peça ao talento para repetir esta linha a cada página ou mais. Cada vez, compare a nova gravação com a referência. Essa prática ajuda o talento a permanecer consistente em volume, ritmo, tom e entonação. Enquanto isso, o engenheiro pode usar o arquivo de correspondência como referência para níveis e consistência geral do som.

O arquivo de correspondência é especialmente importante quando você retoma a gravação após uma pausa ou em outro dia. Jogá-lo algumas vezes para o talento e fazê-lo repeti-lo cada vez até que eles estejam combinando bem.

Para gravar um corpus com um estilo específico, escolha cuidadosamente scripts que mostrem o estilo desejado. Durante a gravação, certifique-se de que o talento de voz se mantém consistente em volume, tempo, tom e tom para alcançar gravações que incorporem o estilo pretendido.

Treine seu talento para respirar fundo e fazer uma pausa por um momento antes de cada enunciação. Grave alguns segundos de silêncio entre as declarações. As palavras devem ser pronunciadas da mesma forma cada vez que aparecem, considerando o contexto. Por exemplo, "record" como um verbo é pronunciado de forma diferente de "record" como um substantivo.

Grave aproximadamente cinco segundos de silêncio antes da primeira gravação para capturar o "tom da sala". Esta prática ajuda o Speech Studio a compensar o ruído nas gravações.

Gorjeta

Tudo que você precisa capturar é o talento de voz, para que você possa fazer uma gravação monofônica (canal único) de apenas suas falas. No entanto, se você gravar em estéreo, você pode usar o segundo canal para gravar o bate-papo na sala de controle para capturar a discussão de linhas ou tomadas específicas. Remova esta faixa da versão carregada para o Speech Studio.

Ouça atentamente, usando fones de ouvido, o desempenho do talento de voz. Você está procurando dicção boa, mas natural, pronúncia correta e falta de sons indesejados. Não hesite em pedir ao seu talento para regravar um enunciado que não atenda a esses padrões.

Gorjeta

Se você estiver usando um grande número de enunciados, um único enunciado pode não ter um efeito percetível na voz neural personalizada resultante. Pode ser mais conveniente simplesmente anotar quaisquer expressões com problemas, excluí-las do seu conjunto de dados e ver como sua voz neural personalizada se sai. Você sempre pode voltar ao estúdio e gravar as amostras perdidas mais tarde.

Observe o número de tomada ou o código de tempo no script para cada enunciado. Peça ao engenheiro para marcar cada enunciado nos metadados ou na folha de sinalização da gravação também.

Faça pausas regulares e forneça uma bebida para ajudar o seu talento vocal a manter a sua voz em boa forma.

Após a sessão

Estúdios de gravação modernos funcionam em computadores. No final da sessão, você recebe um ou mais arquivos de áudio, não uma fita. Esses arquivos são provavelmente formato WAV ou AIFF em qualidade de CD (44,1 KHz 16-bit) ou melhor. 24 KHz 16-bit é comum e desejável. A taxa de amostragem padrão para uma voz neural personalizada é de 24 KHz. Recomenda-se que você use uma taxa de amostragem de 24 KHz para seus dados de treinamento. Taxas de amostragem mais altas, como 96 KHz, geralmente não são necessárias.

O Speech Studio exige que cada enunciado fornecido esteja em seu próprio arquivo. Cada arquivo de áudio entregue pelo estúdio contém vários enunciados. Assim, a principal tarefa de pós-produção é dividir as gravações e prepará-las para a submissão. O engenheiro de gravação pode ter colocado marcadores no arquivo (ou fornecido uma folha de sinalização separada) para indicar onde cada enunciado começa.

Use suas anotações para encontrar as tomadas exatas desejadas e, em seguida, use um utilitário de edição de som, como o Avid Pro Tools, o Adobe Audition ou o Audacity gratuito, para copiar cada enunciado em um novo arquivo.

Ouça cada ficheiro com atenção. Nesta fase, você pode editar pequenos sons indesejados que você perdeu durante a gravação, como um leve toque labial antes de uma linha, mas tenha cuidado para não remover nenhuma fala real. Se não conseguir corrigir um ficheiro, remova-o do conjunto de dados e tenha em atenção que o fez.

Converta cada arquivo para 16 bits e uma taxa de amostragem de 24 KHz antes de salvar e, se você gravou a conversa do estúdio, remova o segundo canal. Salve cada arquivo no formato WAV, nomeando os arquivos com o número de emissão do seu script.

Finalmente, crie a transcrição que associa cada arquivo WAV a uma versão de texto do enunciado correspondente. Treinar seu modelo de voz inclui detalhes do formato necessário. Você pode copiar o texto diretamente do seu script. Em seguida, crie um arquivo Zip dos arquivos WAV e a transcrição do texto.

Arquive as gravações originais num local seguro, caso necessite delas mais tarde. Preserve também o seu guião e notas.

Próximos passos

Você está pronto para carregar suas gravações e criar sua voz neural personalizada.

Treine o seu modelo de voz

Gravação de amostras de voz para voz neural personalizada

Dicas para preparar dados para uma voz de alta qualidade

Funções de gravação de voz

Escolha o seu talento de voz

Criar um script

Critérios de seleção de scripts

Diferença entre roteiro de talentos de voz e roteiro de treinamento

Defeitos típicos de um script

Formato do script

Declaração de talentos de voz

Legalidades

Gravando seu script

Requisitos de registo

Erros de áudio típicos

Faça-o você mesmo

Antes da sessão

A sessão de gravação

Após a sessão

Próximos passos

Recursos adicionais