Observação
O acesso a essa página exige autorização. Você pode tentar entrar ou alterar diretórios.
O acesso a essa página exige autorização. Você pode tentar alterar os diretórios.
Este artigo fornece práticas recomendadas sobre como preparar exemplos de voz de alta qualidade para ajuste de voz profissional. Para entender como os dados são processados e os requisitos mínimos para aceitação de dados, consulte para carregar seus dados.
Criar uma voz profissional de alta qualidade do zero não é um empreendimento casual. O componente central de uma voz personalizada é uma grande coleção de amostras de áudio de fala humana. É essencial que essas gravações de áudio sejam de alta qualidade. Escolha um dublador que tenha experiência em fazer esse tipo de gravação e peça para um engenheiro de gravação gravar usando equipamento profissional.
Antes de fazer essas gravações, você precisa de um roteiro: as palavras são ditas pelo seu locutor para criar as amostras de áudio.
Muitos detalhes pequenos, mas importantes, são necessários para criar uma gravação de voz profissional. Esse guia é um roteiro para um processo que ajudará você a obter resultados bons e consistentes.
Dicas para preparar dados para uma voz de alta qualidade
Uma voz personalizada altamente natural depende de vários fatores, como a qualidade e o tamanho dos dados de treinamento.
A qualidade dos seus dados de treinamento é um fator primordial. Por exemplo, no mesmo conjunto de treinamento, volume consistente, taxa de fala, tom de fala e estilo de fala são essenciais para criar uma voz personalizada de alta qualidade. Você também deve evitar ruídos de fundo na gravação e certificar-se de que o roteiro e a gravação correspondem. Para garantir a qualidade dos seus dados, você precisa seguir os critérios de seleção de script e os requisitos de gravação.
Em relação ao tamanho dos dados de treinamento, na maioria dos casos, você pode criar uma voz personalizada razoável com 300 enunciados. De acordo com nossos testes, adicionar mais dados de treinamento na maioria dos idiomas não necessariamente melhora a naturalidade da voz em si (testado usando a pontuação MOS); no entanto, com mais dados de treinamento que abrangem mais instâncias de palavras, você tem maior possibilidade de reduzir a proporção de classes gramaticais insatisfatórias para a voz, como falhas. Para ouvir como soam as classes gramaticais insatisfatórias, consulte os exemplos do GitHub.
Em alguns casos, você pode querer uma persona de voz com características únicas. Por exemplo, um personagem de desenho animado precisa de uma voz com um estilo de fala especial ou uma voz com entonação dinâmica. Para esses casos, recomendamos que você prepare pelo menos 1.000 (de preferência 2.000) declarações e grave-as em um estúdio de gravação profissional. Para saber mais sobre como melhorar a qualidade do seu modelo de voz, confira as características e as limitações para usar a voz personalizada.
Funções de gravação de voz
Há quatro funções básicas em um projeto de gravação de voz personalizado:
Função | Finalidade |
---|---|
Ator de voz | A voz dessa pessoa forma a base da voz personalizada. |
Engenheiro de gravação | Supervisiona os aspectos técnicos da gravação e opera o equipamento de gravação. |
Diretor | Prepara o roteiro e orienta a performance dos dubladores. |
Editor | Finaliza os arquivos de áudio e os prepara para o envio ao serviço de Voz. |
Um indivíduo pode desempenhar mais de uma função. Esse guia pressupõe que você esteja assumindo a função de diretor e contratando um dublador e um engenheiro de gravação. Se você quiser fazer as gravações sozinho, esse artigo inclui algumas informações sobre a função de engenheiro de gravação. A função de editor não é necessária até depois da sessão de gravação. Enquanto isso, o diretor ou o engenheiro de gravação podem desempenhar essa função.
Escolha seu talento vocal
Atores com experiência em dublagem, dublagem de personagens, locução ou leitura de notícias são bons talentos de voz. Escolha um dublador cuja voz natural você goste. É possível criar vozes únicas de "personagens", mas é mais difícil para a maioria dos talentos executá-las de forma consistente, e o esforço pode causar tensão na voz. O fator mais importante na escolha de um talento vocal é a consistência. As gravações para o mesmo estilo de voz devem soar como se tivessem sido feitas no mesmo dia e na mesma sala. Você pode atingir esse ideal por meio de boas práticas de gravação e engenharia.
Seu talento vocal deve ser capaz de falar com ritmo, volume, tom e tom consistentes, com ditado claro. Eles também precisam ser capazes de controlar a variação do tom, o efeito emocional e os maneirismos da fala. Gravar amostras de voz pode ser mais cansativo do que outros tipos de trabalho de voz, então a maioria dos dubladores só consegue gravar duas ou três horas por dia. Limite as sessões a três ou quatro dias por semana, com um dia de folga entre elas, se possível.
Trabalhe com seu talento de voz para desenvolver uma persona que defina o som geral e o tom emocional da voz personalizada. Defina os estilos de fala da sua persona e peça ao seu dublador para ler o roteiro de uma forma que esteja alinhada aos seus estilos desejados. Certifique-se de que o estilo de fala permaneça consistente ao longo das gravações para um conjunto de dados de treinamento.
Por exemplo, uma pessoa com uma personalidade naturalmente otimista teria um tom de otimismo em sua voz. No entanto, essa personalidade deve ser expressa de forma consistente em todas as gravações para um conjunto de dados de treinamento. Ouça as vozes existentes para ter uma ideia do que você está almejando.
Dica
Normalmente, você vai querer ser o dono das gravações de voz que faz. Seu talento de voz deve estar disposto a um contrato de trabalho por encomenda para o projeto.
Criar um script
O ponto de partida de qualquer sessão de gravação de voz personalizada é o script, que contém os enunciados a serem falados pelo seu talento de voz. O termo "enunciados" abrange tanto frases completas quanto frases mais curtas. A criação de uma voz personalizada requer pelo menos 300 enunciados registrados como dados de treinamento.
As declarações em seu roteiro podem vir de qualquer lugar: ficção, não ficção, transcrições de discursos, reportagens e qualquer outro material disponível em formato impresso. Para uma breve discussão sobre possíveis questões legais, consulte a seção "Legalidades". Você também pode escrever seu próprio texto.
Os enunciados não precisam vir da mesma origem, do mesmo tipo de origem ou ter algo a ver uns com os outros. No entanto, se você usar frases prontas (por exemplo, "Você fez login com sucesso") em seu aplicativo de fala, certifique-se de incluí-las em seu script. Isso dá à sua voz personalizada uma melhor chance de pronunciar bem essas frases.
Recomendamos que os scripts de gravação incluam frases gerais e frases específicas do domínio. Por exemplo, se você planeja gravar 2.000 frases, 1.000 delas podem ser frases gerais, outras 1.000 podem ser frases do seu domínio de destino ou do caso de uso do seu aplicativo.
Fornecemos scripts de exemplo nos domínios 'Geral', 'Chat' e 'Atendimento ao cliente' para cada idioma para ajudar você a preparar seus scripts de gravação. Você pode usar esses scripts compartilhados pela Microsoft diretamente para suas gravações ou usá-los como referência para criar os seus próprios.
Critérios de seleção de roteiro
Abaixo estão algumas diretrizes gerais que você pode seguir para criar um bom corpus (amostras de áudio gravadas) para ajuste de voz profissional.
Para a maioria dos casos de uso, recomenda-se que as frases sejam entre 2 e 15 segundos, contendo de 5 a 30 palavras para idiomas latinos ou de 4 a 80 palavras para idiomas não latinos. Pretenda balancear o script para incluir uma variedade de tipos de frases e comprimentos. Verifique se o script não inclui frases duplicadas.
Se o caso de uso exigir uma grande ênfase em perguntas, exclamações ou uma mistura de frases particularmente longas e curtas, é recomendável incluir uma boa parte das frases como perguntas ou exclamações, juntamente com frases muito curtas e frases mais longas de até 20 segundos de comprimento.
Para saber como equilibrar os diferentes tipos de frases, consulte a tabela a seguir:
Tipos de sentença Cobertura Sentenças de instrução As frases de afirmação devem ocupar de 70% a 80% do roteiro. Palavra/frase abreviada Scripts de palavras/frases curtas devem representar cerca de 10% do total de enunciados, com 5 a 7 palavras por caso.
Palavras curtas ou frases devem ser separadas por vírgulas para lembrar o locutor de fazer pausas breves durante a leitura.Frases interrogativas (opcional) As frases interrogativas devem representar cerca de 10% a 20% do seu texto de domínio, incluindo 5% a 10% de tons crescentes e 5% a 10% de tons decrescentes.
Essas frases serão necessárias se você quiser que a voz gerada transmita perguntas com precisão.Frases de exclamação (opcional) Frases de exclamação devem representar cerca de 10% a 20% do seu roteiro.
Essas frases serão necessárias se você quiser que a voz gerada transmita exclamações com precisão.Observação
Você pode estimar o número de palavras em uma frase assumindo uma taxa de fala em palavras por segundo com base em seu idioma.
Melhores práticas incluem:
- Cobertura equilibrada para Partes de Fala, como verbos, substantivos, adjetivos e assim por diante.
- Cobertura equilibrada para pronúncias. Inclua todas as letras de A a Z para que o mecanismo de conversão de texto em fala aprenda a pronunciar cada letra no seu estilo.
- Roteiros legíveis, compreensíveis e de senso comum para o falante ler.
- Evite muitos padrões semelhantes para palavras/frases, como "fácil" e "mais fácil".
- Inclua diferentes formatos de números: endereço, unidade, telefone, quantidade, data e assim por diante, em todos os tipos de frases.
- Inclua frases ortográficas se for algo que sua voz personalizada lerá. Por exemplo, "A grafia de Apple é A P P L E".
Observação
Para o modo de processamento contextual, que fornece mais entonações naturais e melhores recursos de conversação:
- Use texto no nível do parágrafo em vez de texto em nível de frase para gravações. Essa abordagem ajuda a capturar o fluxo de fala natural entre frases e preserva informações contextuais.
- Cada gravação deve ter, idealmente, mais de 30 segundos (contendo mais de 60 palavras para idiomas latinos ou 160 palavras para idiomas não latinos).
- Um conjunto de treinamento contextual com mais de 30 minutos de áudio total ou 300 enunciados pode ser usado para treinar uma voz personalizada.
Não coloque várias frases em uma linha/uma declaração. Separe cada linha por enunciado.
Certifique-se de que a frase esteja limpa. Geralmente, não inclua muitas palavras fora do padrão, como números ou abreviações, pois são difíceis de ler. Alguns aplicativos podem exigir a leitura de muitos números ou siglas. Nesses casos, você pode incluir essas palavras, mas normalizá-las em sua forma falada.
Abaixo estão alguns exemplos de práticas recomendadas:
- Em linhas com abreviações, em vez de "BTW", escreva "a propósito".
- Em linhas com dígitos, em vez de "190", escreva "1 9 0".
- Para linhas com acrônimos, em vez de "ABC", escreva "A B C".
Com isso, garanta que seu talento de voz pronuncie essas palavras da maneira esperada. Mantenha o script e as gravações correspondentes durante o processo de treinamento.
Seu roteiro deve incluir muitas palavras e frases diferentes, com diferentes tipos de comprimento, estrutura e humor.
Verifique cuidadosamente se há erros no script. Se possível, peça para outra pessoa verificar também. Ao repassar o roteiro com seu dublador, você poderá perceber mais erros.
Diferença entre roteiro de dublagem e roteiro de treinamento
O roteiro de treinamento pode ser diferente do roteiro de dublagem, especialmente para roteiros que contêm dígitos, símbolos, abreviações, data e hora. Os scripts preparados para o talento de voz devem seguir as convenções de leitura nativa, como 50% e US$ 45. Os scripts usados para treinamento devem ser normalizados para corresponder à gravação de áudio, como cinquenta por cento e quarenta e cinco dólares.
Observação
Fornecemos alguns scripts de exemplo para o talento de voz em GitHub. Para usar os scripts de exemplo para treinamento, você deve normalizá-los de acordo com as gravações do seu talento de voz antes de carregar o arquivo.
A tabela a seguir mostra a diferença entre os scripts para o talento de voz e o script normalizado para treinamento.
Categoria | Exemplo de script de talento de voz | Exemplo de script de treinamento (normalizado) |
---|---|---|
Dígitos | 123 | cento e vinte e três |
Símbolos | 50% | cinquenta por cento |
Abreviação | ASAP | O mais breve possível |
Data e hora | 3 de março às 17:00 | 3 de março às 17:00 |
Defeitos típicos de um script
A baixa qualidade do roteiro pode afetar negativamente os resultados do treinamento. Para obter resultados de treinamento em alta qualidade, é crucial evitar os defeitos.
Os defeitos de script geralmente se enquadram nas seguintes categorias:
Categoria | Exemplo |
---|---|
Conteúdo sem sentido. | "As ideias verdes incolores dormem furiosamente." |
Frases incompletas. | - "Essa foi minha última noite" (sem assunto, sem significado específico) - "Elas já são engraçadas (sem aspas no final, não é uma frase completa) |
Erro de digitação nas frases. | - Iniciar com uma letra minúscula - Sem pontuação final, caso necessária - Ortografia incorreta - Falta de pontuação: sem ponto no final (exceto título de notícia) - Terminar com símbolos, exceto vírgula, interrogação, exclamação - Formato errado, como: - 45$ (deve ser $45) - Sem espaço ou excesso de espaço entre palavras/pontuação |
Duplicação em formato similar, uma para cada padrão é suficiente. | - "Agora são 13h00 em Nova York" - "Agora são 14h00 em Nova York" - "Agora são 15h00 em Nova York" - "Agora são 13h00 em Seattle" - "Agora são 13h00 em Washington D.C." |
Palavras estrangeiras incomuns: somente as palavras estrangeiras comumente usadas são aceitáveis no script. | Em inglês, pode-se usar a palavra francesa "faux" em discurso comum, mas uma expressão francesa como "coincer la bulle" seria incomum. |
Emojis ou quaisquer outros símbolos incomuns |
Formato do script
O script é para uso durante a sessão de gravação, para que você possa configurá-lo da melhor maneira que deseja trabalhar. Crie separadamente o arquivo de texto exigido pelo Speech Studio.
Um formato de script básico contém três colunas:
- O número do enunciado, começando em 1. A numeração facilita para todos no estúdio se referirem a uma expressão específica ("vamos tentar o número 356 novamente"). Você pode usar o recurso de numeração de parágrafos do Microsoft Word para numerar as linhas da tabela automaticamente.
- Uma coluna em branco onde você escreve o número da tomada ou o código de tempo de cada enunciado para ajudar a encontrá-lo na gravação finalizada.
- O texto do próprio enunciado.
Observação
A maioria dos estúdios grava em pequenos segmentos conhecidos como "tomadas". Cada tomada normalmente contém de 10 a 24 declarações. Basta anotar o número da tomada para encontrar uma expressão posteriormente. Se você estiver gravando em um estúdio que prefere fazer gravações mais longas, será necessário anotar o código de tempo. O estúdio terá um display de horas bem visível.
Deixe espaço suficiente depois de cada linha para escrever notas. Certifique-se de que nenhuma expressão esteja dividida entre as páginas. Numere as páginas e imprima seu roteiro em um lado do papel.
Imprima três cópias do roteiro: uma para o dublador, uma para o engenheiro de gravação e uma para o diretor (você). Use um clipe de papel em vez de grampos: um dublador experiente separa as páginas para evitar fazer barulho quando elas são viradas.
Declaração do talento de voz
Para treinar uma voz neural, você deve criar um perfil de talento de voz com um arquivo de áudio gravado pelo talento de voz consentindo com o uso de seus dados de fala para ajustar um modelo de voz profissional. Ao preparar seu roteiro de gravação, certifique-se de incluir a frase de declaração.
Legalidades
De acordo com a lei de direitos autorais, a leitura de um texto protegido por direitos autorais por um ator pode ser uma performance pela qual o autor da obra deve ser compensado. Esse desempenho não será reconhecível no produto final, a voz personalizada. Mesmo assim, a legalidade do uso de uma obra protegida por direitos autorais para esse propósito não está bem estabelecida. A Microsoft não pode fornecer assistência jurídica sobre essa questão, portanto, consulte seu advogado.
Felizmente, é possível evitar esses problemas completamente. Existem muitas fontes de texto que você pode usar sem permissão ou licença.
Fonte de texto | Descrição |
---|---|
Corpus Ártico da CMU | Cerca de 1100 frases selecionadas de obras sem direitos autorais especificamente para uso em projetos de síntese de fala. Um excelente ponto de partida. |
Obras que não estão mais sob direitos autorais |
Normalmente, obras publicadas antes de 1923. Para o inglês, o Projeto Gutenberg oferece dezenas de milhares dessas obras. Talvez você queira se concentrar em trabalhos mais recentes, pois a linguagem é mais próxima do inglês moderno. |
O governo funciona | Obras criadas pelo governo dos Estados Unidos não são protegidas por direitos autorais nos Estados Unidos, embora o governo possa reivindicar direitos autorais em outros países/regiões. |
Domínio público | Obras cujos direitos autorais são explicitamente renunciados ou dedicados ao domínio público. Pode não ser possível renunciar totalmente aos direitos autorais em algumas jurisdições. |
Obras com licença permissiva | Trabalhos distribuídos sob uma licença como Creative Commons ou a GNU Free Documentation License (GFDL). Wikipedia usa GFDL. Algumas licenças, no entanto, podem impor restrições ao desempenho do conteúdo licenciado que podem afetar a criação de um modelo de voz personalizado, portanto, leia a licença com cuidado. |
Gravar o script
Grave seu roteiro em um estúdio de gravação profissional especializado em trabalho de voz. Eles têm uma cabine de gravação, o equipamento certo e as pessoas certas para operá-la. É recomendável não economizar na gravação.
Discuta seu projeto com o engenheiro de gravação do estúdio e ouça seus conselhos. A gravação deve ter pouca ou nenhuma compressão de faixa dinâmica (máximo de 4:1). É essencial que o áudio tenha um volume consistente e uma alta relação sinal-ruído, além de estar livre de sons indesejados.
Requisitos de gravação
Para obter resultados de treinamento de alta qualidade, siga os seguintes requisitos durante a gravação ou a preparação de dados:
Claridade e boa pronuncia
Velocidade natural: não é lenta demais e nem rápida demais entre os arquivos de áudio.
Volume apropriado, prosódia e pausa: estável na mesma frase ou entre frases, pausa correta para pontuação.
Sem ruído durante a gravação
Encaixe seu design pessoal
Sem acentos incorretos: ajustar ao design de destino
Sem pronúncia incorreta
Você pode consultar a especificação abaixo para se preparar para os exemplos de áudio como melhor prática.
Propriedade | Valor |
---|---|
Formato de arquivo | *.wav, Mono |
Taxa de amostragem | 24 kHz |
Formato de exemplo | 16 bits, PCM |
Níveis de pico de volume | -3 dB para -6 dB |
SNR | > 35 dB |
Silêncio | - Deve haver algum silêncio (recomenda-se 100 ms) no início e no final, mas não mais que 200 ms - Silêncio entre palavras ou frases < -30 dB - Silêncio na onda depois que a última palavra é dita <-60 dB |
Ruído ou eco do ambiente | - O nível de ruído no início da onda antes de falar < -70 dB |
Observação
Você pode gravar em taxas de amostragem e profundidade de bits mais altas, por exemplo, no formato de 48 KHz 24 bits PCM. Durante o ajuste fino da voz profissional, reduziremos automaticamente para 24 KHz, 16 bits PCM.
Uma relação sinal-ruído (SNR) mais alta indica menos ruído no seu áudio. Normalmente, é possível alcançar uma SNR de 35+ com gravação em estúdios profissionais. Áudio com SNR abaixo de 20 pode resultar em ruído óbvio na sua voz gerada.
Considere regravar quaisquer expressões com pontuações baixas de pronúncia ou relações sinal-ruído ruins. Se você não puder regravar, considere excluir essas declarações dos seus dados.
Erros típicos de áudio
Para resultados de treinamento de alta qualidade, é altamente recomendável evitar erros de áudio. Erros de áudio geralmente se enquadram nas seguintes categorias:
O nome do arquivo de áudio não corresponde ao ID do script.
O arquivo WAR tem um formato inválido e não pode ser lido.
A taxa de amostragem de áudio é inferior a 16 KHz. É recomendado que a taxa de amostragem do arquivo .wav seja igual ou maior do que 24 KHz para sintetização de voz de alta qualidade.
O pico de volume não está na faixa de -3 dB (70% do volume máximo) a -6 dB (50%).
Estouro de forma de onda: a forma de onda é cortada em seu valor de pico e, portanto, não está completa.
As partes silenciosas da gravação não são limpas; você pode ouvir sons como ruído ambiente, ruído da boca e eco.
Por exemplo, o áudio abaixo contém o ruído ambiente entre os discursos.
O exemplo abaixo contém sinais de deslocamento de CC ou eco.
O volume geral está muito baixo. Seus dados serão marcados como um problema se o volume for inferior a -18 dB (10% do volume máximo). Certifique-se de que todos os arquivos de áudio estejam consistentemente no mesmo nível de volume.
Não há silêncio antes da primeira palavra ou depois da última palavra. Além disso, o silêncio inicial ou final não deve ser maior que 200 ms nem menor que 100 ms.
Faça você mesmo
Se você mesmo quer fazer a gravação, em vez de entrar em um estúdio de gravação, aqui está um breve manual. Graças ao aumento da gravação caseira e dos podcasts, está mais fácil do que nunca encontrar bons conselhos e recursos sobre gravação online.
Sua "cabine de gravação" deve ser uma sala pequena sem eco perceptível ou "tom de sala". Ele deve ser o mais silencioso e à prova de som possível. Cortinas nas paredes podem ser usadas para reduzir o eco e neutralizar ou "amortecer" o som do ambiente.
Use um microfone condensador de estúdio de alta qualidade ("mic", abreviação) destinado à gravação de voz. Microfones Sennheiser, AKG e até mesmo os mais novos da Zoom podem produzir bons resultados. Você pode comprar um microfone ou alugar um de uma empresa local de aluguel de equipamentos audiovisuais. Procure um com interface USB. Esse tipo de microfone combina convenientemente o elemento de microfone, o pré-amplificador e o conversor analógico-digital em um único pacote, simplificando a conexão.
Você também pode usar um microfone analógico. Muitas locadoras oferecem microfones "vintage", conhecidos por sua característica vocal. Equipamentos analógicos profissionais usam conectores XLR balanceados, em vez do plugue de 1/4 de polegada usado em equipamentos de consumo. Se você optar pelo analógico, também precisará de um pré-amplificador e uma interface de áudio de computador com esses conectores.
Instale o microfone em um suporte ou boom e instale um filtro pop na frente do microfone para eliminar o ruído de consoantes "ativas", como "p" e "b". Alguns microfones vêm com uma montagem de suspensão que os isola de vibrações no suporte, o que é útil.
O dublador deve ficar a uma distância consistente do microfone. Use fita adesiva no chão para marcar onde eles devem ficar. Se o talento preferir sentar, tome cuidado especial para monitorar a distância do microfone e evitar o ruído da cadeira.
Use um suporte para segurar o script. Evite inclinar o suporte de modo que ele possa refletir o som em direção ao microfone.
A pessoa que opera o equipamento de gravação – o engenheiro de gravação – deve estar em uma sala separada do ator de voz, com alguma forma para comunicar-se com o ator na cabine de gravação (um circuito de talkback).
A gravação deve conter o mínimo de ruído possível, com uma meta de 80 dB.
Ouça atentamente uma gravação de silêncio na sua "cabine", descubra de onde vem qualquer ruído e elimine a causa. Fontes comuns de ruído são saídas de ar, reatores de lâmpadas fluorescentes, tráfego em estradas próximas e ventiladores de equipamentos (até mesmo notebooks podem ter ventiladores). Microfones e cabos podem captar ruído elétrico de fiação CA próxima, geralmente um zumbido ou chiado. Um zumbido também pode ser causado por um loop de aterramento, que é causado por equipamentos conectados a mais de um circuito elétrico.
Dica
Em alguns casos, você pode usar um equalizador ou um plugin de software de redução de ruído para ajudar a remover o ruído das suas gravações, embora seja sempre melhor interrompê-lo na fonte.
Defina os níveis de modo que a maior parte da faixa dinâmica disponível da gravação digital seja usada sem sobrecarga. Isso significa que você deve deixar o áudio alto, mas não tão alto que fique distorcido. Um exemplo da forma de onda de uma boa gravação é mostrado na imagem a seguir:
Aqui, a maior parte do alcance (altura) é usada, mas os picos mais altos do sinal não atingem o topo ou a base da janela. Você também pode ver que o silêncio na gravação se aproxima de uma linha horizontal fina, indicando um nível de ruído baixo. Essa gravação tem faixa dinâmica e relação sinal-ruído aceitáveis.
Grave diretamente no computador por meio de uma interface de áudio de alta qualidade ou de uma porta USB, dependendo do microfone que estiver usando. Para analógico, mantenha a cadeia de áudio simples: microfone, pré-amplificador, interface de áudio, computador. Você pode licenciar o Avid Pro Tools e o Adobe Audition mensalmente a um custo razoável. Se o seu orçamento for extremamente apertado, experimente o gratuito Audacity.
Grave em 44,1 KHz, 16 bits monofônico (qualidade de CD) ou melhor. O estado da arte atual é 48 KHz 24 bits, se seu equipamento for compatível. Você fará a redução da resolução do seu áudio para 24 KHz e 16 bits antes de enviá-lo ao Speech Studio. Ainda assim, vale a pena ter uma gravação original de alta qualidade se for necessário ter edições.
O ideal é ter pessoas diferentes atuando nas funções de diretor, engenheiro e talento. Não tente fazer tudo sozinho. Em caso de emergência, uma pessoa pode ser tanto o diretor quanto o engenheiro.
Antes da sessão
Para evitar desperdiçar tempo de estúdio, repasse o roteiro com seu dublador antes da sessão de gravação. À medida que o locutor se familiariza com o texto, ele pode esclarecer a pronúncia de quaisquer palavras desconhecidas.
Observação
A maioria dos estúdios de gravação oferece exibição eletrônica de roteiros na cabine de gravação. Nesse caso, digite suas notas de execução diretamente no documento do script. Mas você ainda vai querer uma cópia impressa para fazer anotações durante a sessão. A maioria dos engenheiros também vai querer uma cópia impressa. E você ainda vai querer uma terceira cópia impressa como backup para o talento, caso o computador fique inoperante.
Seu talento vocal pode perguntar qual palavra você quer enfatizar em uma frase (a "palavra operativa"). Diga a eles que você quer uma leitura natural, sem nenhuma ênfase específica. A ênfase poderá ser adicionada quando a fala for sintetizada e não deve fazer parte da gravação original.
Oriente o talento a pronunciar as palavras de forma distinta. Cada palavra do roteiro deve ser pronunciada como está escrita. Os sons não devem ser omitidos nem desarticulados, como é comum em fala casual, a menos que tenham sido escritos dessa maneira no script.
Texto escrito | Pronúncia casual indesejada |
---|---|
nunca vou desistir de você | nunca vo desistir de você |
existem quatro luzes | existe quatro luzes |
como está o tempo hoje | como tá o tempo hoje |
diga oi para o meu amiguinho | diga oi pro meu amiguinho |
O talento não deve adicionar pausas distintas entre as palavras. A frase deve fluir naturalmente, mesmo que pareça um pouco formal. Essa distinção sutil pode exigir prática para ser feita corretamente.
A sessão de gravação
Crie uma gravação de referência, ou arquivo de correspondência, de uma declaração típica no início da sessão. Peça ao talento para repetir essa fala a cada página. Cada vez, compare a nova gravação com a referência. Essa prática ajuda o talento a permanecer consistente em volume, andamento, tom e entonação. Enquanto isso, o engenheiro pode usar o arquivo de correspondência como referência para níveis e consistência geral do som.
O arquivo de correspondência é especialmente importante quando você retoma a gravação após um intervalo ou em outro dia. Toque algumas vezes para os talentos e peça para eles repetirem cada vez até que estejam combinando bem.
Para registrar um corpus com um estilo específico, escolha cuidadosamente scripts que mostrem o estilo desejado. Durante a gravação, certifique-se de que o talento vocal mantenha o volume, o ritmo, o tom e a tonalidade consistentes para obter gravações que incorporem o estilo pretendido.
Ensine seu talento a respirar fundo e fazer uma pausa por um momento antes de cada declaração. Grave alguns segundos de silêncio entre as falas. As palavras devem ser pronunciadas da mesma forma sempre que aparecem, considerando o contexto. Por exemplo, "record" como verbo é pronunciado de forma diferente de "record" como substantivo.
Grave cerca de cinco segundos de silêncio antes da primeira gravação para capturar o "tom do ambiente". Essa prática ajuda o Speech Studio a compensar o ruído nas gravações.
Dica
Tudo o que você precisa capturar é o talento de voz para que possa fazer uma gravação monofônica (apenas um canal) apenas das falas. No entanto, se você gravar em estéreo, poderá usar o segundo canal para gravar a conversa na sala de controle e capturar a discussão de falas ou tomadas específicas. Remova essa faixa da versão carregada no Speech Studio.
Ouça atentamente, usando fones de ouvido, a apresentação do dublador. Você está procurando uma dicção boa, mas natural, pronúncia correta e ausência de sons indesejados. Não hesite em pedir ao seu talento para regravar uma declaração que não atenda a esses padrões.
Dica
Se você estiver usando um grande número de enunciados, um único enunciado poderá não ter um efeito perceptível na voz personalizada resultante. Pode ser mais conveniente simplesmente observar quaisquer enunciados com problemas, excluí-los do seu conjunto de dados e ver como sua voz personalizada é exibida. Você sempre pode voltar ao estúdio e gravar os exemplos perdidos mais tarde.
Anote o número da tomada ou o código de tempo no seu roteiro para cada enunciado. Peça ao engenheiro para marcar cada expressão nos metadados ou na folha de dicas da gravação também.
Faça pausas regulares e ofereça uma bebida para ajudar o ator de voz a manter uma boa voz.
Após a sessão
Os estúdios de gravação modernos funcionam com computadores. No final da sessão, você recebe um ou mais arquivos de áudio, não uma fita. Esses arquivos provavelmente estão no formato WAV ou AIFF em qualidade de CD (44,1 KHz 16 bits) ou melhor. 24 kHz/16 bits é comum e recomendável. A taxa de amostragem padrão para uma voz personalizada é de 24 KHz. É recomendável que você use uma taxa de amostragem de 24 KHz ou mais para seus dados de treinamento. Taxas de amostragem mais altas, como 96 KHz, geralmente não são necessárias.
O Speech Studio exige que cada expressão fornecida esteja em seu próprio arquivo. Cada arquivo de áudio entregue pelo estúdio contém múltiplas declarações. Portanto, a principal tarefa de pós-produção é dividir as gravações e prepará-las para envio. O engenheiro de gravação pode ter colocado marcadores no arquivo (ou fornecido uma folha de dicas separada) para indicar onde cada expressão começa.
Use suas anotações para encontrar as tomadas exatas que você deseja e, em seguida, use um utilitário de edição de som, como Avid Pro Tools, Adobe Audition ou o gratuito Audacity, para copiar cada expressão em um novo arquivo.
Ouça cada arquivo atentamente. Nessa fase, você pode editar pequenos sons indesejados que você perdeu durante a gravação, como um leve estalo de lábio antes de uma fala, mas tome cuidado para não remover nenhuma fala real. Se você não conseguir corrigir um arquivo, remova-o do seu conjunto de dados e anote que você fez isso.
Converta cada arquivo para 16 bits e uma taxa de amostragem de 24 KHz ou mais antes de salvar e, se você gravou a conversa do estúdio, remova o segundo canal. Salve cada arquivo no formato WAV, nomeando os arquivos com o número da expressão do seu script.
Por fim, crie a transcrição que associa cada arquivo WAV a uma versão em texto do enunciado correspondente. Treine seu modelo de voz inclui detalhes do formato necessário. É possível copiar o texto diretamente do script. Em seguida, crie um arquivo Zip com os arquivos WAV e a transcrição do texto.
Arquive as gravações originais em um local seguro, caso precise delas mais tarde. Preserve seu roteiro e suas anotações também.
Próximas etapas
Você está pronto para carregar suas gravações e criar sua voz personalizada.