O que é voz personalizada?

2025-06-06

A voz personalizada é um recurso de conversão de texto em fala que permite criar uma voz sintética exclusiva e personalizada para seus aplicativos. Com a voz personalizada, você pode criar uma voz altamente natural para sua marca ou caracteres fornecendo exemplos de fala humana como dados de ajuste fino.

Importante

O acesso de voz personalizado é limitado com base nos critérios de qualificação e uso. Solicite acesso no formulário de entrada.

Pronto para uso, a conversão de texto em fala pode ser usada com vozes padrão para cada idioma com suporte. As vozes padrão funcionam bem na maioria dos cenários de texto em fala se uma voz exclusiva não for necessária.

A voz personalizada é baseada na tecnologia de conversão neural de texto em fala e no modelo universal multilíngue e multiorador. Você pode criar vozes sintéticas que são ricas em estilos de fala ou linguagens cruzadas adaptáveis. A voz realista e natural da voz personalizada pode representar marcas, personificar computadores e permitir que os usuários interajam com aplicativos conversando. Consulte os idiomas com suporte para voz personalizada.

Como ele funciona?

Para criar uma voz personalizada, use o Speech Studio para carregar o áudio gravado e os scripts correspondentes, treinar o modelo e implantar a voz em um ponto de extremidade personalizado.

A criação de uma ótima voz personalizada requer um controle de qualidade cuidadoso em cada etapa, desde o design de voz e a preparação de dados até a implantação do modelo de voz em seu sistema.

Antes de começar a usar o Speech Studio, aqui estão algumas considerações:

Crie uma persona da voz que represente sua marca usando um documento de resumo da persona. Esse documento define elementos como as características da voz e o personagem por trás dela. Isso ajuda a orientar o processo de criação de um modelo de voz personalizado, incluindo definir os scripts, selecionar seu talento de voz, treinamento e ajuste de voz.
Selecione o roteiro de gravação para representar os cenários de usuário para a voz. Por exemplo, você poderá usar as frases das conversas de bot como roteiro de gravação se estiver criando um bot de serviço de atendimento ao cliente. Inclua diferentes tipos de frases nos roteiros, como afirmativas, perguntas e exclamações.

Aqui está uma visão geral das etapas para criar uma voz personalizada no Speech Studio:

Crie um projeto para conter seus dados, modelos de voz, testes e pontos de extremidade. Cada projeto é específico para um país/região e idioma. Se você for criar várias vozes, é recomendável criar um projeto para cada voz.
Configurar o talento de voz. Antes de ajustar uma voz profissional, você deve enviar uma gravação da declaração de consentimento do talento de voz. A declaração do talento de voz é uma gravação do talento de voz lendo uma declaração de consentimento para o uso dos dados de fala para ajuste fino de voz profissional.
Prepare os dados de ajuste fino no formato correto. É uma boa ideia capturar as gravações de áudio em um estúdio de gravação de qualidade profissional para obter uma boa proporção de sinal para ruído. A qualidade do modelo de voz depende muito dos seus dados de ajuste fino. É necessário ter volume, velocidade de fala e densidade de fala consistentes, além de consistência nos maneirismos expressivos.
Treinar o modelo de voz. Selecione pelo menos 300 enunciados para criar uma voz personalizada. Uma série de verificações de qualidade de dados é executada automaticamente quando você as carrega. Para criar modelos de voz de alta qualidade, você precisa corrigir todos os erros e fazer o envio novamente.
Teste sua voz. Prepare roteiros de teste para o modelo de voz que abranjam os diferentes casos de uso de seus aplicativos. É uma boa ideia usar roteiros dentro e fora do conjunto de dados de treinamento para que você possa testar a qualidade de maneira mais ampla para conteúdos diferentes.
Implante e use seu modelo de voz em seus aplicativos.

Você pode sintonizar, ajustar e usar sua voz personalizada similarmente ao uso de uma voz padrão. Converta texto em fala em tempo real ou gere conteúdo de áudio offline com entrada de texto. Você usa a API REST, o SDK de Fala ou o Speech Studio.

Dica

Confira os exemplos de código no repositório do SDK de Fala no GitHub para ver como usar a voz personalizada em seu aplicativo.

O estilo e as características do modelo de voz treinado dependem do estilo e da qualidade das gravações do talento de voz usado para treinamento. No entanto, vários ajustes podem ser feitos por meio da SSML (Linguagem de Marcação de Sintetização de Voz) quando você faz as chamadas à API para que o modelo de voz gere uma voz sintética. SSML é a linguagem de marcação usada para comunicação com o serviço de conversão de texto em fala para converter um texto em áudio. Os ajustes que podem ser feitos incluem alteração de tom, velocidade, entonação e correção de pronúncia. Se o modelo de voz for criado com vários estilos, a SSML também poderá ser usada para alternar os estilos.

Sequência de componentes

A voz personalizada consiste em três componentes principais: o analisador de texto, o modelo acústico neural e o vocoder neural. Para gerar uma voz sintética natural com base no texto, primeiro, é necessário inserir o texto no analisador de texto, que fornece a saída na forma de uma sequência de fonemas. Um fonema é uma unidade básica de som que distingue uma palavra de outra em um idioma específico. Uma sequência de fonemas define as pronúncias das palavras fornecidas no texto.

Em seguida, a sequência de fonemas entra no modelo acústico neural para prever recursos acústicos que definem os sinais da fala. Os recursos acústicos incluem o timbre, o estilo de fala, a velocidade, as entonações e os padrões de acento tônico. Por fim, o vocoder neural converte os recursos acústicos em ondas audíveis para que a voz sintética seja gerada.

Fluxograma que mostra os componentes da voz personalizada.

Os modelos de voz de conversão de texto em fala neural são treinados com o uso de redes neurais profundas com base em exemplos de gravação de vozes humanas. Para saber mais, confira esta postagem no blog da Microsoft. Para saber mais sobre como um vocoder neural é treinado, confira esta postagem no blog da Microsoft.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e implantação de IA responsável em seus sistemas.

Compartilhar via

O que é voz personalizada?

Como ele funciona?

Sequência de componentes

IA responsável

Próximas etapas

Comentários

Recursos adicionais