O que é voz personalizada?

2025-06-02

A voz personalizada é um recurso de conversão de texto em fala que permite criar uma voz sintética, personalizada e única para seus aplicativos. Com a voz personalizada, você pode criar uma voz de som altamente natural para sua marca ou personagens, fornecendo amostras de fala humana como dados de ajuste fino.

Importante

O acesso personalizado por voz é limitado com base em critérios de elegibilidade e uso. Solicite acesso no formulário de admissão.

Fora da caixa, a conversão de texto em fala pode ser usada com vozes padrão para cada idioma suportado. As vozes padrão funcionam bem na maioria dos cenários de conversão de texto em fala se uma voz exclusiva não for necessária.

A voz personalizada baseia-se na tecnologia neural de conversão de texto em fala e no modelo multilingue, multifalante e universal. Você pode criar vozes sintéticas ricas em estilos de fala ou idiomas cruzados adaptáveis. A voz realista e natural da voz personalizada pode representar marcas, personificar máquinas e permitir que os usuários interajam com aplicativos de forma conversacional. Consulte os idiomas suportados para obter voz personalizada.

Como é que isto funciona?

Para criar uma voz personalizada, use o Speech Studio para carregar o áudio gravado e os scripts correspondentes, treinar o modelo e implantar a voz em um ponto de extremidade personalizado.

Criar uma ótima voz personalizada requer um controle de qualidade cuidadoso em cada etapa, desde o design de voz e preparação de dados, até a implantação do modelo de voz em seu sistema.

Antes de começar a usar o Speech Studio, aqui estão algumas considerações:

Crie uma persona da voz que representa sua marca usando um breve documento de persona. Este documento define elementos como as características da voz e o personagem por trás da voz. Isso ajuda a orientar o processo de criação de um modelo de voz personalizado, incluindo a definição dos scripts, a seleção de seu talento de voz, treinamento e sintonia de voz.
Selecione o script de gravação para representar os cenários do usuário para sua voz. Por exemplo, você pode usar as frases de conversas de bot como seu script de gravação se estiver criando um bot de atendimento ao cliente. Inclua diferentes tipos de frases em seus scripts, incluindo declarações, perguntas e exclamações.

Aqui está uma visão geral das etapas para criar uma voz personalizada no Speech Studio:

Crie um projeto para conter seus dados, modelos de voz, testes e pontos de extremidade. Cada projeto é específico para um país/região e idioma. Se você vai criar várias vozes, é recomendável criar um projeto para cada voz.
Configure talentos de voz. Antes de ajustar uma voz profissional, você deve enviar uma gravação da declaração de consentimento do talento de voz. A declaração feita pelo talento de voz é uma gravação em que ele lê uma declaração consentindo com a utilização dos seus dados de fala para a afinação profissional da voz.
Preparar dados para ajuste fino no formato correto. É uma boa ideia capturar as gravações de áudio em um estúdio de gravação de qualidade profissional para alcançar uma alta relação sinal-ruído. A qualidade do modelo de voz depende muito dos seus dados de ajuste fino. São necessários volume consistente, velocidade de fala, tom e consistência nos maneirismos expressivos da fala.
Treine o seu modelo de voz. Selecione pelo menos 300 enunciados para criar uma voz personalizada. Uma série de verificações de qualidade de dados são realizadas automaticamente quando você os carrega. Para criar modelos de voz de alta qualidade, você deve corrigir quaisquer erros e enviar novamente.
Teste a sua voz. Prepare scripts de teste para seu modelo de voz que abranjam os diferentes casos de uso para seus aplicativos. É uma boa ideia usar scripts dentro e fora do conjunto de dados de treinamento, para que você possa testar a qualidade de forma mais ampla para diferentes conteúdos.
Implante e use seu modelo de voz em seus aplicativos.

Você pode afinar, ajustar e usar sua voz personalizada, assim como usaria uma voz padrão. Converta texto em fala em tempo real ou gere conteúdo de áudio offline com entrada de texto. Use a API REST, o SDK de fala ou o Speech Studio.

Gorjeta

Confira os exemplos de código no repositório do Speech SDK no GitHub para ver como usar voz personalizada em seu aplicativo.

O estilo e as características do modelo de voz treinado dependem do estilo e da qualidade das gravações do talento vocal usado para o treinamento. No entanto, você pode fazer vários ajustes usando SSML (Speech Synthesis Markup Language) ao fazer as chamadas de API para seu modelo de voz para gerar fala sintética. SSML é a linguagem de marcação usada para se comunicar com o serviço de conversão de texto em fala para converter texto em áudio. Os ajustes que você pode fazer incluem mudança de tom, taxa, entonação e correção de pronúncia. Se o modelo de voz for criado com vários estilos, você também poderá usar o SSML para alternar os estilos.

Sequência de componentes

A voz personalizada consiste em três componentes principais: o analisador de texto, o modelo acústico neural e o vocoder neural. Para gerar fala sintética natural a partir do texto, o texto é primeiro inserido no analisador de texto, que fornece saída na forma de sequência de fonema. Um fonema é uma unidade básica de som que distingue uma palavra de outra em uma determinada língua. Uma sequência de fonemas define as pronúncias das palavras fornecidas no texto.

Em seguida, a sequência de fonemas entra no modelo acústico neural para prever características acústicas que definem os sinais de fala. As características acústicas incluem o timbre, o estilo de fala, velocidade, entonações e padrões de tensão. Finalmente, o vocoder neural converte as características acústicas em ondas audíveis, de modo que a fala sintética é gerada.

Fluxograma que mostra os componentes da voz personalizada.

Os modelos neurais de voz de texto para fala são treinados usando redes neurais profundas com base na gravação de amostras de vozes humanas. Para obter mais informações, consulte esta postagem do blog da Microsoft. Para saber mais sobre como um vocoder neural é treinado, consulte esta postagem do blog da Microsoft.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Partilhar via

O que é voz personalizada?

Como é que isto funciona?

Sequência de componentes

IA responsável

Próximos passos

Comentários

Recursos adicionais