O que é voz neural personalizada?

Artigo
01/18/2024

A voz neural personalizada (CNV) é um recurso de texto para fala que permite criar uma voz sintética, personalizada e única para seus aplicativos. Com a voz neural personalizada, você pode construir uma voz de som altamente natural para sua marca ou personagens, fornecendo amostras de fala humana como dados de treinamento.

Importante

O acesso personalizado à voz neural é limitado com base nos critérios de elegibilidade e uso. Solicite acesso no formulário de admissão.

O acesso ao Custom neural voice (CNV) Lite está disponível para qualquer pessoa demonstrar e avaliar o CNV antes de investir em gravações profissionais para criar uma voz de maior qualidade.

Fora da caixa, o texto para fala pode ser usado com vozes neurais pré-construídas para cada idioma suportado. As vozes neurais pré-construídas funcionam bem na maioria dos cenários de texto para fala se uma voz exclusiva não for necessária.

A voz neural personalizada é baseada na tecnologia de texto neural para fala e no modelo multilingue, multi-falante e universal. Você pode criar vozes sintéticas ricas em estilos de fala ou idiomas cruzados adaptáveis. A voz realista e natural da voz neural personalizada pode representar marcas, personificar máquinas e permitir que os usuários interajam com aplicativos de forma conversacional. Consulte os idiomas suportados para voz neural personalizada.

Como é que isto funciona?

Para criar uma voz neural personalizada, use o Speech Studio para carregar o áudio gravado e os scripts correspondentes, treinar o modelo e implantar a voz em um ponto de extremidade personalizado.

Gorjeta

Experimente o Custom neural voice (CNV) Lite para demonstrar e avaliar o CNV antes de investir em gravações profissionais para criar uma voz de maior qualidade.

Criar uma grande voz neural personalizada requer um controle de qualidade cuidadoso em cada etapa, desde o design de voz e preparação de dados, até a implantação do modelo de voz em seu sistema.

Antes de começar a usar o Speech Studio, aqui estão algumas considerações:

Crie uma persona da voz que representa sua marca usando um breve documento de persona . Este documento define elementos como as características da voz e o personagem por trás da voz. Isso ajuda a orientar o processo de criação de um modelo de voz neural personalizado, incluindo a definição dos scripts, a seleção de seu talento de voz, treinamento e sintonia de voz.
Selecione o script de gravação para representar os cenários do usuário para sua voz. Por exemplo, você pode usar as frases de conversas de bot como seu script de gravação se estiver criando um bot de atendimento ao cliente. Inclua diferentes tipos de frases em seus scripts, incluindo declarações, perguntas e exclamações.

Aqui está uma visão geral das etapas para criar uma voz neural personalizada no Speech Studio:

Crie um projeto para conter seus dados, modelos de voz, testes e pontos de extremidade. Cada projeto é específico para um país/região e idioma. Se você vai criar várias vozes, é recomendável criar um projeto para cada voz.
Configure talentos de voz. Antes de treinar uma voz neural, você deve enviar uma gravação da declaração de consentimento do talento de voz. A declaração de talento de voz é uma gravação do talento de voz lendo uma declaração de que eles consentem com o uso de seus dados de fala para treinar um modelo de voz personalizado.
Prepare os dados de treinamento no formato correto. É uma boa ideia capturar as gravações de áudio em um estúdio de gravação de qualidade profissional para alcançar uma alta relação sinal-ruído. A qualidade do modelo de voz depende muito dos seus dados de treino. São necessários volume consistente, velocidade de fala, tom e consistência nos maneirismos expressivos da fala.
Treine o seu modelo de voz. Selecione pelo menos 300 enunciados para criar uma voz neural personalizada. Uma série de verificações de qualidade de dados são realizadas automaticamente quando você os carrega. Para criar modelos de voz de alta qualidade, você deve corrigir quaisquer erros e enviar novamente.
Teste a sua voz. Prepare scripts de teste para seu modelo de voz que abranjam os diferentes casos de uso para seus aplicativos. É uma boa ideia usar scripts dentro e fora do conjunto de dados de treinamento, para que você possa testar a qualidade de forma mais ampla para diferentes conteúdos.
Implante e use seu modelo de voz em seus aplicativos.

Você pode sintonizar, ajustar e usar sua voz personalizada, da mesma forma que usaria uma voz neural pré-construída. Converta texto em fala em tempo real ou gere conteúdo de áudio offline com entrada de texto. Use a API REST, o SDK de fala ou o Speech Studio.

Gorjeta

Você também pode usar o SDK de fala e a API REST de voz personalizada para treinar uma voz neural personalizada.

Confira os exemplos de código no repositório do Speech SDK no GitHub para ver como usar a voz pessoal em seu aplicativo.

O estilo e as características do modelo de voz treinado dependem do estilo e da qualidade das gravações do talento vocal usado para o treinamento. No entanto, você pode fazer vários ajustes usando SSML (Speech Synthesis Markup Language) ao fazer as chamadas de API para seu modelo de voz para gerar fala sintética. SSML é a linguagem de marcação usada para se comunicar com o serviço de conversão de texto em fala para converter texto em áudio. Os ajustes que você pode fazer incluem mudança de tom, taxa, entonação e correção de pronúncia. Se o modelo de voz for criado com vários estilos, você também poderá usar o SSML para alternar os estilos.

Sequência de componentes

A voz neural personalizada consiste em três componentes principais: o analisador de texto, o modelo acústico neural e o vocoder neural. Para gerar fala sintética natural a partir do texto, o texto é primeiro inserido no analisador de texto, que fornece saída na forma de sequência de fonema. Um fonema é uma unidade básica de som que distingue uma palavra de outra em uma determinada língua. Uma sequência de fonemas define as pronúncias das palavras fornecidas no texto.

Em seguida, a sequência de fonemas entra no modelo acústico neural para prever características acústicas que definem os sinais de fala. As características acústicas incluem o timbre, o estilo de fala, velocidade, entonações e padrões de tensão. Finalmente, o vocoder neural converte as características acústicas em ondas audíveis, de modo que a fala sintética é gerada.

Flowchart that shows the components of custom neural voice.

Os modelos neurais de voz de texto para fala são treinados usando redes neurais profundas com base na gravação de amostras de vozes humanas. Para obter mais informações, consulte esta postagem do blog da Microsoft. Para saber mais sobre como um vocoder neural é treinado, consulte esta postagem do blog da Microsoft.

Migrar para a voz neural personalizada

Se você estiver usando a versão antiga da voz personalizada (que está programada para ser desativada em fevereiro de 2024), consulte Como migrar para a voz neural personalizada.

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

O que é voz neural personalizada?

Como é que isto funciona?

Sequência de componentes

Migrar para a voz neural personalizada

IA responsável

Próximos passos

Recursos adicionais