Voz neural personalizada Lite (versão prévia)

Artigo
10/16/2024

A Fala de IA do Azure fornece dois tipos de projetos CNV (voz neural personalizada): CNV Lite e CNV Professional.

A CNV (sintetização de voz personalizada) Profissional permite que você carregue os dados de treinamento coletados por meio de estúdios de gravação profissionais e crie uma voz de maior qualidade, que quase não pode ser distinguida de exemplos humanos. O acesso à CNV profissional é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada.
CNV (voz neural personalizada) Lite é um tipo de projeto em visualização pública. Você pode demonstrar e avaliar a sintetização de voz personalizada antes de investir em gravações profissionais para criar uma voz de maior qualidade. Não é necessário nenhum aplicativo para fins de demonstração e avaliação. No entanto, a Microsoft restringe e seleciona as amostras de gravação e teste para uso com o CNV Lite. Você deve aplicar o acesso total ao CNV Profissional para implantar e usar o modelo CNV Lite para fins comerciais. Nesse caso, solicite acesso no formulário de admissão.

Com um projeto CNV Lite, você grava a voz online lendo de 20 a 50 scripts predefinidos fornecidos pela Microsoft. Depois de gravar pelo menos 20 exemplos, você pode começar a treinar um modelo. Depois que o modelo for treinado com êxito, você poderá examinar o modelo e conferir 20 exemplos de saída produzidos com outro conjunto de scripts predefinidos.

Confira os idiomas com suporte para sintetização de voz personalizada.

Comparar tipos de projeto

A tabela a seguir resume as principais diferenças entre os tipos de projeto CNV Lite e CNV Profissional.

Itens	Lite (versão prévia)	Pro
Cenários de destino	Demonstração ou avaliação	Cenários Professional como vozes de marca e de caractere para chatbots ou leitura de conteúdo de áudio.
Dados de treinamento	Gravar online usando o Speech Studio	Traga seus próprios dados. É recomendável gravar em um estúdio profissional.
Scripts para gravação	Fornecido no Speech Studio	Use seus próprios scripts que corresponderem ao cenário de caso de uso. A Microsoft fornece scripts de exemplo para referência.
Tamanho de dados necessário	20 a 50 enunciados	300 a 2000 enunciados
Tempo de treinamento	Menos de uma hora de computação	Aproximadamente 20 a 40 horas de computação
Qualidade do serviço de voz	Qualidade moderada	Alta qualidade
Disponibilidade	Qualquer pessoa pode gravar exemplos online e treinar um modelo para fins de demonstração e avaliação. É necessário acesso total à sintetização de voz personalizada se você quiser implantar o modelo CNV Lite para uso comercial.	O upload de dados não é restrito, mas você só pode treinar e implantar um modelo CNV Profissional após o acesso ser aprovado. O acesso à CNV profissional é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada.
Preços	Os preços unitários se aplicam igualmente aos projetos CNV Lite e CNV Profissional. Verifique os detalhes de preços aqui.	Os preços unitários se aplicam igualmente aos projetos CNV Lite e CNV Profissional. Verifique os detalhes de preços aqui.

Criar um projeto do voz neural personalizada Lite

Para criar um projeto do voz neural personalizada Lite, siga estas etapas:

Entre no Speech Studio.
Selecione a assinatura e o recurso de Fala com que vai trabalhar.
Selecione Voz personalizada>Criar um projeto.
Selecione Voz neural personalizada Lite>Avançar. Para criar um projeto profissional de voz neural personalizada, veja Criar um projeto para voz neural personalizada.
Siga as instruções fornecidas pelo assistente para criar seu projeto.

Importante

O projeto do CNV Lite expira após 90 dias, a menos que a declaração verbal gravada pelo talento de voz seja enviada.
Selecione o novo projeto pelo nome ou escolha Ir para o projeto. Você verá estes itens de menu no painel esquerdo: Registrar e compilar, Revisar modelo e Implantar modelo.

Gravar e criar um modelo CNV Lite

Grave pelo menos 20 amostras de voz (até 50) com scripts fornecidos online. As amostras de voz gravadas aqui são usadas para criar uma versão sintética da sua voz.

Observação

O treinamento da voz neural personalizada só está disponível em algumas regiões. Confira as notas de rodapé na tabela regiões para mais informações.

Aqui estão algumas dicas para você gravar suas amostras de voz:

Use um bom microfone. Aumente a clareza das amostras usando um microfone de alta qualidade. Fale a cerca de 8 polegadas de distância do microfone para evitar ruídos bucais.
Evite ruídos de fundo. Grave em uma sala tranquila sem eco ou ruído de fundo.
Relaxe e fale naturalmente. Permita-se expressar emoções enquanto lê as frases.
Grave em uma tomada. Para manter um nível de energia consistente, grave todas as frases em uma sessão.
Pronuncie cada palavra corretamente e fale com clareza.

Para gravar e criar um modelo CNV Lite, siga estas etapas:

Selecione Voz personalizada> Nome do seu projeto >Gravar e compilar.
Selecione Introdução.
Leia atentamente os termos de uso do talento de voz. Marque a caixa de seleção para confirmar os termos de uso.
Selecione Aceitar
Pressione o ícone de microfone para iniciar a verificação de ruído. Essa verificação de ruído leva apenas alguns segundos e você não precisa falar durante ela.
Se algum ruído tiver sido detectado, você poderá selecionar Verificar novamente para repetir a verificação de ruído. Se nenhum ruído tiver sido detectado, você poderá selecionar Concluído para prosseguir até a próxima etapa.
Examine as dicas de gravação e selecione Entendido. Para obter os melhores resultados, vá para uma área silenciosa sem ruído de fundo antes de gravar as amostras de voz.
Pressione o ícone de microfone para iniciar a gravação.
Pressione o ícone de parar para interromper a gravação.
Examine as métricas da qualidade. Depois de gravar cada amostra, verifique a métricas da qualidade antes de continuar para a próxima.
Grave mais amostras. Embora seja possível criar um modelo com apenas 20 amostras, é recomendável gravar até 50 amostras para obter uma melhor qualidade.
Selecione Treinar modelo para iniciar o processo de treinamento.

O processo de treinamento leva aproximadamente uma hora de computação. Você pode verificar o progresso do processo de treinamento na página Examinar modelo.

Examinar modelo

Para examinar o modelo CNV Lite e ouvir sua própria voz sintética, siga estas etapas:

Selecione Voz personalizada> Nome do seu projeto >Examinar modelo. Aqui você pode examinar o nome do modelo de voz, o idioma do modelo, o tamanho dos dados de amostra e o progresso do treinamento. O nome da voz é composto pela palavra "Neural" acrescentada ao nome do projeto.
Selecione o nome do modelo de voz para revisar os detalhes do modelo e ouvir a amostra de texto e os resultados da conversão de texto em fala.
Selecione o ícone de reprodução para ouvir sua voz falar cada script.

Enviar declaração do talento de voz

Uma declaração verbal gravada pelo talento de voz é necessária para que você possa implantar o modelo para uso comercial.

Para enviar a declaração verbal do talento de voz, siga estas etapas:

Selecione Voz personalizada> Nome do seu projeto >Implantar modelo>Gerenciar seu talento de voz.
Selecione o modelo.
Insira o nome do talento de voz e o nome da empresa.
Leia e grave a declaração. Selecione o ícone de microfone para iniciar a gravação. Selecione o ícone de parar para interromper a gravação.
Selecione Enviar para enviar a declaração.
Verifique o status de processamento na tabela de scripts na parte inferior do painel. Depois que o status for Êxito, você poderá implantar o modelo.

Implantar modelo

Para implantar seu modelo de voz e usá-lo em seus aplicativos, você deve obter o acesso completo à voz neural personalizada. Solicite acesso no formulário de entrada. Dentro de aproximadamente 10 dias úteis, você recebe um email com o status de aprovação. Uma declaração verbal gravada pelo talento de voz também é necessária para que você possa implantar o modelo para uso comercial.

Para implantar um modelo CNV Lite, siga estas etapas:

Selecione Voz personalizada> Nome do seu projeto >Implantar modelo>Implantar modelo.
Selecione um nome do modelo de voz e, em seguida, selecione Avançar.
Insira um nome e uma descrição para seu ponto de extremidade e, em seguida, selecione Avançar.
Marque a caixa de seleção para concordar com os termos de uso e selecione Avançar.
Selecione Implantar para implantar o contrato.

A partir daqui, você pode usar o modelo de voz CNV Lite da mesma forma que usaria um modelo de voz CNV Profissional. Por exemplo, é possível suspender ou retomar um ponto de extremidade após ele ser criado, como meio de limitar gastos e conservar recursos que não estão em uso. Também é possível acessar a voz na ferramenta Criação de Conteúdo de Áudio no Speech Studio.

Compartilhar via