O que é voz pessoal para conversão de texto em fala?

Artigo
05/21/2024

Com a voz pessoal (versão prévia), você pode obter a replicação gerada por IA da sua voz (ou usuários do aplicativo) em alguns segundos. Você fornece um exemplo de fala de um minuto como prompt de áudio e, em seguida, usa-o para gerar fala em qualquer um dos mais de 90 idiomas com suporte em mais de 100 localidades.

Observação

A voz pessoal está disponível nessas regiões: Oeste da Europa, Leste dos EUA e Sudeste da Ásia. Para localidades com suporte, consulte o suporte à idiomas de voz pessoal.

A tabela a seguir resume a diferença entre o profissional de voz neural personalizado e a voz pessoal.

Comparação	Voz pessoal	Voz profissional
Cenários de destino	Clientes comerciais criam um aplicativo para permitir que seus usuários criem e usem sua própria voz pessoal no aplicativo.	Cenários Professional como vozes de marca e de caractere para chatbots ou leitura de conteúdo de áudio.
Casos de uso	Restrito a casos de uso limitados. Consulte a nota de transparência. Os clientes aprovados devem ter um plano para dar suporte a mais de 1.000 vozes pessoais.	Restrito a casos de uso limitados. Consulte a nota de transparência.
Dados de treinamento	Siga o código de conduta.	Traga seus próprios dados. É recomendável gravar em um estúdio profissional.
Tamanho de dados necessário	Um minuto de fala humana.	300-2000 enunciados (cerca de 30 minutos a 3 horas de fala humana).
Tempo de treinamento	Menos que 5 segundos	Aproximadamente 20 a 40 horas de computação.
Qualidade do serviço de voz	Natural	Altamente natural
Suporte multilíngue	Sim. A voz é capaz de falar cerca de 100 idiomas, com a detecção automática de idioma habilitada.	Sim. Você precisa selecionar o recurso "Linguagem cruzada neural – " para treinar um modelo que fale uma linguagem diferente dos dados de treinamento.
Disponibilidade	A demonstração no Speech Studio está disponível no registro. O acesso à API é restrito a clientes qualificados e casos de uso aprovados. Solicite acesso no formulário de entrada.	Você só pode treinar e implantar um modelo CNV Pro após o acesso ser aprovado. O acesso à CNV Pro é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada.
Preços	Verifique os detalhes de preço aqui¹.	Verifique os detalhes de preços aqui.
Requisitos de IA responsável	A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos.	A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos.

¹ Observe que os preços de voz pessoal só estarão visíveis para as regiões de serviço em que o recurso está disponível, incluindo Europa Ocidental, Leste dos EUA e Sudeste Asiático.

Experimente a demonstração

Se você tiver um recurso S0, poderá acessar a demonstração de voz pessoal no Speech Studio. Para usar a API de voz pessoal, você pode solicitar o acesso aqui.

Acessar o Speech Studio
Selecione o cartão Voz Pessoal.
Você pode gravar sua própria voz e experimentar os exemplos de saída de voz em diferentes idiomas. A demonstração inclui um subconjunto dos idiomas compatíveis com a voz pessoal.

Como criar uma voz pessoal

Para começar, veja um resumo das etapas para criar uma voz pessoal:

Crie um projeto.
Carregue o arquivo de consentimento. Com o recurso de voz pessoal, é necessário que cada voz seja criada com consentimento explícito do usuário. Uma instrução gravada do usuário é necessária reconhecendo que o cliente (proprietário do recurso da Fala de IA do Azure) criará e usará sua voz.
Obtenha uma ID de perfil do locutor para a voz pessoal. Você obtém uma ID de perfil do locutor com base na declaração de consentimento verbal do locutor e em um prompt de áudio. As características de voz do usuário são codificadas na propriedade speakerProfileId usada para conversão de texto em fala.

Depois de ter uma voz pessoal, você poderá usá-la para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase. Para obter mais informações, consulte usar a voz pessoal no seu aplicativo.

Dica

Confira os exemplos de código no repositório do SDK de Fala no GitHub para ver como usar a voz pessoal em seu aplicativo.

Documentação de referência

Documentação de referência da API REST de voz personalizada

IA responsável

Preocupamo-nos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência de IA responsável.

Próximas etapas

Crie um projeto.
Saiba mais sobre a Voz Neural Personalizada na visão geral.
Saiba mais sobre o Speech Studio na visão geral.

Compartilhar via