Compartilhar via


O que é voz pessoal para conversão de texto em fala?

Com a voz pessoal (versão prévia), você pode obter a replicação gerada por IA da sua voz (ou usuários do aplicativo) em alguns segundos. Você fornece um exemplo de fala de um minuto como prompt de áudio e, em seguida, usa-o para gerar fala em qualquer um dos mais de 90 idiomas com suporte em mais de 100 localidades.

Observação

A voz pessoal está disponível nessas regiões: Oeste da Europa, Leste dos EUA e Sudeste da Ásia. Para localidades com suporte, consulte o suporte à idiomas de voz pessoal.

A tabela a seguir resume a diferença entre o profissional de voz neural personalizado e a voz pessoal.

Comparação Voz pessoal Voz profissional
Cenários de destino Clientes comerciais criam um aplicativo para permitir que seus usuários criem e usem sua própria voz pessoal no aplicativo. Cenários Professional como vozes de marca e de caractere para chatbots ou leitura de conteúdo de áudio.
Casos de uso Restrito a casos de uso limitados. Consulte a nota de transparência. Os clientes aprovados devem ter um plano para dar suporte a mais de 1.000 vozes pessoais. Restrito a casos de uso limitados. Consulte a nota de transparência.
Dados de treinamento Siga o código de conduta. Traga seus próprios dados. É recomendável gravar em um estúdio profissional.
Tamanho de dados necessário Um minuto de fala humana. 300-2000 enunciados (cerca de 30 minutos a 3 horas de fala humana).
Tempo de treinamento Menos que 5 segundos Aproximadamente 20 a 40 horas de computação.
Qualidade do serviço de voz Natural Altamente natural
Suporte multilíngue Sim. A voz é capaz de falar cerca de 100 idiomas, com a detecção automática de idioma habilitada. Sim. Você precisa selecionar o recurso "Linguagem cruzada neural – " para treinar um modelo que fale uma linguagem diferente dos dados de treinamento.
Disponibilidade A demonstração no Speech Studio está disponível no registro. O acesso à API é restrito a clientes qualificados e casos de uso aprovados. Solicite acesso no formulário de entrada. Você só pode treinar e implantar um modelo CNV Pro após o acesso ser aprovado. O acesso à CNV Pro é limitado de acordo com os critérios de qualificação e uso. Solicite acesso no formulário de entrada.
Preços Verifique os detalhes de preço aqui1. Verifique os detalhes de preços aqui.
Requisitos de IA responsável A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos. A declaração verbal do orador é necessária. Casos de uso não aprovados não são permitidos.

1 Observe que os preços de voz pessoal só estarão visíveis para as regiões de serviço em que o recurso está disponível, incluindo Europa Ocidental, Leste dos EUA e Sudeste Asiático.

Experimente a demonstração

Se você tiver um recurso S0, poderá acessar a demonstração de voz pessoal no Speech Studio. Para usar a API de voz pessoal, você pode solicitar o acesso aqui.

  1. Acessar o Speech Studio

  2. Selecione o cartão Voz Pessoal.

  3. Você pode gravar sua própria voz e experimentar os exemplos de saída de voz em diferentes idiomas. A demonstração inclui um subconjunto dos idiomas compatíveis com a voz pessoal.

    Captura de tela da experiência de demonstração de voz pessoal no Speech Studio.

Como criar uma voz pessoal

Para começar, veja um resumo das etapas para criar uma voz pessoal:

  1. Crie um projeto.
  2. Carregue o arquivo de consentimento. Com o recurso de voz pessoal, é necessário que cada voz seja criada com consentimento explícito do usuário. Uma instrução gravada do usuário é necessária reconhecendo que o cliente (proprietário do recurso da Fala de IA do Azure) criará e usará sua voz.
  3. Obtenha uma ID de perfil do locutor para a voz pessoal. Você obtém uma ID de perfil do locutor com base na declaração de consentimento verbal do locutor e em um prompt de áudio. As características de voz do usuário são codificadas na propriedade speakerProfileId usada para conversão de texto em fala.

Depois de ter uma voz pessoal, você poderá usá-la para sintetizar a fala em qualquer um dos 91 idiomas com suporte em mais de 100 localidades. Uma marca de localidade não é necessária. A voz pessoal usa a detecção automática de idioma no nível da frase. Para obter mais informações, consulte usar a voz pessoal no seu aplicativo.

Dica

Confira os exemplos de código no repositório do SDK de Fala no GitHub para ver como usar a voz pessoal em seu aplicativo.

Documentação de referência

IA responsável

Preocupamo-nos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência de IA responsável.

Próximas etapas