Partilhar via


O que é voz pessoal para conversão de texto em fala?

Com a voz pessoal, você pode permitir que seus usuários obtenham a replicação gerada por IA de suas próprias vozes em poucos segundos. Com uma declaração verbal e uma pequena amostra de fala como prompt de áudio, você pode criar uma voz pessoal para seus usuários e permitir que eles gerem fala em qualquer um dos mais de 90 idiomas suportados em mais de 100 localidades.

Nota

A voz pessoal está disponível nestas regiões: Europa Ocidental, Leste dos EUA e Sudeste Asiático. Para obter as localidades suportadas, consulte Suporte ao idioma de voz pessoal.

A tabela a seguir resume a diferença entre voz pessoal e voz neural personalizada profissional.

Comparação Voz pessoal Voz profissional
Cenários-alvo Clientes empresariais para criar um aplicativo para permitir que seus usuários criem e usem sua própria voz pessoal no aplicativo. Cenários profissionais, como vozes de marcas e personagens para chatbots ou leitura de conteúdo de áudio.
Casos de utilização Restrito a casos de uso limitados. Consulte a nota de transparência. Os clientes aprovados devem ter um plano para suportar mais de 1.000 vozes pessoais. Restrito a casos de uso limitados. Consulte a nota de transparência.
Dados de preparação Certifique-se de que segue o código de conduta. Traga os seus próprios dados. Recomenda-se gravar em estúdio profissional.
Tamanho de dados necessário Um minuto de fala humana. 300-2000 enunciados (cerca de 30 minutos a 3 horas de fala humana).
Tempo de preparação Menos de 5 segundos Aproximadamente 20-40 horas de computação.
Qualidade de voz Naturais Altamente natural
Suporte multilingue Sim. A voz é capaz de falar cerca de 100 idiomas, com deteção automática de idioma habilitada. Sim. Você precisa selecionar o recurso "Neural – cross lingual" para treinar um modelo que fala uma língua diferente dos dados de treinamento.
Disponibilidade A demonstração no Speech Studio está disponível mediante inscrição. O acesso à API é restrito a clientes qualificados e casos de uso aprovados. Solicite acesso através do formulário de admissão. Você só pode treinar e implantar um modelo CNV Pro depois que o acesso for aprovado. O acesso ao CNV Pro é limitado com base em critérios de elegibilidade e uso. Solicite acesso através do formulário de admissão.
Preços Confira os detalhes de preços aqui1. Confira os detalhes de preços aqui.
Requisitos de IA responsável Declaração verbal do orador necessária. Nenhum caso de uso não aprovado é permitido. Declaração verbal do orador necessária. Nenhum caso de uso não aprovado é permitido.

1 Observe que os preços de voz pessoal só serão visíveis para regiões de serviço onde o recurso está disponível, incluindo Europa Ocidental, Leste dos EUA e Sudeste Asiático.

Experimentar a demonstração

Se você tiver um recurso S0, poderá acessar a demonstração de voz pessoal no Speech Studio. Para usar a API de voz pessoal, você pode solicitar acesso aqui.

  1. Ir para o Speech Studio

  2. Selecione o cartão de voz pessoal.

  3. Pode gravar a sua própria voz e experimentar as amostras de saída de voz em diferentes idiomas. A demonstração inclui um subconjunto dos idiomas suportados pela voz pessoal.

    Captura de ecrã da experiência pessoal de demonstração de voz no Speech Studio.

Como criar uma voz pessoal

Para começar, aqui está um resumo das etapas para criar uma voz pessoal:

  1. Crie um projeto.
  2. Carregue o arquivo de consentimento. Com o recurso de voz pessoal, é necessário que cada voz seja criada com o consentimento explícito do usuário. É necessária uma declaração gravada do usuário reconhecendo que o cliente (proprietário do recurso Azure AI Speech) criará e usará sua voz.
  3. Obtenha um ID de perfil de orador para a voz pessoal. Você obtém um ID de perfil de alto-falante com base na declaração de consentimento verbal do orador e em um prompt de áudio. As características de voz do usuário são codificadas na propriedade usada para conversão de texto em speakerProfileId fala.

Depois de ter uma voz pessoal, você pode usá-la para sintetizar fala em qualquer um dos 91 idiomas suportados em 100+ localidades. Uma tag de localidade não é necessária. A voz pessoal usa a deteção automática de idioma no nível da frase. Para obter mais informações, consulte Usar voz pessoal em seu aplicativo.

Gorjeta

Confira os exemplos de código no repositório do Speech SDK no GitHub para ver como usar a voz pessoal em seu aplicativo.

Documentação de referência

IA responsável

Nós nos preocupamos com as pessoas que usam IA e as pessoas que serão afetadas por ela tanto quanto nos preocupamos com a tecnologia. Para obter mais informações, consulte as notas de transparência da IA responsável.

Próximos passos