Q: Há um mapeamento entre as IDs do Visema e o formato da boca?

Sim. Confira Obter posição facial com visema .

Question 1

Como funciona a cobrança da conversão de texto em fala?

Accepted Answer

O uso da conversão de texto em fala é cobrado por caractere. Verifique a definição de caracteres faturáveis na nota de preços.

Question 2

Qual é o limite de taxa para as solicitações de síntese da conversão de texto em fala?

Accepted Answer

A taxa de síntese da conversão de texto em fala é dimensionada automaticamente à medida que recebe mais solicitações. Um limite de taxa padrão é definido por recurso de fala. A taxa é ajustável com justificativas comerciais e nenhum encargo extra é incorrido para o aumento do limite de taxa. Confira mais detalhes em Cotas e limites do serviço de Fala.

Question 3

Como revelaríamos ao usuário final que a voz é uma voz sintética?

Accepted Answer

Recomendamos que todos os usuários sigam nosso código de conduta ao usar o recurso de conversão de texto em fala. Há várias maneiras de divulgar a natureza sintética da voz, incluindo crédito implícito e explícito. Consulte as Diretrizes de design de divulgação.

Question 4

Como posso reduzir a latência do meu aplicativo de voz?

Accepted Answer

Fornecemos várias dicas para que você reduza a latência e ofereça o melhor desempenho para seus usuários. Confira Menor latência de síntese de fala usando o SDK de Fala.

Question 5

Quais formatos de saída de áudio a conversão de texto em fala suporta?

Accepted Answer

A conversão de texto em fala da IA do Azure oferece suporte a vários formatos de áudio de streaming e não streaming, com as taxas de amostragem mais usadas. Todas as vozes padrão do TTS são criadas para dar suporte a saídas de áudio de alta fidelidade com 48 kHz e 24 kHz. O áudio pode ser reamostrado para suportar outras taxas conforme necessário. Confira Saídas de áudio.

Question 6

A voz pode ser personalizada para enfatizar palavras específicas?

Accepted Answer

Há suporte para ajustar a ênfase de algumas vozes, dependendo da localidade. Confira a marca de ênfase.

Question 7

Podemos ter várias intensidades para cada emoção, como triste, um pouco triste, e assim por diante, certo?

Accepted Answer

Algumas vozes suportam o ajuste do grau de estilo, dependendo da localidade. Confira a marca mstts:express-as.

Question 8

Há um mapeamento entre as IDs do Visema e o formato da boca?

Accepted Answer

Sim. Confira Obter posição facial com visema.

Question 9

Como fazer referência a um arquivo de léxico que criei na plataforma de Criação de Conteúdo de Áudio no meu código?

Accepted Answer

Primeiro, você pode abrir o arquivo de léxico na Criação de Conteúdo de Áudio e obter a ID do arquivo de léxico, que está localizada antes de "?fileKind=CustomLexiconFile" no caminho do arquivo. Por exemplo, se o caminho do arquivo for https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, a ID do arquivo de léxico será 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Em seguida, alterne um arquivo que referencia esse léxico para o formato SSML na Criação de Conteúdo de Áudio. No arquivo SSML, localize o nó XML

Question 10

Quantos dados são necessários para ajuste de voz profissional?

Accepted Answer

Você precisa de dados de treinamento de pelo menos 300 linhas de gravações (ou aproximadamente 30 minutos de fala) para ajuste de voz profissional. Recomendamos que 2.000 linhas de gravações (ou aproximadamente 2 a 3 horas de fala) criem uma voz para uso em produção. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

Question 11

Podemos incluir frases de texto duplicadas no mesmo conjunto de dados de treinamento?

Accepted Answer

Não. O serviço sinalizará as frases duplicadas e apenas manterá a primeira importada. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

Question 12

Podemos incluir vários estilos no mesmo conjunto de dados de treinamento?

Accepted Answer

Recomendamos que você mantenha o estilo consistente em um conjunto de dados de treinamento. Se os estilos forem diferentes, coloque-os em diferentes conjuntos de treinamento. Nesse caso, considere usar o método de treinamento de vários estilos de ajuste de voz profissional. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

Question 13

A troca de estilos por meio de SSML funciona para vozes personalizadas?

Accepted Answer

Alternar estilos por meio de SSML funciona para vozes padrão de vários estilos e vozes personalizadas de vários estilos. Com o treinamento de vários estilos, você pode criar uma voz que fale em estilos diferentes e também pode ajustar esses estilos por meio do SSML.

Question 14

Como a voz multilíngue funciona com línguas que têm estrutura de pronúncia e plateia diferentes?

Accepted Answer

A estrutura e a pronúncia de frases variam naturalmente entre idiomas como inglês e japonês. Cada voz neural é treinada com dados de áudio gravados pelo talento de voz de fala nativa. Para voz multilíngue, transferimos os principais recursos como timbre para soar como o falante original e preservar a pronúncia certa. Por exemplo, uma voz multilíngue usa a maneira nativa de falar japonês e ainda soa semelhante (mas não exatamente) como o falante de inglês original.

Question 15

Posso usar o ajuste de voz profissional para personalizar a pronúncia para meu domínio?

Accepted Answer

O ajuste de voz profissional permite que você crie uma voz de marca para sua empresa. Você também pode otimizá-la para seu domínio. Recomendamos que você inclua exemplos específicos do domínio em seus dados de treinamento para maior naturalidade. No entanto, a pronúncia é definida pelo serviço de Fala por padrão. Não damos suporte à personalização de pronúncia com ajuste de voz profissional. Se você quiser personalizar a pronúncia da sua voz, use o SSML. Confira Pronúncia com Linguagem de Marcação de Síntese de Fala (SSML).

Question 16

Depois de um treinamento posso treinar minha voz de novo?

Accepted Answer

Você pode treinar novamente. Cada treinamento cria um novo modelo de voz. Você é cobrado por cada treinamento.

Question 17

A versão do modelo é igual à versão do mecanismo?

Accepted Answer

Não. A versão do modelo é diferente da versão do mecanismo. A versão do modelo significa a versão da receita de treinamento do seu modelo e varia de acordo com os recursos compatíveis e o tempo de treinamento do modelo. Os mecanismos de conversão de texto em fala dos serviços de IA do Azure são atualizados periodicamente para capturar o modelo de idioma mais recente que define a pronúncia do idioma. Depois de treinar sua voz, você poderá aplicar sua voz ao novo modelo de linguagem atualizando para a versão mais recente do mecanismo. Quando um novo mecanismo está disponível, você é solicitado a atualizar seu modelo de voz neural. Confira Atualizar a versão do mecanismo do seu modelo de voz.

Question 18

Podemos limitar o número de treinamentos usando o Azure Policy ou outros recursos? Ou há alguma maneira de evitar treinamento falso?

Accepted Answer

Se você quiser limitar a permissão ao treinamento, poderá limitar o acesso e as funções de usuário. Consulte Controle de acesso baseado em função para recursos de Fala.

Question 19

A Microsoft pode adicionar um mecanismo para impedir o uso não autorizado ou o uso indevido de nossa voz quando ela é criada?

Accepted Answer

O modelo de voz só pode ser usado por você usando seu próprio token. A Microsoft também não usa seus dados. Confira Dados, privacidade e segurança. Você também pode solicitar a adição de marcas d'água à sua voz para proteger seu modelo. Confira O Microsoft Azure Neural TTS apresenta o algoritmo de marca d'água para identificação de voz sintética.

Question 20

Você tem alguma dica sobre contratos ou negociação com dubladores?

Accepted Answer

Não temos recomendações sobre contratos e cabe ao cliente e ao talento de voz negociar os termos. No entanto, você deve certificar-se de que o locutor entenda os recursos de conversão de texto em fala, incluindo seus riscos potenciais, e fornecer consentimento explícito para criar uma versão sintética de sua voz tanto no contrato quanto em uma declaração verbal. Confira Divulgação para obter talentos de voz.

Question 21

Precisamos devolver a permissão por escrito do talento de voz de volta para a Microsoft?

Accepted Answer

A Microsoft não precisa de permissão por escrito, mas você deve obter o consentimento do seu talento de voz. O talento de voz também será necessário para gravar a instrução de consentimento e ele deve ser carregado no Speech Studio antes do treinamento começar. Veja Configurar o talento de voz para ajuste de voz profissional.

Compartilhar via

Geral

Como funciona a cobrança da conversão de texto em fala?

Qual é o limite de taxa para as solicitações de síntese da conversão de texto em fala?

Como revelaríamos ao usuário final que a voz é uma voz sintética?

Como posso reduzir a latência do meu aplicativo de voz?

Quais formatos de saída de áudio a conversão de texto em fala suporta?

A voz pode ser personalizada para enfatizar palavras específicas?

Podemos ter várias intensidades para cada emoção, como triste, um pouco triste, e assim por diante, certo?

Há um mapeamento entre as IDs do Visema e o formato da boca?

Criação de Conteúdo de Áudio

Como fazer referência a um arquivo de léxico que criei na plataforma de Criação de Conteúdo de Áudio no meu código?

Ajuste de voz profissional

Quantos dados são necessários para ajuste de voz profissional?

Podemos incluir frases de texto duplicadas no mesmo conjunto de dados de treinamento?

Podemos incluir vários estilos no mesmo conjunto de dados de treinamento?

A troca de estilos por meio de SSML funciona para vozes personalizadas?

Como a voz multilíngue funciona com línguas que têm estrutura de pronúncia e plateia diferentes?

Posso usar o ajuste de voz profissional para personalizar a pronúncia para meu domínio?

Depois de um treinamento posso treinar minha voz de novo?

A versão do modelo é igual à versão do mecanismo?

Podemos limitar o número de treinamentos usando o Azure Policy ou outros recursos? Ou há alguma maneira de evitar treinamento falso?

A Microsoft pode adicionar um mecanismo para impedir o uso não autorizado ou o uso indevido de nossa voz quando ela é criada?

Você tem alguma dica sobre contratos ou negociação com dubladores?

Precisamos devolver a permissão por escrito do talento de voz de volta para a Microsoft?

Próximas etapas

Compartilhar via

Perguntas frequentes sobre conversão de texto em fala

Geral

Como funciona a cobrança da conversão de texto em fala?

Qual é o limite de taxa para as solicitações de síntese da conversão de texto em fala?

Como revelaríamos ao usuário final que a voz é uma voz sintética?

Como posso reduzir a latência do meu aplicativo de voz?

Quais formatos de saída de áudio a conversão de texto em fala suporta?

A voz pode ser personalizada para enfatizar palavras específicas?

Podemos ter várias intensidades para cada emoção, como triste, um pouco triste, e assim por diante, certo?

Há um mapeamento entre as IDs do Visema e o formato da boca?

Criação de Conteúdo de Áudio

Como fazer referência a um arquivo de léxico que criei na plataforma de Criação de Conteúdo de Áudio no meu código?

Ajuste de voz profissional

Quantos dados são necessários para ajuste de voz profissional?

Podemos incluir frases de texto duplicadas no mesmo conjunto de dados de treinamento?

Podemos incluir vários estilos no mesmo conjunto de dados de treinamento?

A troca de estilos por meio de SSML funciona para vozes personalizadas?

Como a voz multilíngue funciona com línguas que têm estrutura de pronúncia e plateia diferentes?

Posso usar o ajuste de voz profissional para personalizar a pronúncia para meu domínio?

Depois de um treinamento posso treinar minha voz de novo?

A versão do modelo é igual à versão do mecanismo?

Podemos limitar o número de treinamentos usando o Azure Policy ou outros recursos? Ou há alguma maneira de evitar treinamento falso?

A Microsoft pode adicionar um mecanismo para impedir o uso não autorizado ou o uso indevido de nossa voz quando ela é criada?

Você tem alguma dica sobre contratos ou negociação com dubladores?

Precisamos devolver a permissão por escrito do talento de voz de volta para a Microsoft?

Próximas etapas

Comentários

Recursos adicionais