Compartilhar via


Perguntas frequentes sobre conversão de texto em fala

Esse artigo responde a perguntas frequentes sobre o recurso de conversão de texto em fala (TTS). Caso não encontre respostas para suas perguntas aqui, confira outras opções de suporte.

Geral

Como funciona a cobrança da conversão de texto em fala?

O uso da conversão de texto em fala é cobrado por caractere. Verifique a definição de caracteres faturáveis na nota de preços.

Qual é o limite de taxa para as solicitações de síntese da conversão de texto em fala?

A taxa de síntese da conversão de texto em fala é dimensionada automaticamente à medida que recebe mais solicitações. Um limite de taxa padrão é definido por recurso de fala. A taxa é ajustável com justificativas comerciais e nenhum encargo extra é incorrido para o aumento do limite de taxa. Confira mais detalhes em Cotas e limites do serviço de Fala.

Como revelaríamos ao usuário final que a voz é uma voz sintética?

Recomendamos que todos os usuários sigam nosso código de conduta ao usar o recurso de conversão de texto em fala. Há várias maneiras de divulgar a natureza sintética da voz, incluindo crédito implícito e explícito. Consulte as Diretrizes de design de divulgação.

Como posso reduzir a latência do meu aplicativo de voz?

Fornecemos várias dicas para que você reduza a latência e ofereça o melhor desempenho para seus usuários. Confira Menor latência de síntese de fala usando o SDK de Fala.

Quais formatos de saída de áudio a conversão de texto em fala suporta?

A conversão de texto em fala da IA do Azure oferece suporte a vários formatos de áudio de streaming e não streaming, com as taxas de amostragem mais usadas. Todas as vozes padrão do TTS são criadas para dar suporte a saídas de áudio de alta fidelidade com 48 kHz e 24 kHz. O áudio pode ser reamostrado para suportar outras taxas conforme necessário. Confira Saídas de áudio.

A voz pode ser personalizada para enfatizar palavras específicas?

Há suporte para ajustar a ênfase de algumas vozes, dependendo da localidade. Confira a marca de ênfase.

Podemos ter várias intensidades para cada emoção, como triste, um pouco triste, e assim por diante, certo?

Algumas vozes suportam o ajuste do grau de estilo, dependendo da localidade. Confira a marca mstts:express-as.

Há um mapeamento entre as IDs do Visema e o formato da boca?

Criação de Conteúdo de Áudio

Como fazer referência a um arquivo de léxico que criei na plataforma de Criação de Conteúdo de Áudio no meu código?

Primeiro, você pode abrir o arquivo de léxico na Criação de Conteúdo de Áudio e obter a ID do arquivo de léxico, que está localizada antes de "?fileKind=CustomLexiconFile" no caminho do arquivo. Por exemplo, se o caminho do arquivo for https://speech.microsoft.com/portal/d391a094f76846acbcd11dc2ba835f4f/audiocontentcreation/file/6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c?fileKind=CustomLexiconFile, a ID do arquivo de léxico será 6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c. Em seguida, alterne um arquivo que referencia esse léxico para o formato SSML na Criação de Conteúdo de Áudio. No arquivo SSML, localize o nó XML <!--ID=FCB, onde você pode encontrar o URI do arquivo de léxico com base na ID do arquivo mencionado. Por fim, faça referência ao link do URI do arquivo de léxico usando o elemento léxico SSML em seu código. Por exemplo, se você localizar o nó XML <!--ID=FCB5B6FB566-33CA-4B68-BEAF-B013C53B3368;Version=1|{"Files":{"6cbc2527-8d57-4c1b-b9d9-3ea6d13ca95c":{"FileKind":"CustomLexiconFile","FileSubKind":"CustomLexiconFile","Uri":"https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml"}}}, poderá obter o URI https://cvoiceprodwus2.blob.core.windows.net/acc-public-files/d391a094f76846acbcd11dc2ba835f4f/e9a6a5a2-9cef-47f4-b961-d175be75d92f.xml do arquivo de léxico.

Ajuste de voz profissional

Quantos dados são necessários para ajuste de voz profissional?

Você precisa de dados de treinamento de pelo menos 300 linhas de gravações (ou aproximadamente 30 minutos de fala) para ajuste de voz profissional. Recomendamos que 2.000 linhas de gravações (ou aproximadamente 2 a 3 horas de fala) criem uma voz para uso em produção. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

Podemos incluir frases de texto duplicadas no mesmo conjunto de dados de treinamento?

Não. O serviço sinalizará as frases duplicadas e apenas manterá a primeira importada. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

Podemos incluir vários estilos no mesmo conjunto de dados de treinamento?

Recomendamos que você mantenha o estilo consistente em um conjunto de dados de treinamento. Se os estilos forem diferentes, coloque-os em diferentes conjuntos de treinamento. Nesse caso, considere usar o método de treinamento de vários estilos de ajuste de voz profissional. Para obter os critérios de seleção de script, confira Registrar exemplos de voz personalizada.

A troca de estilos por meio de SSML funciona para vozes personalizadas?

Alternar estilos por meio de SSML funciona para vozes padrão de vários estilos e vozes personalizadas de vários estilos. Com o treinamento de vários estilos, você pode criar uma voz que fale em estilos diferentes e também pode ajustar esses estilos por meio do SSML.

Como a voz multilíngue funciona com línguas que têm estrutura de pronúncia e plateia diferentes?

A estrutura e a pronúncia de frases variam naturalmente entre idiomas como inglês e japonês. Cada voz neural é treinada com dados de áudio gravados pelo talento de voz de fala nativa. Para voz multilíngue, transferimos os principais recursos como timbre para soar como o falante original e preservar a pronúncia certa. Por exemplo, uma voz multilíngue usa a maneira nativa de falar japonês e ainda soa semelhante (mas não exatamente) como o falante de inglês original.

Posso usar o ajuste de voz profissional para personalizar a pronúncia para meu domínio?

O ajuste de voz profissional permite que você crie uma voz de marca para sua empresa. Você também pode otimizá-la para seu domínio. Recomendamos que você inclua exemplos específicos do domínio em seus dados de treinamento para maior naturalidade. No entanto, a pronúncia é definida pelo serviço de Fala por padrão. Não damos suporte à personalização de pronúncia com ajuste de voz profissional. Se você quiser personalizar a pronúncia da sua voz, use o SSML. Confira Pronúncia com Linguagem de Marcação de Síntese de Fala (SSML).

Depois de um treinamento posso treinar minha voz de novo?

Você pode treinar novamente. Cada treinamento cria um novo modelo de voz. Você é cobrado por cada treinamento.

A versão do modelo é igual à versão do mecanismo?

Não. A versão do modelo é diferente da versão do mecanismo. A versão do modelo significa a versão da receita de treinamento do seu modelo e varia de acordo com os recursos compatíveis e o tempo de treinamento do modelo. Os mecanismos de conversão de texto em fala dos serviços de IA do Azure são atualizados periodicamente para capturar o modelo de idioma mais recente que define a pronúncia do idioma. Depois de treinar sua voz, você poderá aplicar sua voz ao novo modelo de linguagem atualizando para a versão mais recente do mecanismo. Quando um novo mecanismo está disponível, você é solicitado a atualizar seu modelo de voz neural. Confira Atualizar a versão do mecanismo do seu modelo de voz.

Podemos limitar o número de treinamentos usando o Azure Policy ou outros recursos? Ou há alguma maneira de evitar treinamento falso?

Se você quiser limitar a permissão ao treinamento, poderá limitar o acesso e as funções de usuário. Consulte Controle de acesso baseado em função para recursos de Fala.

A Microsoft pode adicionar um mecanismo para impedir o uso não autorizado ou o uso indevido de nossa voz quando ela é criada?

O modelo de voz só pode ser usado por você usando seu próprio token. A Microsoft também não usa seus dados. Confira Dados, privacidade e segurança. Você também pode solicitar a adição de marcas d'água à sua voz para proteger seu modelo. Confira O Microsoft Azure Neural TTS apresenta o algoritmo de marca d'água para identificação de voz sintética.

Você tem alguma dica sobre contratos ou negociação com dubladores?

Não temos recomendações sobre contratos e cabe ao cliente e ao talento de voz negociar os termos. No entanto, você deve certificar-se de que o locutor entenda os recursos de conversão de texto em fala, incluindo seus riscos potenciais, e fornecer consentimento explícito para criar uma versão sintética de sua voz tanto no contrato quanto em uma declaração verbal. Confira Divulgação para obter talentos de voz.

Precisamos devolver a permissão por escrito do talento de voz de volta para a Microsoft?

A Microsoft não precisa de permissão por escrito, mas você deve obter o consentimento do seu talento de voz. O talento de voz também será necessário para gravar a instrução de consentimento e ele deve ser carregado no Speech Studio antes do treinamento começar. Veja Configurar o talento de voz para ajuste de voz profissional.