O que é conversão de texto em fala?

Artigo
01/28/2024

Nesta visão geral, você saberá mais sobre os benefícios e as funcionalidades do recurso de conversão de texto em fala do serviço de Fala, que faz parte dos Serviços de IA do Azure.

A conversão de texto em fala permite que seus aplicativos, suas ferramentas ou seus dispositivos convertam um texto em uma fala sintetizada semelhante à humana. A funcionalidade de conversão de texto em fala também é conhecida como sintetização de voz. Use vozes neurais pré-compiladas de origem humana ou crie uma voz neural personalizada que seja exclusiva de seu produto ou marca. Para obter uma lista completa de vozes, idiomas e localidades com suporte, confira Suporte de idiomas e vozes do serviço de Fala.

Principais recursos

A conversão de texto em fala inclui os seguintes recursos:

Recurso	Resumo	Demonstração
Sintetização de voz predefinida (chamada Neural na página de preços)	Vozes altamente naturais prontas para uso. Crie uma conta do Azure e uma assinatura do serviço de Fala. Em seguida, use o SDK de Fala ou acesse o portal do Speech Studio e selecione a sintetização de vozes predefinidas para começar. Verifique os detalhes de preços.	Confira a Galeria de Vozes e determine a voz certa para suas necessidades comerciais.
Sintetização de voz personalizada (chamada Neural Personalizada na página de preços)	Autoatendimento fácil de usar para criar uma voz de marca natural, com acesso limitado para uso responsável. Crie uma conta do Azure e uma assinatura do serviço de Fala (com a camada S0) e registre-se para usar o recurso neural personalizado. Depois de obter acesso, visite o portal do Speech Studio e selecione Voz personalizada para começar. Verifique os detalhes de preços.	Confira os exemplos de vozes.

Saiba mais sobre os recursos da conversão de texto em fala neural

A conversão de texto em fala usa redes neurais profundas para tornar as vozes dos computadores quase indistinguíveis das gravações de pessoas. Com uma articulação clara das palavras, a conversão de texto em fala neural reduz consideravelmente a fadiga de escuta quando os usuários interagem com sistemas de IA.

Os padrões de ênfase e entonação na linguagem falada são chamados de prosódia. Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em etapas separadas de análise linguística e previsão acústica que são governadas por modelos independentes. Isso pode resultar em uma voz sintética abafada e confusa.

Veja mais informações sobre os recursos de conversão de texto em fala neural no serviço de Fala e como eles superam os limites dos sistemas tradicionais de conversão de texto em fala:

Sintetização de voz em tempo real: use o SDK de Fala ou a API REST para converter um texto em fala usando vozes neurais predefinidas ou vozes neurais personalizadas.
Síntese assíncrona de áudio longo: use a API de síntese em lotes para sintetizar de maneira assíncrona arquivos de conversão de texto em fala com mais de 10 minutos (por exemplo, audiolivros ou palestras). Ao contrário da sintetização feita com o SDK de Fala ou a API REST de Conversão de fala em texto, as respostas não são retornadas em tempo real. A expectativa é que as solicitações sejam enviadas de maneira assíncrona, que as respostas sejam sondadas e que o áudio sintetizado seja baixado quando disponibilizado pelo serviço.
Vozes neurais pré-compiladas: O recurso de conversão de texto em fala neural da Microsoft usa redes neurais profundas para superar os limites da síntese de fala tradicional em relação à acentuação e entonação no idioma falado. A previsão de prosódia e a sintetização de voz ocorrem simultaneamente, o que produz resultados mais fluidos e naturais. Cada modelo de voz neural pré-compilado está disponível em 24 kHz e em 48 kHz de alta fidelidade. Você pode usar a sintetização de vozes para:
- Fazer interações mais naturais e interessantes com chatbots e assistentes de voz.
- Converter textos digitais, como livros eletrônicos, em audiolivros.
- Aprimorar sistemas de navegação no carro.
Para obter uma lista completa da sintetização de vozes da plataforma, confira Suporte de idioma e vozes do serviço de Fala.
Ajuste da saída da conversão de texto em fala com SSML - Linguagem de Marcação de Síntese de Fala (SSML) é uma linguagem de marcação baseada em XML usada para personalizar saídas de conversão de texto em fala. Com a SSML, é possível ajustar o timbre, adicionar pausas, aprimorar a pronúncia, alterar a velocidade da fala, ajustar o volume e atribuir várias vozes a um documento individual.

Você pode usar a SSML para definir léxicos próprios ou mudar para estilos de fala diferentes. Com as vozes multilíngues, você também pode ajustar os idiomas de fala por meio da SSML. Para ajustar a saída de voz para o seu cenário, confira Aprimorar a síntese com a Linguagem de Marcação de Síntese de Fala e Síntese de fala com a ferramenta Criação de Conteúdo de Áudio.
Visemas: visemas são poses básicas da fala observada, como a posição dos lábios, da mandíbula e da língua ao produzir um fonema específico. Os visemes têm uma forte correlação com vozes e fonemas.

Usando eventos de visema no SDK de Fala, você pode gerar dados de animação facial. Esses dados podem ser usados para animar rostos em comunicação, educação, entretenimento e serviço de atendimento ao cliente com leitura labial. Atualmente, só há suporte para visemas na sintetização de vozes (inglês dos EUA) en-US.

Observação

Planejamos desativar as vozes tradicionais/padrão e a voz personalizada não sintetizada em 2024. Após esse período, deixaremos de dar suporte a elas.

Se houver aplicativos, ferramentas ou produtos usando as vozes padrão e as vozes personalizadas, migre para a versão neural. Para saber mais, confira Migrar para sintetização de vozes.

Introdução

Para começar a usar a conversão de texto em fala, confira o guia de início rápido. A conversão de texto em fala está disponível por meio do SDK de Fala, da API REST e da CLI de Fala.

Dica

Para converter texto em fala com uma abordagem sem código, experimente a ferramenta Criação de Conteúdo de Áudio no Speech Studio.

Código de exemplo

Há um código de exemplo disponível no GitHub para a conversão de texto em fala. Esses exemplos abordam a conversão de texto em fala nas linguagens de programação mais populares:

Sintetização de voz personalizada

Além da sintetização de vozes predefinidas, é possível criar e refinar a sintetização de vozes personalizadas exclusivas do seu produto ou da sua marca. Para começar, bastam alguns arquivos de áudio e as transcrições deles. Para saber mais, confira Introdução à sintetização de voz personalizada.

Observação sobre os preços

Caracteres faturáveis

Ao usar o recurso de conversão de texto em fala, você é cobrado por caractere convertido em fala, incluindo a pontuação. Embora o documento SSML em si não seja faturável, os elementos opcionais usados para ajustar a forma como o texto é convertido em fala, como fonemas e tom, são contados como caracteres faturáveis. Veja uma lista de itens faturáveis:

Texto transmitido para o recurso de conversão de texto em fala no corpo SSML da solicitação
Todas as marcações dentro do campo de texto do corpo da solicitação no formato SSML, exceto as marcas <speak> e <voice>
Letras, pontuação, espaços, tabulações, marcação e todos os caracteres de espaço em branco
Cada ponto de código definido no Unicode

Para obter informações detalhadas, confira Preços do serviço de Fala.

Importante

Cada caractere chinês é contado como dois caracteres para cobrança, incluindo o kanji usado no japonês, o hanja usado no coreano ou o hanzi usado em outros idiomas.

Tempo de treinamento e hospedagem do modelo para a sintetização de voz personalizada

O treinamento e a hospedagem da sintetização de voz personalizada são calculados por hora e cobrados por segundo. Para obter o preço unitário da cobrança, consulte Preços do serviço de Fala.

O tempo de treinamento da CNV (sintetização de voz personalizada) é medido por "hora de computação" (uma unidade para medir o tempo de execução do computador). Normalmente, ao treinar um modelo de voz, duas tarefas de computação são executadas em paralelo. Portanto, as horas de computação calculadas serão maiores do que o tempo real de treinamento. Em média, leva menos de uma hora de computação para treinar uma voz da CNV Lite; enquanto para a CNV Pro, geralmente leva de 20 a 40 horas de computação para treinar uma voz de estilo único e cerca de 90 horas de computação para treinar uma voz de vários estilos. O tempo de treinamento da CNV é cobrado com um limite de 96 horas de computação. Portanto, no caso de um modelo de voz ser treinado em 98 horas de computação, você só será cobrado 96 horas de computação.

A hospedagem do ponto de extremidade da CNV (sintetização de voz personalizada) é medida pelo tempo real (hora). O tempo de hospedagem (horas) para cada ponto de extremidade é calculado às 00:00 UTC todos os dias nas 24 horas anteriores. Por exemplo, se o ponto de extremidade estiver ativo por 24 horas no primeiro dia, ele será cobrado por 24 horas às 00:00 UTC no segundo dia. Se o ponto de extremidade for criado recentemente ou suspenso durante o dia, ele será cobrado pelo tempo de execução acumulado até as 00:00 UTC do segundo dia. Se o ponto de extremidade não estiver hospedado no momento, ele não será cobrado. Além do cálculo diário às 00:00 UTC por dia, a cobrança também é disparada imediatamente quando um ponto de extremidade é excluído ou suspenso. Por exemplo, para um ponto de extremidade criado às 08:00 UTC em 1º de dezembro, a hora de hospedagem será calculada para 16 horas às 00:00 UTC em 2 de dezembro e 24 horas às 00:00 UTC em 3 de dezembro. Se o usuário suspender a hospedagem do ponto de extremidade às 16:30 UTC em 3 de dezembro, a duração (16,5 horas) de 00:00 às 16:30 UTC em 3 de dezembro será calculada para cobrança.

Documentos de Referência

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, que serão afetadas por ela e o ambiente em que ela foi implantada. Leia as notas de transparência para saber mais sobre o uso e a implantação de IA responsável em seus sistemas.

Compartilhar via