O que é text-to-speech?

Nesta visão geral, você aprenderá sobre os benefícios e os recursos do recurso de conversão de texto em fala do serviço de Fala, que faz parte dos serviços de IA do Azure.

Conversão de texto em fala permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada como humana. A capacidade de conversão de texto em fala também é conhecida como síntese de fala. Use vozes neurais humanas como pré-construídas prontas para uso ou crie uma voz neural personalizada que seja exclusiva do seu produto ou marca. Para obter uma lista completa de vozes, idiomas e localidades suportados, consulte Suporte de idioma e voz para o serviço de fala.

Principais características

Conversão de texto em fala inclui os seguintes recursos:

Funcionalidade Resumo Demo
Voz neural pré-construída (chamada Neural na página de preços) Vozes altamente naturais e prontas a usar. Crie uma conta do Azure e uma assinatura do serviço de Fala e use o SDK de Fala ou visite o portal do Speech Studio e selecione vozes neurais pré-criadas para começar. Verifique os detalhes de preços. Verifique a Galeria de Vozes e determine a voz certa para as necessidades da sua empresa.
Voz neural personalizada (chamada de Neural personalizada na página de preços) Autosserviço fácil de usar para criar uma voz natural da marca, com acesso limitado para uso responsável. Crie uma conta do Azure e uma assinatura do serviço de Fala (com a camada S0) e candidate-se para usar o recurso neural personalizado. Depois de conceder acesso, visite o portal do Speech Studio e selecione Voz personalizada para começar. Verifique os detalhes de preços. Verifique as amostras de voz.

Mais sobre recursos neurais de texto para fala

Texto para fala usa redes neurais profundas para tornar as vozes dos computadores quase indistinguíveis das gravações de pessoas. Com a articulação clara de palavras, o texto neural para a fala reduz significativamente a fadiga auditiva quando os usuários interagem com sistemas de IA.

Os padrões de estresse e entonação na linguagem falada são chamados de prosódia. Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em etapas separadas de análise linguística e previsão acústica regidas por modelos independentes. Isso pode resultar em síntese de voz abafada e zumbido.

Aqui estão mais informações sobre os recursos neurais de texto para fala no serviço de fala e como eles superam os limites dos sistemas tradicionais de texto para fala:

  • Síntese de fala em tempo real: use o SDK de fala ou a API REST para converter texto em fala usando vozes neurais pré-construídas ou vozes neurais personalizadas.

  • Síntese assíncrona de áudio longo: use a API de síntese em lote (Preview) para sintetizar de forma assíncrona arquivos de texto para fala com mais de 10 minutos (por exemplo, audiolivros ou palestras). Ao contrário da síntese realizada por meio do SDK de fala ou da API REST de fala para texto, as respostas não são retornadas em tempo real. A expectativa é que as solicitações sejam enviadas de forma assíncrona, as respostas sejam pesquisadas e o áudio sintetizado seja baixado quando o serviço o disponibilizar.

  • Vozes neurais pré-construídas: A capacidade de texto neural para fala da Microsoft usa redes neurais profundas para superar os limites da síntese de fala tradicional em relação ao estresse e entonação na linguagem falada. A previsão da prosódia e a síntese da voz acontecem simultaneamente, o que resulta em saídas mais fluidas e com som natural. Cada modelo de voz neural pré-construído está disponível a 24 kHz e de alta fidelidade a 48 kHz. Você pode usar vozes neurais para:

    • Torne as interações com chatbots e assistentes de voz mais naturais e envolventes.
    • Converta textos digitais, como e-books, em audiolivros.
    • Melhore os sistemas de navegação no automóvel.

    Para obter uma lista completa de vozes neurais da plataforma, consulte Suporte de idioma e voz para o serviço de fala.

  • Ajustando texto para saída de fala com SSML: Speech Synthesis Markup Language (SSML) é uma linguagem de marcação baseada em XML usada para personalizar saídas de texto para fala. Com o SSML, você pode ajustar o tom, adicionar pausas, melhorar a pronúncia, alterar a taxa de fala, ajustar o volume e atribuir várias vozes a um único documento.

    Você pode usar SSML para definir seus próprios léxicos ou mudar para diferentes estilos de fala. Com as vozes multilingues, também pode ajustar as línguas faladas através do SSML. Para ajustar a saída de voz para o seu cenário, consulte Melhorar a síntese com a linguagem de marcação de síntese de fala e a síntese de fala com a ferramenta de criação de conteúdo de áudio.

  • Visemes: Visemes são as posições-chave na fala observada, incluindo a posição dos lábios, mandíbula e língua na produção de um fonema específico. Visemes têm uma forte correlação com vozes e fonemas.

    Usando eventos viseme no Speech SDK, você pode gerar dados de animação facial. Esses dados podem ser usados para animar rostos em comunicação de leitura labial, educação, entretenimento e atendimento ao cliente. Atualmente, o Viseme é suportado apenas para as en-US vozes neurais (inglês dos EUA).

Nota

Planejamos aposentar as vozes tradicionais/padrão e as vozes personalizadas não neurais em 2024. Depois disso, não vamos mais apoiá-los.

Se seus aplicativos, ferramentas ou produtos estiverem usando qualquer uma das vozes padrão e vozes personalizadas, você deverá migrar para a versão neural. Para obter mais informações, consulte Migrar para vozes neurais.

Começar

Para começar a usar a conversão de texto em fala, consulte o Guia de início rápido. A conversão de texto em fala está disponível por meio do SDK de fala, da API REST e da CLI de fala.

Gorjeta

Para converter texto em fala com uma abordagem sem código, experimente a ferramenta de criação de conteúdo de áudio no Speech Studio.

Código de exemplo

O código de exemplo para conversão de texto em fala está disponível no GitHub. Estes exemplos abrangem a conversão de texto em fala nas linguagens de programação mais populares:

Voz neural personalizada

Além de vozes neurais pré-construídas, você pode criar e ajustar vozes neurais personalizadas que são exclusivas do seu produto ou marca. Tudo o que é preciso para começar é um punhado de arquivos de áudio e as transcrições associadas. Para obter mais informações, consulte Introdução à voz neural personalizada.

Nota de preços

Caracteres faturáveis

Ao usar o recurso de conversão de texto em fala, você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja faturável, os elementos opcionais usados para ajustar a forma como o texto é convertido em fala, como fonemas e pitch, são contados como caracteres faturáveis. Aqui está uma lista do que é faturável:

  • Texto passado para o recurso de texto em fala no corpo SSML da solicitação
  • Todas as marcações dentro do campo de texto do corpo da solicitação no formato SSML, exceto para <speak> e <voice> tags
  • Letras, pontuação, espaços, tabulações, marcação e todos os caracteres de espaço em branco
  • Cada ponto de código definido em Unicode

Para obter informações detalhadas, consulte Preços do serviço de fala.

Importante

Cada caractere chinês é contado como dois caracteres para faturamento, incluindo kanji usado em japonês, hanja usado em coreano ou hanzi usado em outros idiomas.

Modele o tempo de treinamento e hospedagem para voz neural personalizada

O treinamento de voz neural personalizado e a hospedagem são calculados por hora e cobrados por segundo. Para obter o preço unitário de faturamento, consulte Preço do serviço de fala.

O tempo de treinamento de voz neural personalizada (CNV) é medido por 'hora de computação' (uma unidade para medir o tempo de funcionamento da máquina). Normalmente, ao treinar um modelo de voz, duas tarefas de computação são executadas em paralelo. Assim, as horas de computação calculadas são maiores do que o tempo real de treinamento. Em média, leva menos de uma hora de computação para treinar uma voz CNV Lite; enquanto para o CNV Pro, geralmente leva de 20 a 40 horas de computação para treinar uma voz de estilo único e cerca de 90 horas de computação para treinar uma voz multiestilo. O tempo de treinamento CNV é cobrado com um limite de 96 horas de computação. Assim, no caso de um modelo de voz ser treinado em 98 horas de computação, você só será cobrado com 96 horas de computação.

A hospedagem de ponto final de voz neural personalizada (CNV) é medida pelo tempo real (hora). O tempo de hospedagem (horas) para cada ponto final é calculado às 00:00 UTC todos os dias nas 24 horas anteriores. Por exemplo, se o ponto de extremidade estiver ativo por 24 horas no primeiro dia, ele será cobrado por 24 horas às 00:00 UTC do segundo dia. Se o ponto de extremidade for recém-criado ou suspenso durante o dia, ele será cobrado pelo tempo de execução acumulado até às 00:00 UTC do segundo dia. Se o ponto de extremidade não estiver hospedado no momento, ele não será cobrado. Além do cálculo diário às 00:00 UTC de cada dia, a cobrança também é acionada imediatamente quando um ponto de extremidade é excluído ou suspenso. Por exemplo, para um ponto de extremidade criado às 08:00 UTC de 1 de dezembro, a hora de hospedagem será calculada para 16 horas às 00:00 UTC de 2 de dezembro e 24 horas às 00:00 UTC de 3 de dezembro. Se o usuário suspender a hospedagem do endpoint às 16:30 UTC de 3 de dezembro, a duração (16,5 horas) das 00:00 às 16:30 UTC de 3 de dezembro será calculada para faturamento.

Documentos de referência

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Próximos passos