O que é text-to-speech?

Artigo
09/24/2024

Nesta visão geral, você aprenderá sobre os benefícios e os recursos do recurso de conversão de texto em fala do serviço de Fala, que faz parte dos serviços de IA do Azure.

Conversão de texto em fala permite que seus aplicativos, ferramentas ou dispositivos convertam texto em fala sintetizada como humana. A capacidade de conversão de texto em fala também é conhecida como síntese de fala. Use vozes neurais humanas como pré-construídas prontas para uso ou crie uma voz neural personalizada que seja exclusiva do seu produto ou marca. Para obter uma lista completa de vozes, idiomas e localidades suportados, consulte Suporte de idioma e voz para o serviço de fala.

Principais características

Conversão de texto em fala inclui os seguintes recursos:

Caraterística	Resumo	Demonstração
Voz neural pré-construída (chamada Neural na página de preços)	Vozes altamente naturais e prontas a usar. Crie uma assinatura do Azure e um recurso de Fala e use o SDK de Fala ou visite o portal do Speech Studio e selecione vozes neurais pré-criadas para começar. Verifique os detalhes de preços.	Verifique a Galeria de Vozes e determine a voz certa para as necessidades da sua empresa.
Voz neural personalizada (chamada de Neural personalizada na página de preços)	Autosserviço fácil de usar para criar uma voz natural da marca, com acesso limitado para uso responsável. Crie uma assinatura do Azure e um recurso de Fala (com a camada S0) e candidate-se para usar o recurso de voz personalizado. Depois de conceder acesso, visite o portal do Speech Studio e selecione Voz personalizada para começar. Verifique os detalhes de preços.	Verifique as amostras de voz.

Mais sobre recursos neurais de texto para fala

Texto para fala usa redes neurais profundas para tornar as vozes dos computadores quase indistinguíveis das gravações de pessoas. Com a articulação clara de palavras, o texto neural para a fala reduz significativamente a fadiga auditiva quando os usuários interagem com sistemas de IA.

Os padrões de estresse e entonação na linguagem falada são chamados de prosódia. Os sistemas tradicionais de conversão de texto em fala dividem a prosódia em etapas separadas de análise linguística e previsão acústica regidas por modelos independentes. Isso pode resultar em síntese de voz abafada e zumbido.

Aqui estão mais informações sobre os recursos neurais de texto para fala no serviço de fala e como eles superam os limites dos sistemas tradicionais de texto para fala:

Síntese de fala em tempo real: use o SDK de fala ou a API REST para converter texto em fala usando vozes neurais pré-construídas ou vozes neurais personalizadas.
Síntese assíncrona de áudio longo: use a API de síntese em lote para sintetizar de forma assíncrona arquivos de texto para fala com mais de 10 minutos (por exemplo, livros de áudio ou palestras). Ao contrário da síntese realizada por meio do SDK de fala ou da API REST de fala para texto, as respostas não são retornadas em tempo real. A expectativa é que as solicitações sejam enviadas de forma assíncrona, as respostas sejam pesquisadas e o áudio sintetizado seja baixado quando o serviço o disponibilizar.
Vozes neurais pré-construídas: o Azure AI Speech usa redes neurais profundas para superar os limites da síntese de fala tradicional em relação ao estresse e à entonação na linguagem falada. A previsão da prosódia e a síntese da voz acontecem simultaneamente, o que resulta em saídas mais fluidas e com som natural. Cada modelo de voz neural pré-construído está disponível a 24 kHz e de alta fidelidade a 48 kHz. Você pode usar vozes neurais para:
- Torne as interações com chatbots e assistentes de voz mais naturais e envolventes.
- Converta textos digitais, como e-books, em audiolivros.
- Melhore os sistemas de navegação no automóvel.
Para obter uma lista completa de vozes neurais da plataforma, consulte Suporte de idioma e voz para o serviço de fala.
Melhorar a saída de texto para fala com SSML: Speech Synthesis Markup Language (SSML) é uma linguagem de marcação baseada em XML usada para personalizar saídas de texto para fala. Com o SSML, você pode ajustar o tom, adicionar pausas, melhorar a pronúncia, alterar a taxa de fala, ajustar o volume e atribuir várias vozes a um único documento.

Você pode usar SSML para definir seus próprios léxicos ou mudar para diferentes estilos de fala. Com as vozes multilingues, também pode ajustar as línguas faladas através do SSML. Para melhorar a saída de voz para o seu cenário, consulte Melhorar a síntese com a linguagem de marcação de síntese de fala e a síntese de fala com a ferramenta de criação de conteúdo de áudio.
Visemes: Visemes são as posições-chave na fala observada, incluindo a posição dos lábios, mandíbula e língua na produção de um fonema específico. Visemes têm uma forte correlação com vozes e fonemas.

Usando eventos viseme no Speech SDK, você pode gerar dados de animação facial. Esses dados podem ser usados para animar rostos em comunicação de leitura labial, educação, entretenimento e atendimento ao cliente. Atualmente, o Viseme é suportado apenas para as en-US vozes neurais (inglês dos EUA).

Nota

Planejamos aposentar as vozes tradicionais/padrão e as vozes personalizadas não neurais em 2024. Depois disso, não vamos mais apoiá-los.

Se seus aplicativos, ferramentas ou produtos estiverem usando qualquer uma das vozes padrão e vozes personalizadas, você deverá migrar para a versão neural. Para obter mais informações, consulte Migrar para vozes neurais.

Começar agora

Para começar a usar a conversão de texto em fala, consulte o Guia de início rápido. A conversão de texto em fala está disponível por meio do SDK de fala, da API REST e da CLI de fala.

Gorjeta

Para converter texto em fala com uma abordagem sem código, experimente a ferramenta de criação de conteúdo de áudio no Speech Studio.

Código de exemplo

O código de exemplo para conversão de texto em fala está disponível no GitHub. Estes exemplos abrangem a conversão de texto em fala nas linguagens de programação mais populares:

Voz neural personalizada

Além de vozes neurais pré-construídas, você pode criar vozes neurais personalizadas que são exclusivas para seu produto ou marca. Tudo o que é preciso para começar é um punhado de arquivos de áudio e as transcrições associadas. Para obter mais informações, consulte Introdução à voz neural personalizada.

Nota de preços

Caracteres faturáveis

Ao usar o recurso de conversão de texto em fala, você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja faturável, os elementos opcionais usados para ajustar a forma como o texto é convertido em fala, como fonemas e pitch, são contados como caracteres faturáveis. Aqui está uma lista do que é faturável:

Texto passado para o recurso de texto em fala no corpo SSML da solicitação
Todas as marcações dentro do campo de texto do corpo da solicitação no formato SSML, exceto para <speak> e <voice> tags
Letras, pontuação, espaços, tabulações, marcação e todos os caracteres de espaço em branco
Cada ponto de código definido em Unicode

Para obter informações detalhadas, consulte Preços do serviço de fala.

Importante

Cada caractere chinês é contado como dois caracteres para faturamento, incluindo kanji usado em japonês, hanja usado em coreano ou hanzi usado em outros idiomas.

Modele o tempo de treinamento e hospedagem para voz neural personalizada

O treinamento de voz neural personalizado e a hospedagem são calculados por hora e cobrados por segundo. Para obter o preço unitário de faturamento, consulte Preço do serviço de fala.

O tempo de treinamento de voz neural personalizada (CNV) é medido por 'hora de computação' (uma unidade para medir o tempo de funcionamento da máquina). Normalmente, ao treinar um modelo de voz, duas tarefas de computação são executadas em paralelo. Assim, as horas de computação calculadas são maiores do que o tempo real de treinamento. Em média, leva menos de uma hora de computação para treinar uma voz CNV Lite; enquanto para o CNV Pro, geralmente leva de 20 a 40 horas de computação para treinar uma voz de estilo único e cerca de 90 horas de computação para treinar uma voz multiestilo. O tempo de treinamento CNV é cobrado com um limite de 96 horas de computação. Assim, no caso de um modelo de voz ser treinado em 98 horas de computação, você só será cobrado com 96 horas de computação.

A hospedagem de ponto final de voz neural personalizada (CNV) é medida pelo tempo real (hora). O tempo de hospedagem (horas) para cada ponto final é calculado às 00:00 UTC todos os dias nas 24 horas anteriores. Por exemplo, se o ponto de extremidade estiver ativo por 24 horas no primeiro dia, ele será cobrado por 24 horas às 00:00 UTC do segundo dia. Se o ponto de extremidade for recém-criado ou suspenso durante o dia, ele será cobrado pelo tempo de execução acumulado até às 00:00 UTC do segundo dia. Se o ponto de extremidade não estiver hospedado no momento, ele não será cobrado. Além do cálculo diário às 00:00 UTC de cada dia, a cobrança também é acionada imediatamente quando um ponto de extremidade é excluído ou suspenso. Por exemplo, para um ponto de extremidade criado às 08:00 UTC de 1 de dezembro, a hora de hospedagem será calculada para 16 horas às 00:00 UTC de 2 de dezembro e 24 horas às 00:00 UTC de 3 de dezembro. Se o usuário suspender a hospedagem do endpoint às 16:30 UTC de 3 de dezembro, a duração (16,5 horas) das 00:00 às 16:30 UTC de 3 de dezembro será calculada para faturamento.

Voz pessoal

Quando você usa o recurso de voz pessoal, você é cobrado pelo armazenamento de perfil e pela síntese.

Armazenamento de perfil: depois que um perfil de voz pessoal for criado, ele será cobrado até ser removido do sistema. A unidade de faturamento é por voz por dia. Se o armazenamento de voz durar um período inferior a 24 horas, será cobrado como um dia inteiro.
Síntese: Faturado por personagem. Para obter detalhes sobre caracteres faturáveis, consulte os caracteres faturáveis acima.

Avatar de texto para fala

Ao usar o recurso de avatar de conversão de texto em fala, as cobranças serão incorridas com base na duração da saída de vídeo e serão cobradas por segundo. No entanto, para o avatar em tempo real, as cobranças são baseadas no tempo em que o avatar está ativo, independentemente de estar falando ou permanecendo em silêncio, e também serão cobradas por segundo. Para otimizar os custos para o uso de avatares em tempo real, consulte as dicas fornecidas no código de exemplo (pesquise "Usar vídeo local para ocioso"). A hospedagem de avatar é cobrada por segundo por ponto de extremidade. Você pode suspender seu endpoint para economizar custos. Se quiser suspender seu ponto de extremidade, você pode excluí-lo diretamente. Para usá-lo novamente, basta reimplantar o ponto de extremidade.

Monitorar métricas de texto para fala do Azure

O monitoramento das principais métricas associadas aos serviços de conversão de texto em fala é crucial para gerenciar o uso de recursos e controlar os custos. Esta seção irá guiá-lo sobre como encontrar informações de uso no portal do Azure e fornecer definições detalhadas das principais métricas. Para obter mais detalhes sobre as métricas de monitor do Azure, consulte Visão geral do Azure Monitor Metrics.

Como encontrar informações de uso no portal do Azure

Para gerir eficazmente os seus recursos do Azure, é essencial aceder e rever as informações de utilização regularmente. Veja como encontrar as informações de uso:

Vá para o portal do Azure e entre com sua conta do Azure.
Navegue até Recursos e selecione o recurso que deseja monitorar.
Selecione Métricas em Monitoramento no menu à esquerda.
Personalize visualizações métricas.

Você pode filtrar dados por tipo de recurso, tipo de métrica, intervalo de tempo e outros parâmetros para criar exibições personalizadas que se alinham com suas necessidades de monitoramento. Além disso, você pode salvar a visualização de métricas em painéis selecionando Salvar no painel para facilitar o acesso às métricas usadas com freqüência.
Configure alertas.

Para gerenciar o uso de forma mais eficaz, configure alertas navegando até a guia Alertas em Monitoramento no menu à esquerda. Os alertas podem notificá-lo quando a sua utilização atingir limites específicos, ajudando a evitar custos inesperados.

Definição de métricas

Abaixo está uma tabela resumindo as principais métricas para os serviços de texto para fala do Azure.

Nome da métrica	Descrição
Caracteres sintetizados	Rastreia o número de caracteres convertidos em fala, incluindo voz neural pré-construída e voz neural personalizada. Para obter detalhes sobre caracteres faturáveis, consulte Caracteres faturáveis.
Segundos de vídeo sintetizados	Mede a duração total do vídeo sintetizado, incluindo síntese de avatar em lote, síntese de avatar em tempo real e síntese de avatar personalizado.
Avatar Model Hosting Seconds	Rastreia o tempo total, em segundos, que seu modelo de avatar personalizado está hospedado.
Horas de hospedagem do modelo de voz	Rastreia o tempo total, em horas, que seu modelo de voz neural personalizado está hospedado.
Minutos de treinamento do modelo de voz	Mede o tempo total em minutos para treinar seu modelo de voz neural personalizado.

Documentos de referência

IA responsável

Um sistema de IA inclui não apenas a tecnologia, mas também as pessoas que a usam, as pessoas que são afetadas por ela e o ambiente em que é implantado. Leia as notas de transparência para saber mais sobre o uso e a implantação responsáveis da IA em seus sistemas.

Partilhar via