Compartilhar via


Visão geral do SSML (Speech Synthesis Markup Language)

A Linguagem de Marcação de Síntese de Fala (SSML) é uma linguagem de marcação baseada em XML que você pode usar para ajustar os atributos de saída de conversão de texto em fala, como tom, pronúncia, taxa de fala, volume e muito mais. Ela oferece mais controle e flexibilidade do quea entrada de texto sem formatação.

Dica

Ouça vozes em diferentes estilos e timbres lendo um texto de exemplo usando a Galeria de Voz.

Cenários de caso de uso

A SSML foi desenvolvida para oferecer flexibilidade na forma como você deseja que a saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar o SSML para:

  • Defina a estrutura do texto de entrada que determina a estrutura, o conteúdo e outras características da sua saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode envolver o texto com marcas de evento, como um indicador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema (os sons individuais da fala) na linguagem falada.
  • Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um só documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. A SSML também pode inserir áudios pré-gravados, como um efeito sonoro ou uma nota musical.
  • Controle a pronúncia do áudio de saída. Por exemplo, você pode o SSML com fonemas e um léxico personalizado para aprimorar a pronúncia. Você também pode usar o SSML para definir como uma palavra ou uma expressão matemática é pronunciada.

Maneiras de trabalhar com a SSML

A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.

Importante

Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja passível de cobrança, o serviço conta os elementos opcionais usados para ajustar como o texto é convertido em fala, como fonemas e timbre, como caracteres passíveis de cobrança. Para obter mais informações, consulte a nota de preços.

Você pode usar o SSML dos seguintes modos:

Próximas etapas