Visão geral do SSML (Speech Synthesis Markup Language)

Artigo
09/24/2024

A Linguagem de Marcação de Síntese de Fala (SSML) é uma linguagem de marcação baseada em XML que você pode usar para ajustar os atributos de saída de conversão de texto em fala, como tom, pronúncia, taxa de fala, volume e muito mais. Ela oferece mais controle e flexibilidade do quea entrada de texto sem formatação.

Dica

Ouça vozes em diferentes estilos e timbres lendo um texto de exemplo usando a Galeria de Voz.

Cenários de caso de uso

A SSML foi desenvolvida para oferecer flexibilidade na forma como você deseja que a saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar o SSML para:

Defina a estrutura do texto de entrada que determina a estrutura, o conteúdo e outras características da sua saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode envolver o texto com marcas de evento, como um indicador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema (os sons individuais da fala) na linguagem falada.
Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um só documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. A SSML também pode inserir áudios pré-gravados, como um efeito sonoro ou uma nota musical.
Controle a pronúncia do áudio de saída. Por exemplo, você pode o SSML com fonemas e um léxico personalizado para aprimorar a pronúncia. Você também pode usar o SSML para definir como uma palavra ou uma expressão matemática é pronunciada.

Maneiras de trabalhar com a SSML

A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.

Importante

Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja passível de cobrança, o serviço conta os elementos opcionais usados para ajustar como o texto é convertido em fala, como fonemas e timbre, como caracteres passíveis de cobrança. Para obter mais informações, consulte a nota de preços.

Você pode usar o SSML dos seguintes modos:

A ferramenta de criação de conteúdo de áudio permite que você crie texto sem formatação e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Para obter mais informações, consulte Síntese de fala com a ferramenta de criação de conteúdo de áudio.
A API de síntese do lote aceita SSML por meio da propriedade inputs.
A CLI de Fala aceita SSML por meio do argumento de linha de comando spx synthesize --ssml SSML.
O SDK de Fala aceita SSML por meio do método SSML "speak" nos diferentes idiomas compatíveis.

Compartilhar via

Visão geral do SSML (Speech Synthesis Markup Language)

Cenários de caso de uso

Maneiras de trabalhar com a SSML

Próximas etapas

Comentários

Recursos adicionais