Visão geral do SSML (Speech Synthesis Markup Language)
A Linguagem de Marcação de Síntese de Fala (SSML) é uma linguagem de marcação baseada em XML que você pode usar para ajustar os atributos de saída de conversão de texto em fala, como tom, pronúncia, taxa de fala, volume e muito mais. Ela oferece mais controle e flexibilidade do quea entrada de texto sem formatação.
Dica
Ouça vozes em diferentes estilos e timbres lendo um texto de exemplo usando a Galeria de Voz.
Cenários de caso de uso
A SSML foi desenvolvida para oferecer flexibilidade na forma como você deseja que a saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar o SSML para:
- Defina a estrutura do texto de entrada que determina a estrutura, o conteúdo e outras características da sua saída de conversão de texto em fala. Por exemplo, você pode usar o SSML para definir um parágrafo, uma frase, uma interrupção ou uma pausa ou um silêncio. Você pode envolver o texto com marcas de evento, como um indicador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema (os sons individuais da fala) na linguagem falada.
- Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um só documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. A SSML também pode inserir áudios pré-gravados, como um efeito sonoro ou uma nota musical.
- Controle a pronúncia do áudio de saída. Por exemplo, você pode o SSML com fonemas e um léxico personalizado para aprimorar a pronúncia. Você também pode usar o SSML para definir como uma palavra ou uma expressão matemática é pronunciada.
Maneiras de trabalhar com a SSML
A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.
Importante
Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja passível de cobrança, o serviço conta os elementos opcionais usados para ajustar como o texto é convertido em fala, como fonemas e timbre, como caracteres passíveis de cobrança. Para obter mais informações, consulte a nota de preços.
Você pode usar o SSML dos seguintes modos:
- A ferramenta de criação de conteúdo de áudio permite que você crie texto sem formatação e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Para obter mais informações, consulte Síntese de fala com a ferramenta de criação de conteúdo de áudio.
- A API de síntese do lote aceita SSML por meio da propriedade
inputs
. - A CLI de Fala aceita SSML por meio do argumento de linha de comando
spx synthesize --ssml SSML
. - O SDK de Fala aceita SSML por meio do método SSML "speak" nos diferentes idiomas compatíveis.