Visão geral da SSML (Speech Synthesis Markup Language)

Artigo
01/22/2024

A SSML (Speech Synthesis Markup Language) é uma linguagem de marcação baseada em XML que você pode usar para ajustar seu texto aos atributos de saída de fala, como tom, pronúncia, taxa de fala, volume e muito mais. Dá-lhe mais controlo e flexibilidade do que a introdução de texto simples.

Gorjeta

Você pode ouvir vozes em diferentes estilos e tons lendo texto de exemplo usando a Galeria de vozes.

Cenários de caso de utilização

O SSML foi projetado para oferecer flexibilidade em como você deseja que sua saída de fala soe e fornece propriedades diferentes para como você pode personalizar essa saída. Você pode usar SSML para:

Defina a estrutura de texto de entrada que determina a estrutura , o conteúdo e outras características da saída de texto para fala. Por exemplo, você pode usar SSML para definir um parágrafo, uma frase, uma pausa ou silêncio. Você pode quebrar o texto com tags de evento, como um marcador ou viseme, que seu aplicativo pode processar posteriormente. Um viseme é a descrição visual de um fonema, os sons individuais da fala, na linguagem falada.
Escolha a voz, o idioma, o nome, o estilo e a função. Você pode usar várias vozes em um único documento SSML. Você também pode ajustar a ênfase, a taxa de fala, o tom e o volume. SSML também pode inserir áudio pré-gravado, como um efeito sonoro ou uma nota musical.
Controle a pronúncia do áudio de saída. Por exemplo, você pode usar SSML com fonemas e um léxico personalizado para melhorar a pronúncia. Você também pode usar SSML para definir como uma palavra ou expressão matemática é pronunciada.

Formas de trabalhar com SSML

A funcionalidade SSML está disponível em várias ferramentas que podem se adequar ao seu caso de uso.

Importante

Você é cobrado por cada caractere convertido em fala, incluindo pontuação. Embora o documento SSML em si não seja faturável, o serviço conta elementos opcionais que você usa para ajustar como o texto é convertido em fala, como fonemas e pitch, como caracteres faturáveis. Para obter mais informações, consulte a nota de preços.

Você pode usar o SSML das seguintes maneiras:

A ferramenta de criação de conteúdo de áudio permite criar texto sem formatação e SSML no Speech Studio. Você pode ouvir o áudio de saída e ajustar o SSML para melhorar a síntese de fala. Para obter mais informações, consulte Síntese de fala com a ferramenta de criação de conteúdo de áudio.
A API de síntese em lote aceita SSML através da inputs propriedade.
A CLI de Fala aceita SSML por meio do argumento de linha de spx synthesize --ssml SSML comando.
O Speech SDK aceita SSML através do método SSML "speak" nos diferentes idiomas suportados.

Visão geral da SSML (Speech Synthesis Markup Language)

Cenários de caso de utilização

Formas de trabalhar com SSML

Próximos passos

Recursos adicionais