Panoramica di Speech Synthesis Markup Language (SSML)

Speech Synthesis Markup Language (SSML) è un linguaggio di markup basato su XML che può essere usato per ottimizzare gli attributi di output di sintesi vocale, ad esempio pitch, pronuncia, frequenza di parlato, volume e altro ancora. Si dispone di maggiore controllo e flessibilità rispetto all'input di testo normale.

Suggerimento

È possibile ascoltare voci in diversi stili e campi di lettura testo di esempio tramite la Raccolta voce.

Scenari

È possibile usare SSML per:

  • Definire la struttura di testo di input che determina la struttura, il contenuto e altre caratteristiche dell'output di sintesi vocale. Ad esempio, è possibile usare SSML per definire un paragrafo, una frase, un'interruzione o un'interruzione o un silenzio. È possibile eseguire il wrapping del testo con tag di evento, ad esempio segnalibro o viseme, che può essere elaborato in un secondo momento dall'applicazione.
  • Scegliere la voce, la lingua, il nome, lo stile e il ruolo. È possibile usare più voci in un singolo documento SSML. Regolare l'enfasi, la frequenza di parlato, il passo e il volume. È anche possibile usare SSML per inserire audio preregistrato, ad esempio un effetto audio o una nota musicale.
  • Controllare la pronuncia dell'audio di output. Ad esempio, è possibile usare SSML con fonemi e un lexicon personalizzato per migliorare la pronuncia. È anche possibile usare SSML per definire il modo in cui viene pronunciata una parola o un'espressione matematica.

Usare SSML

Importante

Viene fatturata per ogni carattere convertito in voce, inclusa la punteggiatura. Anche se il documento SSML stesso non è fatturabile, gli elementi facoltativi usati per regolare il modo in cui il testo viene convertito in voce, ad esempio fonemi e passo, vengono conteggiati come caratteri fatturabili. Per altre informazioni, vedere note sui prezzi di testo a voce.

È possibile usare SSML nei modi seguenti:

Passaggi successivi